原来两个 M1 Max 可以拼在一起……

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Support

› 根据产品序列号查看状态

有用链接

› Apple 产品更新周期

› Other World Computing 性能升级

› Apple 软件 Beta 测试

这是一个创建于 1288 天前的主题，其中的信息可能已经有所发展或是发生改变。

变成 M1 Ultra ，感觉像是合体技😂

Ultra

Max

合体

变成

25 条回复 • 2022-03-09 19:25:48 +08:00

billgong

2022-03-09 07:28:47 +08:00

看图的话，这个和 infinity fabric 以及 NVLink 类似的 inter chip connectivity 差不多。我感觉可以权当快一点的双路 SMP 。

似乎内存控制器也是分片的，不知道实际使用下 NUMA Node 会不会造成瓶颈。没太搞明白 800G 的内存带宽怎么算出来的，毕竟这么设计，片间损耗不会小。

Aviciii

2022-03-09 08:19:56 +08:00

M1 刚出来的时候就有新闻说可以无缝拼接，貌似还可以接更多

b1t

2022-03-09 08:20:51 +08:00 via iPhone

胶水 cpu ，又不是第一次这么玩了

shutongxinq

2022-03-09 08:29:19 +08:00

@billgong 老哥别瞎讲。这种类似于 CoWoS 的技术和 infinity fabric / NVLink 有本质的不同，这是直接把芯片 fuse 在一起，是台积电的类似于 Intel 的先进封装的技术

从带宽上也可以看出来。Infinity fabric 200GB 不到的带宽，和 2.5T 的 M1 Ultra 怎么比？

内存控制器分片太常见了，你看哪个服务器 u 没有分片？ 800GB = 2*400GB ，两款 M1 Max ，很直观的。

aptupdate

2022-03-09 08:35:02 +08:00 via iPhone

ultra 应该叫 m2 ，三块拼一起的叫 m3……

billgong

2022-03-09 08:41:04 +08:00

@shutongxinq 是同一种进化路线，毕竟 IF/NVLink 已经是多年前的技术了，进化到现在自然就是 2.5D 封装了。接下来就是标准化，片内用各家的自己的片间通信，片外用比如前段时间公布的 UCIe 。

片间通信速度再快也得抵得上不同内存控制器间的延迟以及其他设备（比如显卡、三缓）争抢的带宽。苹果的设计理念就是所有东西都是 interconnected ，所以才需要那么宽的 UltraFusion ，上面会跑的东西有很多，不只是三四五级缓存。

Intel 的多路 CPU 的 NUMA 一直是个瓶颈，EPYC 上则同一个 package 上都有 NUMA 瓶颈。既然两个 M1 Max 拼在一起，又没有共享内存控制器，那就会有瓶颈。这个瓶颈肯定比 Intel 、AMD 那边好看的多（架构决定的）但能不能做到翻倍的性能提升，就得看 workload 了。

billgong

2022-03-09 08:47:03 +08:00

@aptupdate 多处理器拼在一起不是简简单单的黏在一起就可以了，Pentium D 就是个例子。芯片越多对片间总线的压力就越大。两颗芯片只需要照顾相互通信即可，三芯片就得两两连接在一起，四芯片的话，每个芯片都需要能和其他三片直接连接，等等等等，复杂度会越来越高。如果是单一的统一总线，那速度一定快不起来，可以拿交换机的背板容量作不太恰当的比喻。因此，这种多芯片连接的架构可扩展性是有一个上限的，超过平衡点后，一些 workload 的性能就会出现断层式下降。

cuixiao603

2022-03-09 08:47:39 +08:00

英特尔时代给苹果留的散热空间太大了，感觉苹果光这么拼 cpu 也够撑几年

wobuhuicode

2022-03-09 08:50:35 +08:00

懂了。年底等两个 M1 Ultra 拼起来的 Super M1 Ultra

Leonard

2022-03-09 09:01:18 +08:00

Mac Pro 还更新，还有更高规格的

Leonard

2022-03-09 09:01:58 +08:00

@Leonard #10 还没更新

yoyoyoyolol

2022-03-09 09:04:20 +08:00

@Leonard 发布会那个主持人说 ultra 是 M1 系列的最后一款芯片，mac pro 可能是多块 m1 ultra 了

aptupdate

2022-03-09 09:05:16 +08:00 via iPhone

@billgong 我知……拼在一起并不能简单的 1+1=2

2NUT

2022-03-09 09:18:24 +08:00

@billgong #1 nvlink 都是外部连接，能和 m1 ultra die 间 fuse 封装比么？你这是误导人

superchijinpeng

2022-03-09 09:21:54 +08:00

@billgong 老哥，快别不懂装懂了

zxxufo008

2022-03-09 09:28:36 +08:00

m1 ultra 是 m1 的最终体了，m2 大概率是要改架构加降低成本了

jr55475f112iz2tu

2022-03-09 09:33:55 +08:00

@billgong 按照 apple 的 PPT ，Ultra 性能并没有 Max 的两倍，所以实际使用上肯定到不了翻倍，还是会有损耗

fisherwei

2022-03-09 10:37:35 +08:00

@billgong
带宽上：
双路 xeon 的互联总线 UPI 是 10.6GT/s ，大约等于 84.8GB/s ，一个 CPU 有 3 个 UPI ，等于 254.4 GB/s 。和 UltraFusion 的 2.5TB/s 相差一个数量级。

延迟上：
具体还要等测试出来了。按照 epyc 的经验，socket 内 numa 之间的延迟大约和跨 socket 相差一个数量级。

billgong

2022-03-09 10:45:47 +08:00

@czfy 就是这个意思

BenX

2022-03-09 10:47:52 +08:00

秋季的 Mac Pro 就是四个胶水 M1 Max

billgong

2022-03-09 10:48:39 +08:00

@fisherwei 你说的没错，带宽上肯定不能和以前的总线作比较，发布会上也提到了这个。当然这个技术不是苹果独有的，各家都在开发这种片上的互联总线。主要还是延迟，真的得看这两颗 max 是否能做到同一个 numa node 了。

littlewing

2022-03-09 11:05:46 +08:00

服务器双路 CPU 不是标配吗，又不是啥新鲜技术了

shijingshijing

2022-03-09 14:17:55 +08:00

@billgong

Infinity Fabric / NVLink 是在 substrate 上进行的互联，说直白一点就是高密度高性能的 PCB;
M1 Ultra 还有 NVIDIA 的 A100 ，走的是 Silicon ，电气性能要好的多，不管是传输功率还是信号完整性，都远好与前者，两者可以说不在一个数量级上。

如果不明白，请看下图：

shijingshijing

2022-03-09 14:20:23 +08:00

@shijingshijing 23# 有的叫 Silicon Bridge ，只用到芯片与芯片之间一小部分；有的是一整片硅，叫 Interposer ，实质都是走硅介质。

yhrzpm

2022-03-09 19:25:48 +08:00

这不就是法环里的接肢