您的位置 首页 科技

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

新智元报道 编辑:定慧 桃子 【新智元导读】 谷歌TPU也要上空了!「登月计划」Project Suncatcher推出,预计在2027年发射两颗原型卫星,用太阳能驱动AI。

新智元报道

编辑:定慧 桃子

【新智元导读】谷歌TPU也要上空了!「登月计划」Project Suncatcher推出,预计在2027年发射两颗原型卫星,用太阳能驱动AI。

继英伟达之后,谷歌也要把TPU送上太空了!

今天,谷歌官宣「Project Suncatcher」(捕日者计划),要在太空建设可扩展的AI计算系统。

它将利用几乎无限的太阳能量,相当于人类总发电量100万亿倍,为下一代机器学习注入动力。

谷歌CEO劈柴称之为,「全新的登月计划」。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

预计2027年,谷歌与Planet将把两颗原型卫星送入轨道,一个全新里程碑即将实现。

展开全文

不过,AI算力上空之前,还有许多亟待解决的工程难题。

好在,谷歌新一代Trillium架构TPU,在模拟近地轨辐射水平的粒子加速器测试中,「扛住了」太空辐射。

除此之外,热管理、在轨系统可靠性等,仍是需要攻克的工程挑战。

太阳直接给AI充能

谷歌最新的论文叫做《迈向未来基于太空的、高度可扩展的人工智能基础设施系统设计》。

看名字似乎有些长,但是这篇论文,还有一个简单的文件名,Suncatcher,太阳捕捉者、捕日计划。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

AI对算力的需求正在催生一个难以想象的需求,一个地球目前也无法满足的需求:电量不够了。

于是,这些AI巨头开始把目光投向天空,投向太阳。

在太阳系中,太阳的能量输出为3.86 × 10^26瓦,发出的能量超过人类总电力产量的100万亿倍以上。

处于合适轨道时,太阳能板的产能可比地球上高出多达8倍,并且几乎可以持续发电,从而减少对电池的依赖。

在未来的某个时候,为AI供能的最佳方式很可能就是直接利用太阳能!

谷歌提出一种替代方案:不是从太空向地球传输电力,再供给AI数据中心。

而是直接建立基于太空的机器学习「数据中心」,由许多太阳能供电的卫星通过自由空间光学星间链路联网构成。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

一个自由下落(无推力)星座在地球引力作用下的演化过程,其建模细节足以推算出太阳同步轨道。该模型位于一个非旋转坐标系中,并以中心参考卫星S0为参照。箭头指向地心。品红色:卫星S0的最近邻卫星。橙色:示例「外围」卫星S1。橙色虚线:S1 相对于集群中心的位置(在非旋转坐标系中)。

系统设计与关键挑战

谷歌提出的系统由一个「网络化的卫星星座」构成,可能会运行在晨昏太阳同步低地球轨道上。

在该轨道上,卫星能够近乎持续地接收到阳光照射。

这种轨道选择最大化了太阳能的收集,并减少了对重型星载电池的需求。为使该系统成为可能,必须克服以下几项技术挑战:

1. 打造数据中心级别的星间链路

大规模机器学习工作负载要求将任务分布在众多加速器上,并通过高带宽、低延迟的连接进行通信。

为了提供堪比地面数据中心的性能,卫星之间的链路需要支持每秒数十太比特(Tbps)的传输速率。

谷歌分析表明,采用「多通道密集波分复用」(DWDM)收发器和空间复用技术,这一目标有望实现。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

然而,要达到如此高的带宽,所需的接收功率水平要比传统远程部署高出数千倍。

由于接收功率与距离的平方成反比,可以让卫星以非常紧密的编队(间距在公里级或更小)飞行来应对这一挑战,从而满足链路预算的要求,即通信系统中端到端信号功率损耗的核算。

谷歌团队已通过一个实验平台验证系统着手验证此方法,该系统使用一对收发器成功实现了单向800Gbps(总计1.6Tbps)的传输速率。

2. 控制大型、紧密集群的卫星编队

高带宽星间链路要求卫星以远比现有任何系统都更紧凑的编队飞行。

为此,谷歌团队开发了数值和解析物理模型,来分析此类星座的轨道动力学。

他们从希尔-克洛赫西-威尔特方程(Hill-Clohessy-Wiltshire equations)出发,采用一种近似方法,并利用一个基于JAX的可微分模型进行数值优化,以计入更多的摄动因素。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

希尔-克洛赫西-威尔特方程组在开普勒近似下,描述了卫星相对于圆形参考轨道的运动

在谷歌规划的星座高度上,地球引力场的非球形特性以及潜在的大气阻力,是影响卫星轨道动力学最主要的非开普勒效应。

下图标示了一个包含81颗卫星的示例星座在一个完整轨道周期内的轨迹,该星座位于轨道平面内,平均集群高度为650公里。

集群半径R=1公里,在地球引力影响下,次近邻卫星间的距离在约100-200米的范围内振荡。

模型表明,在卫星间距仅数百米的情况下,或许只需进行适度的轨道保持机动,即可在预期的太阳同步轨道上维持星座的稳定。

3. TPU 的抗辐射能力

为了让机器学习加速器在太空中有效运行,它们必须能够承受低地球轨道的严苛环境。

谷歌在67MeV的质子束中对谷歌的v6e云TPU——Trillium进行了测试,以评估总电离剂量(TID)和单粒子效应(SEE)对其造成的影响。

测试结果十分喜人。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

尽管高带宽内存(HBM)子系统是最敏感的组件,但它们直到累积辐射剂量达到2 krad(Si) 时才开始出现异常——这几乎是预期的(有屏蔽防护下)五年任务总剂量750 rad(Si)的三倍。

在对单个芯片高达15 krad(Si)的极限剂量测试中,没有出现任何可归因于总电离剂量的硬故障。

这表明,Trillium TPU 对于太空应用而言,表现出惊人的抗辐射能力。

4. 经济可行性与发射成本

历史上,高昂的发射成本一直是部署大规模天基系统的主要障碍。

然而,谷歌对历史及预测的发射价格数据分析表明,只要(成本)学习率能持续下去,到2030年代中期,发射价格有望降至每公斤200美元以下。

在这一价格水平上,以「每千瓦/年」为单位计算,一个天基数据中心的发射和运营成本,或将与公开报道的同等规模地面数据中心的能源成本大致相当。

解读谷歌星间链路

大规模地面机器学习(ML)集群的网络需求远远超出现有卫星间链路(ISL)技术的能力。

例如,谷歌的TPU超级计算机采用两层网络架构。高速数据中心网络一种定制的低延迟光学芯片间互连(ICI)每芯片吞吐量达数百吉比特每秒。

相比之下,商业可用的光学ISL提供的速率仅在1–100Gbps范围内。

马斯克造星链,劈柴造算链!英伟达卷到宇宙,谷歌也要上天

图中X轴(距离,单位:km):表示光学星间链路(OISL)中数据传输的距离,范围从不到1公里到超过10,000公里。Y轴(带宽,单位:Gbps):表示不同光学系统在对应距离下所能实现的带宽。

可以看到,距离和带宽之间呈现出典型的反比关系,即随着距离增加,带宽会下降,这在光通信中是常见的现象,因为光信号在传播过程中会衰减。

8×8空间复用这种系统,适用于非常短的通信距离,能够提供较高的带宽;而像Starlink24路DWDM这种系统则适用于较长距离的通信,能够在更远的距离上传输大量数据。

谷歌提出的星间通信方案主要是:

  • 飞行卫星群处于近距离编队(距离在「数百米至几公里」量级)以大幅降低链路路径损耗,从而获得高接收功率。

  • 利用自由空间光通信结合多通道密集波分复用(DWDM)技术(类似或采用于地面数据中心的商用DWDM收发器)来实现每链路10 Tbps级别的带宽目标。

  • 在距离极短的时候,还考虑「空间复用」多个光束共传以进一步提升容量。

飞行卫星群处于近距离编队(距离在「数百米至几公里」量级)以大幅降低链路路径损耗,从而获得高接收功率。

利用自由空间光通信结合多通道密集波分复用(DWDM)技术(类似或采用于地面数据中心的商用DWDM收发器)来实现每链路10 Tbps级别的带宽目标。

在距离极短的时候,还考虑「空间复用」多个光束共传以进一步提升容量。

参考资料:

https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/

本文来自网络,不代表天牛新闻网立场,转载请注明出处:http://cqkbt.cn/37122.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部