首页 > 科技 > 去太空训练AI大模型,24小时太阳能供电的GPU明年上天
2024-09-06

去太空训练AI大模型,24小时太阳能供电的GPU明年上天

机器之心报道

编辑:泽南

在未来,太空 AI 算力或许要比地球上功率最大的还要大。

大模型的未来,其实是在天上?

为了跟上人工智能快速发展的步伐,最近全球都在争抢 AI 算力,想得更远的人(如 OpenAI CEO Sam Altman)甚至已经把问题想到了供电这一层。据说在 OpenAI 训练新一代大模型时,计算集群甚至会对当地的电网造成冲击。如果基础设施能力提升的步伐不及 AI 技术发展,或许 AGI 的瓶颈会变成能源。

在这个时候,一家 Y-Combinator 投资的创业公司 Lumen Orbit 引发了人们的关注,他们发现在太空中组建 AI 计算集群是个好主意:可以直接利用太阳能、随时随地的被动冷却,还有自由扩展的空间。

Lumen Orbit 建造太空数据中心的计划已经提上了日程,该公司计划明年发射第一颗卫星,还将每年发射一次更大的迭代,直到服务器总功率达到千兆瓦规模。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650933016&idx=1&sn=9b68b23e0fe1247783b2e78f6e161f9a&chksm=84e7c366b3904a701e1cf37501db357966690152dca2bb0927f42f9339fd9fabae294ff2b044&token=212787030&lang=zh_CN#rd

Lumen Orbit 已经在华盛顿州雷德蒙德建立了有效载荷制造工厂,设计并开始建造和测试第一艘航天器,其搭载的 GPU 会是有史以来发射到太空最快的 GPU,速度将要比当前发射到太空中的最强 GPU 快约 100 倍。第一颗卫星将是一颗 60 公斤的演示卫星,预计将于 2025 年 5 月作为 SpaceX 猎鹰 9 号火箭的共乘有效载荷发射,可用的微型数据中心则将在 2026 年进行发射。

该公司的 CEO Philip Johnston 表示,Lumen 正在与 Ansys 和 Solidworks 合作进行卫星设计和开发,并正在向联邦通信委员会和国际电信联盟提交申请。

虽然发射数据中心对于航天器运载能力的挑战巨大,但从第一性原理出发,Lumen Orbit 已经开发了一系列概念设计,并且没有发现任何难以克服的障碍。随着 Starship 和 New Glenn 等新型、可复用、经济高效的重型运载火箭即将投入使用,再加上在轨网络的普及,轨道算力的设想或许将变得非常现实。

太空训练大模型,有效率优势

为什么要在太空建造 AI 算力集群呢?理论上来说,太空数据中心可全天候利用高强度太阳能,不受昼夜循环、天气和大气损耗(衰减)的影响。这使得边际能源成本大大降低,与地面相比,运营成本大幅节省。

Lumen Orbit 为我们算了一笔账,美国地面太阳能发电场的平均容量系数仅为 24%,相比之下,该公司提出的太空太阳能电池阵列的容量系数大于 95%,没有昼夜循环,最佳面板方向垂直于太阳光线,不受季节或天气的影响。因此,太空中的太阳能电池阵列产生的能量将是地球上相同阵列的 5 倍以上。

假设每发射一次 500 万美元的火箭任务可转换为 40 兆瓦的数据中心,太阳能电池的材料成本为每瓦 0.03 美元,均在 10 年内摊销,我们将能够获得约 0.002 美元 / 千瓦时的等效能源成本。相比之下,美国、英国和日本的平均批发电力成本分别为 0.045 美元 / 千瓦时、0.06 美元 / 千瓦时和 0.17 美元 / 千瓦时。因此,轨道数据中心可以提供比当今能源价格更低能源。

下一个是散热问题。外太空的「有效」环境温度约为 - 270°C,相当于宇宙微波背景辐射的温度。要利用深空作为散热器来散发废热,需要避免太阳直射,设计一个可展开的散热器。一块保持在 20°C 的 1×1m 黑板可以向深空辐射约 850 瓦,这大约是太阳能电池板每平方米发电量的三倍。因此,这些散热器的尺寸需要约为太阳能电池阵列的三分之一,具体取决于散热器的配置。

在太空中,我们可以使用比常规高性能算力冷却器更简单、更高效的冷却架构。据估计,我们可以实现与最先进的超大规模地面数据中心相当的 PUE。此外,某些轨道上的轨道数据中心几乎没有「环境温度」波动(太阳辐射变化不超过约 0.2%),并且处于高度稳定的热和机械环境中,这有助于热控制和稳定性。

然后是可扩展性。轨道数据中心将解锁地球上前所未见的下一代集群规模,发电量将远超 GW 范围。它们可以几乎无限地线性扩展,不受地面项目的物理和规划限制,可以在 3D 空间的各个方向上扩展。

如果按照大模型领域目前的趋势继续下去,从 2027 年开始,我们将需要数 GW 功率的集群来训练最大的 LLM。假设一个 5 GW 集群将用于训练 Llama 5 或 GPT-6 等模型,耗电量就直接超过了美国最大的发电厂供能。因此在当今的能源基础设施条件下,这种集群根本是不可能运转的,寻找新的方向对于训练下一代人工智能模型至关重要。

在太空 AI 算力运行的过程中,其他卫星会将他们收集的数据发送给 Lumen Orbit 的星座,使用机载 GPU 进行推理,随后输出推理结果。

Lumen Orbit 并不是唯一一家致力于将数据中心送入轨道的公司:欧盟资助的项目 ASCEND 一直在研究太空数据中心的可行性,总部位于德克萨斯州的 Axiom Space 表示,它正在与 Kepler Space 和 Skyloom 合作,在 Axiom 的第一个太空舱上建立一个轨道数据中心,预计将于 2026-2027 年发射。

团队成员

Lumen Orbit 于 2023 年底刚刚成立,公司创始人、CEO Philip Johnston 曾在 McKinsey & Co. 工作,负责国家航天局的卫星项目。Philip 拥有哈佛大学公共管理硕士学位、沃顿商学院工商管理硕士学位、哥伦比亚大学应用数学与理论物理硕士学位,他也是一名特许金融分析师(CFA)。

该公司的 CTO Ezra Feilden 拥有十年卫星设计经验,专攻可展开太阳能电池阵列和大型可展开结构。Ezra 曾就职于空中客车防务与航天公司(SSTL)和牛津太空系统公司,参与过包括 NASA 的月球探路者号在内的任务。Ezra 拥有伦敦帝国理工学院材料工程博士学位。

首席工程师 Adi Oltean 曾任 SpaceX 首席软件工程师,是 Starlink 网络团队的一员,曾为包括 Starship 在内的移动用户提供 Starlink 服务。在此之前,他在微软的大型 GPU 生产集群上部署了第一个大语言模型,在微软工作的二十多年中,他曾获得了 25 项专利。Adi 拥有布加勒斯特两所顶尖大学的计算机科学和化学学位。

参考内容:https://www.ycombinator.com/launches/LmD-lumen-orbit-data-centers-in-space