马斯克旗下xAI超算“巨像”亮相，10万颗英伟达GPU打破AI模型训练纪录

马斯克旗下xAI超算“巨像”亮相，10万颗英伟达GPU打破AI模型训练纪录

腾讯科技讯 9 月 4 日消息，据国外媒体报道，不管你怎么看埃隆 · 马斯克（Elon Musk），但当这位技术颠覆者下定决心做某件事时，他都会全力以赴。马斯克旗下人工智能创企 xAI 刚刚上线了名为 " 巨像 "（Colossus）的超级计算机，用于训练 Grok 大语言模型（LLM），旨在与 OpenAI 的 GPT-4 一较高下。

使用 10 万颗英伟达 GPU 122 天上线

xAI 周一宣布，" 巨像 " 集成了 10 万颗英伟达 GPU，使其成为目前最大的人工智能模型训练系统，并计划在未来几个月内将芯片数量翻一番。马斯克声称，这台超级计算机是全球同类计算机中最强大的，仅用了 122 天就上线了。这也凸显了人工智能行业内为突破技术能力界限而展开的激烈竞争。

" 巨像 " 坐落于美国田纳西州孟菲斯市，它不仅是技术实力的象征，也代表着巨额的资金投入。其中，仅采购英伟达 H100 GPU（即 Hopper）估计耗资就达 30 亿美元。每颗 GPU 的造价都不菲，约为 3 万美元，它是驱动高级人工智能模型训练的核心力量。

马斯克在宣布 " 巨像 " 上线的同时，也透露了未来的宏伟蓝图。他写道：" 从开始到部署完成只用了 122 天！" 他还补充说，随着五万颗更先进的英伟达 H200 GPU 的加入，这台超级计算机的 GPU 总量将增至 20 万颗。这些较新的 GPU 设计在内存和处理能力方面得到了增强，承诺将提供更强大的计算性能。

" 巨像 " 超级计算机将服务于马斯克旗下 xAI，该公司专注于前沿生成式人工智能技术的研发。它已经推出的项目包括 Grok，这是一个因支持言论自由而闻名的、有争议的聊天机器人。借助 " 巨像 " 无与伦比的计算能力，xAI 正加速推进 Grok 及其他人工智能模型的训练进程，旨在解锁更多功能，并实现性能飞跃。

马斯克透露，经过 10 万颗英伟达 H100 GPU 的训练，即将问世的 Grok 3 将带来前所未有的体验，预示着重大突破。此前，xAI 已成功推出 Grok-1、Grok-1.5 及 Grok-2 的早期测试版，后者虽仅在约 1.5 万颗 GPU 上训练，却已跻身顶尖人工智能大语言模型之列，展现了其巨大潜力。

随着 10 万颗 GPU 的全面投入，Grok 的进化将更加迅猛。马斯克于周一宣布，Grok 3 预计将于年底惊艳亮相。

值得注意的是，尽管 Grok 目前限于马斯克 X 平台的付费用户群体，但业界普遍猜测，其最终或将赋能特斯拉的人形机器人擎天柱，成为驱动这一战略项目的核心人工智能力量。马斯克本人更是对擎天柱寄予厚望，预测其将为特斯拉带来每年万亿美元级别的利润增长。

英伟达 GPU 来源成谜

关于这些 GPU 的来源，尚不确定马斯克公司是否直接采购，亦或选择通过云服务提供商如甲骨文租赁的算力。此前有媒体报道称，xAI 正与甲骨文磋商，拟耗资 100 亿美元在未来几年内租用其云服务器。

然而，无可置疑的是，马斯克旗下公司已直接购入了大量 H100 GPU。例如，这位特斯拉首席执行官曾将原定交付给特斯拉的价值 5 亿美元的英伟达 H100 转移给了 X。

10 万颗 GPU 听起来很多，事实也确实如此，但在科技巨头如 Meta 面前却显得底气不足。Meta 首席执行官马克 · 扎克伯格（Mark Zuckerberg）预计，该公司至 2024 年底将购入约 35 万颗 H100，整体芯片库存或达 60 万颗，总投资额预估高达 180 亿美元。

此外，H100 芯片的充足储备也加剧了人工智能顶尖人才的竞争态势。人工智能初创公司 Perplexity 的创始人兼首席执行官阿拉文德 · 斯里尼瓦斯（Aravind Srinivas）透露，在招募 Meta AI 的资深研究员时，对方以扎克伯格拥有大量 GPU 资源为由婉拒。他补充说：" 我试图从 Meta 聘请一位资深研究员，你知道他们怎么说吗 ? ‘等你有了 1 万个 H100 GPU 再来找我！’ "。

" 巨像 " 庞大规模引电力和用水担忧

" 巨像 " 的发布虽令人惊叹，却也伴随着环保争议。当地环保组织对其可能对孟菲斯基础设施，尤其是电网与供水系统的影响表示忧虑，并要求评估冷却系统对环境的潜在危害。不过，市政府官员已表态，xAI 正积极采取措施减轻这些顾虑，并助力当地基础设施升级。

" 巨像 " 以其超大规模在人工智能计算集群领域脱颖而出，超越了谷歌与 OpenAI 等业界巨擘的现有芯片集群规模。谷歌的系统使用了 9 万颗 GPU，而 OpenAI 的系统使用了 8 万颗 GPU。此举不仅标志着 xAI 在人工智能军备竞赛中的领先地位，也树立了行业新标杆。面对激烈的竞争，Meta、微软及 OpenAI 等纷纷加大对 GPU 技术的投资，以强化自身人工智能实力。

英伟达数据中心在社交媒体上确认，" 巨像 " 作为 " 全球最大的 GPU 超级计算机 "，以惊人速度完成部署，并称赞其在能效上的突破性表现。该公司在其帖子中说：" 巨像由英伟达的加速计算平台提供支持，在能源效率方面取得了突破性的表现。"

xAI 初期之所以选择英伟达 H100 GPU，并计划未来升级至更先进的 H200 型号，凸显了人工智能行业的高风险与高回报特性。H200 GPU 凭借其卓越的规格，如 141GB HBM3E 内存及 4.8TB/s 带宽，成为当前 AI 领域的佼佼者，而英伟达最新 Blackwell 芯片的推出，则预示着性能标准的再次提升，尽管 H200 依然占据关键地位。

随着 " 巨像 " 成为业界瞩目的焦点，关于人工智能技术可访问性及资源集中化问题的讨论或将更加激烈。资金雄厚的实体能够部署如此强大的系统，无疑对小型组织及研究人员构成了显著影响。

早在 2023 年 4 月，马斯克就开始采购数以万计的 GPU 以加速人工智能研发，而此前他刚刚公开呼吁整个行业暂停开发先进人工智能系统六个月。同年 3 月，马斯克还提及了人工智能在 X 上的潜在应用，如检测舆论操纵，而 " 巨像 " 这样的 GPU 超级计算机无疑也为 Grok 等大语言模型的训练提供了强大支持。

马斯克虽曾豪言将特斯拉打造为 " 人工智能与机器人领域的领导者 "，但对 xAI 和 X 的巨大投入或许会对特斯拉自动驾驶技术及 Optimus 人形机器人所需的计算能力开发进程造成一定延缓。（编译 / 金鹿）