马斯克旗下xAI超算“巨像”亮相,10万颗英伟达GPU打破AI模型训练纪录
腾讯科技讯 9 月 4 日消息,据国外媒体报道,不管你怎么看埃隆 · 马斯克(Elon Musk),但当这位技术颠覆者下定决心做某件事时,他都会全力以赴。马斯克旗下人工智能创企 xAI 刚刚上线了名为 " 巨像 "(Colossus)的超级计算机,用于训练 Grok 大语言模型(LLM),旨在与 OpenAI 的 GPT-4 一较高下。
使用 10 万颗英伟达 GPU 122 天上线
xAI 周一宣布," 巨像 " 集成了 10 万颗英伟达 GPU,使其成为目前最大的人工智能模型训练系统,并计划在未来几个月内将芯片数量翻一番。马斯克声称,这台超级计算机是全球同类计算机中最强大的,仅用了 122 天就上线了。这也凸显了人工智能行业内为突破技术能力界限而展开的激烈竞争。
" 巨像 " 坐落于美国田纳西州孟菲斯市,它不仅是技术实力的象征,也代表着巨额的资金投入。其中,仅采购英伟达 H100 GPU(即 Hopper)估计耗资就达 30 亿美元。每颗 GPU 的造价都不菲,约为 3 万美元,它是驱动高级人工智能模型训练的核心力量。
马斯克在宣布 " 巨像 " 上线的同时,也透露了未来的宏伟蓝图。他写道:" 从开始到部署完成只用了 122 天!" 他还补充说,随着五万颗更先进的英伟达 H200 GPU 的加入,这台超级计算机的 GPU 总量将增至 20 万颗。 这些较新的 GPU 设计在内存和处理能力方面得到了增强,承诺将提供更强大的计算性能。
" 巨像 " 超级计算机将服务于马斯克旗下 xAI,该公司专注于前沿生成式人工智能技术的研发。它已经推出的项目包括 Grok,这是一个因支持言论自由而闻名的、有争议的聊天机器人。借助 " 巨像 " 无与伦比的计算能力,xAI 正加速推进 Grok 及其他人工智能模型的训练进程,旨在解锁更多功能,并实现性能飞跃。
马斯克透露,经过 10 万颗英伟达 H100 GPU 的训练,即将问世的 Grok 3 将带来前所未有的体验,预示着重大突破。此前,xAI 已成功推出 Grok-1、Grok-1.5 及 Grok-2 的早期测试版,后者虽仅在约 1.5 万颗 GPU 上训练,却已跻身顶尖人工智能大语言模型之列,展现了其巨大潜力。
随着 10 万颗 GPU 的全面投入,Grok 的进化将更加迅猛。马斯克于周一宣布,Grok 3 预计将于年底惊艳亮相。
值得注意的是,尽管 Grok 目前限于马斯克 X 平台的付费用户群体,但业界普遍猜测,其最终或将赋能特斯拉的人形机器人擎天柱,成为驱动这一战略项目的核心人工智能力量。马斯克本人更是对擎天柱寄予厚望,预测其将为特斯拉带来每年万亿美元级别的利润增长。
英伟达 GPU 来源成谜
关于这些 GPU 的来源,尚不确定马斯克公司是否直接采购,亦或选择通过云服务提供商如甲骨文租赁的算力。此前有媒体报道称,xAI 正与甲骨文磋商,拟耗资 100 亿美元在未来几年内租用其云服务器。
然而,无可置疑的是,马斯克旗下公司已直接购入了大量 H100 GPU。例如,这位特斯拉首席执行官曾将原定交付给特斯拉的价值 5 亿美元的英伟达 H100 转移给了 X。
10 万颗 GPU 听起来很多,事实也确实如此,但在科技巨头如 Meta 面前却显得底气不足。Meta 首席执行官马克 · 扎克伯格(Mark Zuckerberg)预计,该公司至 2024 年底将购入约 35 万颗 H100,整体芯片库存或达 60 万颗,总投资额预估高达 180 亿美元。
此外,H100 芯片的充足储备也加剧了人工智能顶尖人才的竞争态势。人工智能初创公司 Perplexity 的创始人兼首席执行官阿拉文德 · 斯里尼瓦斯(Aravind Srinivas)透露,在招募 Meta AI 的资深研究员时,对方以扎克伯格拥有大量 GPU 资源为由婉拒。他补充说:" 我试图从 Meta 聘请一位资深研究员,你知道他们怎么说吗 ? ‘等你有了 1 万个 H100 GPU 再来找我!’ "。
" 巨像 " 庞大规模引电力和用水担忧
" 巨像 " 的发布虽令人惊叹,却也伴随着环保争议。当地环保组织对其可能对孟菲斯基础设施,尤其是电网与供水系统的影响表示忧虑,并要求评估冷却系统对环境的潜在危害。不过,市政府官员已表态,xAI 正积极采取措施减轻这些顾虑,并助力当地基础设施升级。
" 巨像 " 以其超大规模在人工智能计算集群领域脱颖而出,超越了谷歌与 OpenAI 等业界巨擘的现有芯片集群规模。谷歌的系统使用了 9 万颗 GPU,而 OpenAI 的系统使用了 8 万颗 GPU。此举不仅标志着 xAI 在人工智能军备竞赛中的领先地位,也树立了行业新标杆。面对激烈的竞争,Meta、微软及 OpenAI 等纷纷加大对 GPU 技术的投资,以强化自身人工智能实力。
英伟达数据中心在社交媒体上确认," 巨像 " 作为 " 全球最大的 GPU 超级计算机 ",以惊人速度完成部署,并称赞其在能效上的突破性表现。该公司在其帖子中说:" 巨像由英伟达的加速计算平台提供支持,在能源效率方面取得了突破性的表现。"
xAI 初期之所以选择英伟达 H100 GPU,并计划未来升级至更先进的 H200 型号,凸显了人工智能行业的高风险与高回报特性。H200 GPU 凭借其卓越的规格,如 141GB HBM3E 内存及 4.8TB/s 带宽,成为当前 AI 领域的佼佼者,而英伟达最新 Blackwell 芯片的推出,则预示着性能标准的再次提升,尽管 H200 依然占据关键地位。
随着 " 巨像 " 成为业界瞩目的焦点,关于人工智能技术可访问性及资源集中化问题的讨论或将更加激烈。资金雄厚的实体能够部署如此强大的系统,无疑对小型组织及研究人员构成了显著影响。
早在 2023 年 4 月,马斯克就开始采购数以万计的 GPU 以加速人工智能研发,而此前他刚刚公开呼吁整个行业暂停开发先进人工智能系统六个月。同年 3 月,马斯克还提及了人工智能在 X 上的潜在应用,如检测舆论操纵,而 " 巨像 " 这样的 GPU 超级计算机无疑也为 Grok 等大语言模型的训练提供了强大支持。
马斯克虽曾豪言将特斯拉打造为 " 人工智能与机器人领域的领导者 ",但对 xAI 和 X 的巨大投入或许会对特斯拉自动驾驶技术及 Optimus 人形机器人所需的计算能力开发进程造成一定延缓。(编译 / 金鹿)