买不到GPU马斯克自曝AI巨兽Dojo！自研超算挑战英伟达约等于8千块H100_星空体育(中国)APP下载IOS/Android通用版/手机app

新闻资讯 | 2024-08-07 12:33

　　买不到GPU马斯克自曝AI巨兽Dojo！自研超算挑战英伟达约等于8千块H100多年来，马斯克一直在公开谈论Dojo——这台超算将成为特斯拉人工智能雄心的基石。他最近表示，随着特斯拉准备在10月推出Robotaxi，AI团队将「加倍投入」Dojo。

　　为了训出最强Grok 3，xAI耗时19天，打造了由10万块H100组成的世界最大超算集群。

　　马斯克称，「这将是一个拥有约10万个H100/H200 GPU，并配备大规模存储的系统，用于全自动驾驶（FSD）和Optimus机器人的视频训练」。

　　我们在AI训练系统中不仅使用英伟达的GPU，还使用自己的AI计算机——Tesla HW4 AI（更名为AI4），比例大约为1:2。

　　他还提到，到今年年底，Dojo 1将拥有大约8000个相当于H100算力。这个规模不算庞大，但也不算小。

　　最近，在特斯拉财报会议上，马斯克表示特斯拉准备在10月推出自动驾驶出租车，AI团队将「加倍投入」Dojo。

　　Autopilot前硬件高级总监Ganesh Venkataramanan曾表示，「D1可以同时进行计算和数据传输，采用定制ISA指令集架构星空体育app下载，并针对机器学习工作负载进行了充分优化」。

　　D1在645平方毫米的芯片上放置了500亿个晶体管，而A100包含540亿个晶体管，芯片尺寸为826平方毫米，性能领先于D1。

　　为了获得更高的带宽和算力，特斯拉AI团队将25个D1芯片融合到一个tile中，将其作为一个统一的计算机系统运作。

　　每个tile拥有9 petaflops的算力，以及每秒36 TB的带宽，并包含电力源、冷却和数据传输硬件。

　　通过使用晶圆级互连技术InFO_SoW（Integrated Fan-Out，System-on-Wafer），在同一块晶圆上的25块D1芯片可以实现高性能连接，像单个处理器一样工作。

　　在2022年AI Day中，特斯拉表示，Dojo将通过部署多个ExaPOD进行扩展。所有这些加在一起构成了超级计算机。

　　晶圆级芯片的固有挑战还在于，必须使用片上内存（on-chip memory），这不够灵活，可能无法满足所有类型的应用。

　　自D1发布以来，特斯拉既没有公开已订购、预期接收的D1芯片订单情况，也没有公开Dojo超算的具体部署时间表。

　　不过在今年6月份的时候，马斯克曾表示，在未来18个月，一半部署特斯拉AI硬件，一半是英伟达/其他硬件。

　　大多数自动驾驶系统，比如谷歌母公司Alphabet旗下的Waymo，仍旧依靠传统的感知器作为输入，比如雷达、激光雷达和摄像头等。

　　但特斯拉采取的是「全视觉」路径，他们仅依靠摄像头捕捉视觉数据，辅以高清地图进行定位，再使用神经网络处理数据以进行自动驾驶的快速决策。

　　Waymo已经实现了L4级自动驾驶的商业化，即SAE所定义的，在一定条件下下无需人工干预即可自行驾驶的系统。但特斯拉的FSD（Full Self-Driving）神经网络仍无法脱离人类操作。

　　Andrej Karpathy曾在特斯拉担任AI负责人，他表示，实现FSD基本是在「从头开始构建一种人造动物」。

　　我们可以将其理解为人类视觉皮层和大脑功能的数字复制。FSD不仅需要连续收集和处理视觉数据，识别、分类车辆周围的物体，还需要有与人类相当的决策速度。

　　但幸运的是，他几乎不太需要担心数据不够的问题。目前大约有180万人为FSD支付了8000美元的订阅费（之前可达1.5万美元），这意味着特斯拉能收集到数百万英里的驾驶视频用于训练。

　　而算力方面，Dojo超算就是FSD的训练场。它的中文名字可以翻译为「道场」，是对武术练习空间的致敬。

　　即便财大气粗如马斯克，也会在7月的财报电话会上承认，自己对特斯拉可能没法用上足够的英伟达GPU感到「非常担忧」。

　　目前，特斯拉似乎依旧使用英伟达的硬件为Dojo提供算力，但马斯克似乎不想把鸡蛋都放在一个篮子里。

　　在硬件与软件协同这方面，特斯拉与苹果的观点类似，即应该实现两者的高度协同，尤其是FSD这种高度专门化的系统，更应该摆脱高度标准化的GPU，使用定制硬件。

　　马斯克曾表示，Dojo的第一个版本将为特斯拉的视觉数据标注和训练量身定制，这对FSD和训练特斯拉的人形机器人Optimus来说非常有用。

　　几乎所有的AI软件都是为了与英伟达GPU配合使用，使用Dojo就意味着要重写整个AI生态系统，包括CUDA和PyTorch。

　　这意味着，Dojo几乎只有一条出路——出租算力，建立类似于AWS和Azure一样的云计算平台。

　　摩根士丹利在去年9月的报告中预测，Dojo可以通过robotaxi和软件服务等形式释放新的收入来源，为特斯拉的市值增加5000亿美元。

　　简言之，从目前马斯克对硬件的谨慎配比来看，Dojo并非「孤注一掷」而更像是一种双重保险。但一旦成功，也可以释放巨大红利。