今年3月,在2025年NVIDIA春季GTC会议上,自动驾驶汽车驾驶技术负责人Jia Peng介绍了她的舞台。
今年3月,在2025年NVIDIA春季GTC会议上,自动驾驶技术和汽车开发负责人Jia Peng介绍了他们的最新舞台成就:Mindvla Big Model。这是具有22亿参数的视觉语言动作(VLA)模型。 Jia Peng进一步介绍了他们成功将模型部署到车辆终端。理想情况下,VLA模型是解决交互式AI和物理世界问题的最有效方法。去年,端到端的体系结构成为智能驾驶领域的技术热点,使汽车制造商从基于传统的模块的模块设计转变为集成系统。以前以规则算法为首的汽车公司面临着转型疾病,而后来者有机会捕捉曲线。目标是代表。正确的是,去年的明智驾驶中的快速发展是正确的。在7月,这是国家地图的第一个成就EE NOA(导航辅助驾驶),并推出了独特的“端到端(快速系统) + VLM(慢速系统)架构,吸引了该行业的广泛关注。今晚,作为AI的好时光,我们对两个季节的愉快时光,我们对Li Xiang更深入地了解“人工智能公司”。他在去年12月与Zhang Xiaojun进行了讨论:我们的理想学生和自主驾驶是根据行业标准进行的,并且在我们的第一个舞台上都在我们的舞台上真的很大程度上做到了,您会知道这两个是DAy连接在一起。我们被称为VLA(视觉语言模型)。 Li Xiang认为,基本模型在某个时刻肯定会成为VLA。原因是语言模型只能通过语言和理解来理解三维世界,这显然还不够。 “它需要使用扩散(扩散模型)以及使用发电技术(了解世界)的真实向量”。可以说,VLA的诞生不仅是勇敢地试图在太空中深深地结合语言智力和智力,而且还可以通过完美的自动训练“明智的汽车”概念来解释。在今晚的谈话中,李徐(Li Xiang)进一步定义:“ VLA是一个大型驾驶员,像人类驾驶员一样工作。”这不仅是一项技术,而且是一个聪明的合作伙伴,他可以自然与用户交谈并独立做出决定。那么,VLA到底是什么?核心真的很坦率:通过结合视觉感知,对语言的自然理解D动作的能力,车辆成为了与他人交谈并可以自己做出决定的伟大能量“驾驶员”。 ▲在导航等时,驾驶员可以直接订购系统以拿起Manu -ManongChannel(驾驶帮助)。想象一下,您坐在车上说话:“我现在有点累,慢慢开车。”车辆不仅会理解您的意思,而且还可以调整速度并选择更好的路线。这种自然而平滑的接触正是VLA想要实现的目标。 Li Xiang宣布所有简短的说明均由车辆终端直接处理,并且将配备32亿个云检查参数模型,以确保效率和智能。这样的目标并不容易实现。 VLA的特殊之处与三个维度有关:视觉,语言和动作。用户的简单指导的背后可能参与了实时感官关于周围环境,对语言目标的准确理解以及对驾驶行为的快速调整,这两者都是必不可少的。关于VLA的好处是,这使这三个可以无缝工作。从视觉到现实,VLA的研发是没有人类的土地。 Li Xiang承认:“获取视觉和动作数据是最困难的,也没有可以替代它的公司。”要了解VLA的技术背景,我们还必须研究智能驾驶中完美自动的演变。 Li Xiang说,第一个系统是“昆虫水平”的智能,只有一百万个参数,由高精度的政策和地图驱动,在遇到复杂的道路条件时,它们无能为力。后来,端到端的体系结构和语言模型跳到了“哺乳动物级别”,后者已经摆脱了地图的希望以及国家没有地图的NOA Becamea事实。实际上,这一步骤将完美的汽车置于行业之外,但显然不是对此感到满意。从李江的角度来看,VLA的出现标志着理想的自动驾驶技术进入了“人类智能”的新阶段。与以前的系统相比,VLA不仅会看到3D物理世界,而且会进行逻辑推理,甚至会发展在人类层面附近的驾驶行为。为了提供一个简单的例子,假设您说“找到一个在拥挤的街道上旋转的地方”,VLA不会机械地进行说明,而是结合道路条件,交通和交通政策,以找到最合理的时间和位置来完成转弯。 Li Xiang说,VLA可以通过制定数据来迅速适应这种情况,即使它首次遇到复杂的道路建设,也可以在三天内优化响应。灵活性和判断是VLA的主要优势。理想的老师是VLA Deviceek的支持,以及完美汽车开发的复杂而独特的技术系统。该系统允许汽车不t只是为了“了解”世界,但也像人类的驱动力一样思考和行为。首先,3D高斯表示技术,即使用许多“高斯点”来沿着3D对象进行海岸,每个点都包含其自身的位置,颜色和大小。这项技术使用自我监督的研究来使用大量的真实数据来训练3D空间理解的强大模型。这样,它可以像某人一样“理解”您周围世界的VLA,知道障碍物在哪里以及可访问区域的位置。 ▲当覆盖内存停车位时,系统将自动找到其他停车位。您还可以理解驾驶说明,通过墙上的标志找到“ C3区”,然后是混合专家体系结构(MOE),由专业网络,一个封闭式网络和组合器组成。当模型参数超过1000亿时,传统方法将允许所有神经元参与每个计算,这是浪费资源。封闭式网络iN Moe的架构将根据各种活动称呼不同的专家,以确保激活参数不会大幅增加。讨论了这一点,Li Xiang还称赞了DeepSeek:DeepSeek是最佳的人类技能...当他们制作DeepSeek V3时,V3实际上是Moe模型,671b。我认为教育部是一个非常好的建筑。这相当于将一组专家组合在一起,然后每个专家都是一种专业的能力。最后,理想引入了VLA的广泛注意机制,这意味着VLA将自动调整主要区域的重量,从而改善末端的推理。 Li Xiang说,在这个新的模型基础的培训过程中,优秀的工程师花了很多时间找到最佳的数据比,并结合了大量的3D和图形数据以及与自动驾驶有关的文本数据以及减少文献和历史数据的比例。从感知到制造Pdecision,VLA绘制了快速的SLOW人类思维模型的结合。它不仅可以迅速做出简单的行动决定,例如紧急避免,而且还可以通过短期思维链“慢思考”来处理更复杂的情况,例如临时计划忽略建筑区域的途径。为了进一步改善实时,VLA还引入了解码的假想推理和并行技术,以使用芯片侧芯片计算的全部力量,以确保决策过程快速且不受限制。在开发驾驶行为时,VLA使用基于人类反馈(RLHF)的扩散模型和教育。扩散模型负责形成这种轨迹驱动器的形成,因为RLHF将这些轨迹带到了安全且舒适的人类习惯。举例既定行为。世界的模型是另一种主要技术,完美的技术为研究场景和发电而提供了高质量的虚拟环境,以研究增强。 Li Xiang宣布,世界模型将将验证成本从每10,000公里的170,000-180,000元减少到4,000元人民币。这使VLA能够继续优化模拟并应对似乎在平坦地面上行走的复杂情况。说到培训,VLA增长过程也很好。整个过程分为三个阶段:训练前,训练后和增强研究。 “训练前的培训就像学习知识一样,训练后就像驾驶学校的学习,对强化的研究就像社交技能。” Li Xiang说。在训练前阶段,理想的汽车为VLA创建了视觉语言基座模型,填充了丰富的3D视觉数据,2D HD图像和驾驶图像。该语料库被切割,以便首先知道要“看”和“听”;然后将训练添加到动作模块中,以产生轨迹驾驶4-8秒,并将该模型从3.2亿参数提炼到4亿。加强的研究分为两个步骤:RLHF首先使用人类习惯,研究和占据数据,并确保安全和舒适;然后,根据G(便利性),碰撞和交通政策的纯净研究,以优化纯净的增强研究,以便VLA“比人开放”。 Li Xiang指出,这个阶段是在世界模型中完成的,模仿了实际的交通状况,而效率不仅仅是传统验证。这种培训方法不仅可以确保技术的进步,而且还使VLA在实际应用中足够。 Li Xiang承认,VLA的成功不能与行业基准的灵感分开。 Moe的DeepSeek体系结构不仅提高了培训效率,而且还提供了重要的体验实现目标。她叹了口气:“我们站在巨人的肩膀上,加快了VLA的研发。”这项研究的开放态度在于拒绝进入任何人的土地。从“信息工具”到“生产工具”,AI行业经历了从“信息工具”到“劳动工具”的深刻变化。随着大型模型技术的增长,AI不再限于数据处理和提供建议,而是开始有能力做出独立决策和执行任务。 Li Xiang在AI谈话的第二阶段建议,可以将AI分为信息工具(例如搜索),辅助工具(例如语音导航)和劳动工具。他强调:“人工智能成为一种制造工具,这是爆炸的真实时刻。”随着大型模型技术的增长,AI不再限于数据处理,而是开始具有独立决策和执行任务的能力。这种趋势是P在“体现智能”的概念中明显明显的是,AI系统被提供给可以看到,理解和集成到环境中的物理生物。完美汽车的VLA模型是这一趋势的生动实践。通过将视觉,语言智能和动作结合起来,它可以在可以独立驱动并自然与用户互动的智能机构中构建汽车,完美地定义了“体现智能”的基本概念。只要人们可以聘请专业司机,人工智能就可以成为一种制造工具。只有当AI成为制造工具时,人工智能才能真正爆炸。 Li Xiang的话指出了VLA的基本价值 - Nothis是一个简单的辅助工具,而是独立于任务和思考职责的“驱动程序代理人”。这种变化不仅提高了汽车的实际价值,而且还为其他领域的AI应用打开了想象空间。 Li Xiang对AI的想法一直来自盒子外面的前景。他还指出:“ VLA不是一个突变过程,而是进化过程。”该句子准确地总结了完美的汽车从早期驱动的规则中,到成功的尽头,以及当前VLA的“智能”的层面。对这种进化的思考不仅是更多的VLA技术,而且还为行业提供了参考范式。与寻求瘀伤的一些尝试相比,良好且务实的路径更适合中国市场。从技术到信念,对AI的完美探索并不顺利。 Li Xiang承认:“我们在AI领域遇到了许多挑战,例如黎明前的黑暗,但我们相信,如果您继续前进,您会看到光线。” VLA的研发面临着计算能力瓶颈和数据伦理等问题,但理想是通过自发开发的基本模型和世界模型逐渐使他们的技术衰退。 Li Xiang在一次采访中也提到,VLA的成功与中国人工智能的增加是不可分割的。他说,诸如DeepSeek和Tgyyi Qianwen之类的模型的出现很快将中国的AI水平带到了美国。其中,Spirit Na DeepSeek的开源源具有特定的Kapana兴趣,直接促进了OS主演的完美开放资源。 Li Xiang说:“这不是因为公司的战略考虑。DeepSeek对我们有很大帮助,因此我们应该为社会做出贡献。”在追逐技术突破的同时,完美的自动忽略了AI技术的安全性和道德问题。 VLA引入的“超级一致性”技术通过根据人类评论来研究强化(RLHF),使模型的行为更接近人类实践。数据显示,VLA应用程序的高速MPI(平均干预里程)从240公里增加到300公里。更重要的是,完美的自动强调创造“具有人类价值的人工智能”,并认识到道德和信任是技术发展的基础。从更宏观的角度来看,VLA的意义是重新定义汽车公司的作用。以前,汽车是工业时代的车辆。如今,他们在人工智能期间正在使用“太空机器人”。 Li Xiang在AI的演讲中提到:“这是对的,它去了车辆的无地土地,然后去了非管理人工智能的土地。”这种理想的变化为车辆行业业务模型带来了新的想象空间。当然,VLA的发展并非没有挑战。继续投资计算,数据伦理和消费者对自动驾驶的信心都是必须面对理想车辆的问题。此外,AI行业的竞争变得越来越激烈。特斯拉,Waymo和Openai等国内和外国巨头在多模型的布局中都在震惊。目标需要在不断变化的技术和营销推广方面保持领先地位。 Li Xiang说:“我们没有捷径,我们只能努力工作。”毫无疑问,VLA实施将是一个主要节点。 Auto计划在2025年7月的Pure Electric SUV Ideal I8上同时释放VLA,并于2026年实现大众劳动。这不仅是全面的技术检查,而且是市场的重要试金石。