中国电动汽车百人会汽车新质生产力论坛于3月17日在北京举行,清华大学计算机系长聘教授,博士生导师、清华大学人工智能研究院视觉智能研究中心主任邓志东出席并演讲。
邓志东表示,人工智能最终会发展到交互式人工智能,智能体与其他的道路交通元素,智能体与人类之间的交互,通过智能体引入强化学习进行学习。驱车智能化需要更强的环境自适应性和自主性,目前自动驾驶还面临一些挑战,赶不上人类的驾驶。首先是环境,适应性不充分,还有边缘***承载,自主性还不足,还必须依赖人为的干预接管。要有更强的环境适应性,要对驾驶场景观察理解或认知的基础上解决边缘***挑战,直接利用视频/图像或点云数据进行预训练,即直接读***、读图像、点云来完成驾驶人世界模拟器的学习与生存,增强环境理解能力,最后会迈向完全不需要人为接管的更高阶的L4的自动驾驶。
对此,他指出,首先要区分高阶NOA,相当于L3、L4自动驾驶的区别,智能驾驶的发展非常快,像NOA,NOA相当于***导航,有高速的,有城市的,现在还有综合的NOA,NOA把驾驶员的身份变成了安全员,准备随时接管,但是他是L2++的自动***驾驶,还是***驾驶,这个市场竞争非常激烈,大家现在主要在这个战场上进行拼杀。我们看到更远的是L3、L4,是完全的自动驾驶,L3、L2还是人机共驾的,只不过这个安全员不一定在司机的位置,L4是完全没有安全驾驶员的,完全的无人驾驶,真正的无人驾驶,它应该说是一个颠覆性的技术,是高价值的产业演进的,新质生产力的典型代表。
在邓志东看来,大算力的发展是高阶的,如果要用GenAI的技术,就是要用生成式人工智能的比例定律与涌现能力,具有足够大的算力,这样就需要有很高的大算力,因为他的视觉还是高阶模态,这样才能发展,给L3、L4的自动驾驶提供支撑。
怎样在汽车大平台上进行产业化部署呢?首先是要发展视觉大模型支撑下的整车智能,或者是单车智能,这是视觉语言思维、行为方式、多模态的视觉大型语言模型、知识模型,这个模型是人类语言模型,同时还有知识,跟以前不相同,他懂知识了,而且能够懂我们的视觉语言,能够做理解,理解完了以后再进行模仿,还有形式上的模仿,还有神的模仿,本质上的模仿,通过交互式,他自己学的,所有过程都是经过学习进行。这个视觉理解和认知能力特别重要,特别适合于单车智能,真实模拟空间的垂域应用,不需要那么大的知识语料喂养。
邓志东还提到,单车智能另外一种模式是单车智能+智能路网,可以用大模型去赋能,安全员在后台,在边缘上,这个时候可以用大模型做一个预测,整个L3自动驾驶车队的预测,看哪一个会出现安全风险,赶快提前进行预测,这样就可以实现一个安全驾驶员,可以管一台,甚至十台、一百台L3自动驾驶汽车这样的话,就能够构建商业闭环,实现整车L3+大规模的商业化落地,这里面有一个关键技术,还是靠大模型做安全预测。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。