近日,致远公司Emu3大型多模态模型成果发表在国际领先学术期刊《自然》上,印刷版将于2月12日正式出版。这是日本科研机构主导的大型模型成果首次在《自然》官方期刊上发表。这种技术路线模型有什么优势呢?作为北京新兴的研发机构,致远如何吸引和培养年轻的人工智能人才? 2月3日举行的2026年致远院士年会上,新京报记者专访了北京致远人工智能研究院院长王忠远。据他介绍,Emu3研发团队非常年轻,负责人当时只有29岁。这体现了智元研究院“年轻人引领”的核心理念。今年和明年将是多式联运模式取得长足进步并逐步开始进入产业化阶段的时期。后续版本Emu3.5已经达到量产车型的水平。新京报记者:近日,致远公司Emu3大型多模态模型研究成果发表在国际领先学术期刊《自然》上。用通俗易懂的方式解释一下Emu3技术路径相比其他大型模型有哪些优势。王中原:自2020年启动“启蒙”大模型研究以来,威士顿持续关注大模型的独特创新,探索长期技术路径。 2024年2月,我们重组并内部确定了下一代技术,认为语言模型的技术路径已经成熟,但模型开发大规模人工智能还没有结束。仅靠文字不足以理解物理世界的声音、图像、时间、空间和物理定律世界。大规模人工智能模型开发的下一阶段将能够理解、感知、做出决策并与这些多模式和物理世界数据进行交互。因此,我们将多模态模型和体现智能列为智元研究院未来几年的主要研究方向。多模态分为理解和生成。例如,过去的多模态人工智能由专门从事字符处理的语言专家、专门从事绘图的图像专家和专门从事视频创作的视频专家组成。这就像一个由多名专家组成的团队,其中包括一名专门的编辑。只要有不复杂的任务,就需要暂时将这些专家组合起来。调整成本高、效果不稳定。因此,从战略上讲,我们选择了我们认为是最终的技术路径,但也是一条非常具有挑战性的技术路径。这就是大维杰Emu3模式的由来湖这是我们对下一代大型多式联运车型技术道路的“赌注”。我决定专注于视频来训练模型。 Emu3 的主要优点可以用一个词来概括。 Emu3使用非常简单且统一的架构来理解和产生文本、图像、视频和其他信息。与当前传统解决方案需要“混合”有利于理解的语言模型和有利于生产的传播模型不同,Emu3 仅使用一种模型并遵循最基本的学习原则之一。 “预测下一个单词元素(ken)”。无论是文本中的下一个单词还是图像或视频中的下一个视觉片段,一切都由同一个大脑(Transformer)处理。这种架构的简单性避免了复杂组合带来的效率损失和性能不稳定。这种整合路径具有巨大的扩展潜力和较低的研发门槛。架构的简单性使其能够充分利用l 利用现有大规模语言模型成熟的基础设施和训练方法。这意味着它的功能可以随着数据和计算能力的增长而更加一致地增加。同时,构建高性能多模态模型的过程也将被简化,降低技术复杂度和成本,让更多的研究人员和机构参与前沿探索。 Emu3从训练开始就可以整合和处理文本、图像和视频数据,让您更好地理解不同模态之间的本质关系,自然地完成交错的生成任务。新京报:Emu3在未来应用中的重要性是什么? Emu3将极大地改进“世界模型”,为提供能够理解动态驾驶等复杂场景的智能代理奠定基础。此外,未来的人工智能助手不仅能够沟通,还能创造智能。直接基于多模态上下文的图像和视频,实现人与计算机之间的无缝交互。新京报:Emu3.5的改进 Emu3的后续版本是什么? Emu3.5 在超过 100 亿个 token 的大型多模态数据集上进行训练,将视频数据的训练时间从 15 年增加到 790 年。 Emu3.5证明人工智能可以超越“预测接下来会发生什么”,能够通过长视频学习物理世界的进化规则。这将使人工智能能够执行初步的时空和因果模拟,这是迈向更通用智能的重要一步。事实上,我们使用更大的参数和更多的数据来提高模型的整体智能水平。这表明,从科研级系统到生产级多模态模型系统,Emu3.5相比Emu3都有显着的能力提升。负责Emu3的研发团队当时只有29岁。北京新闻:Emu3的研发团队看起来很年轻。开发Emu3经历了怎样的过程?开发团队非常年轻,负责人当时只有29岁。这体现了智元研究院“青年主导”的核心理念。我们相信人工智能是年轻人的职业。年轻人不拘泥于固定观念,大胆挑战传统道路。他们是推动颠覆性创新的关键力量。 Emu3的开发过程可谓是一场充满信念和勇气的“技术赌博”。截至2024年初,当时业界领先的多模态模型是广义模型和复合架构。经过仔细分析和激烈辩论,团队做出了一个冒险的决定。这是关于押注“预测下一个标记”的自回归路线,并相信它可以整合跨模式的学习。这是一个颠覆性的想法,与当时业界的做法不同。时间。后备军。 2024年2月,致远聚集了约50名年轻技术人员,集中力量走上这条人迹罕至的道路。他们尝试将图像、视频和文本离散化为“令牌”,并使用相同的模型进行端到端训练。这个过程充满了困难。首先是巨大的技术挑战。有效地将大量冗余的视觉信息和数据压缩成离散的标记并对其进行适当的训练一直是一个反复的挫折。其次,选择职业道路的压力。当时国家很多资源都集中在追赶GPT-4的大规模语言模型上。要维持这种“非常规”政策,就必须抵制国内外的猜疑。最后,需要回答一些基本问题。多模态数据能否提高模型的基础智能?但研究团队坚信,人工智能要理解和接触物理世界,需要“用自己的眼睛看世界”这群年轻人终于取得了突破。Emu3展示了自回归集成路径的高可行性和可扩展性,综合性能堪比几个专业模型。新京报:面对人工智能人才的竞争,致远如何吸引和培养顶尖学者,帮助年轻研究人员直面人工智能的“无人区”?王忠远:人才不求资历、不求帽子,我们更注重“杰作”,包括但不限于高影响力的学术成果在这里,很多项目都是由年轻人才完成的。这个团队大约有500人,其中研究人员的平均年龄只有30岁。我们在启动一个项目时,会评估年轻人才具有独特性。ue 技术判断和指导。一旦您通过评估,我们将为您直接调动足够的支持资源。这是这些年轻学者在大学很难获得的大量计算能力和财政支持。新京报:北京正以走在全球科技前沿为目标,正在发展北京量子研究院、北京脑研究院、驰远研究院等新型研发机构。他提出支持建设新型世界一流研发机构,并提出了针对科学研究法的改革措施。哪些举措对科研成果发挥了积极推动作用?王中原:新型大型研发机构得益于体制机制创新。我们采用的是科研经费的“承包制”,而Chig研究院拥有科研经费使用的全部自主权和权利。除了一些明确的红线不能使用外,其余的从科研项目的立项到科研设备的采购以及具体实施,完全由滋根研究所自己决定。这与以企业化方式经营科研院所特别相似,但不必承受企业管理和利润的压力,让科研人员能够专注于有价值的科学研究。这使我们能够及时了解人工智能的发展趋势,并非常有兴趣开始领先于其他机构进行规划。此外,由于我们过去有很多成功案例,越来越多的人工智能人才选择致远来实现人工智能伟大科技突破的梦想。使用多个ag协作解决问题ent将是一个主要趋势。新京报:在今年的京二会上,您作为北京市政协委员,提出了具身智能和多智能体智能的相关提案。如何预测AI领域未来的发展趋势?王中原:过去的大规模语言模型预测,基础模型已经比较成熟,数千个行业已经进入完善和升级阶段。过去一年,人工智能部署加速,从单一代理发展到多代理。单个智能体是在基本模型上训练来完成特定任务的智能体,但有许多限制。多个代理可以相互协作来完成任务并实现真正的生产级结果。多模态正处于技术开始融合的阶段。今年和明年,我们将是戴尔大步迈出,慢慢开始工业化的阶段。全球模型的研究正在进行中并且取得了重大进展正在制作中。世界模式的定义和技术路径尚未趋同。模型进入物理世界后,需要与硬件结合,这就是内置的智能。过去一年,嵌入式智能已经非常流行,但其稳定性、安全性和耐用性距离实际应用还很远,而且缺乏高质量的数据。我们将不断解决一切问题,推动具身智能不断、长远发展。北极新闻报张璐主编白霜纠正付春民