首页 生活常识文章正文

结合下一个令牌预测和视频扩散在计算机视觉和机器人技术

生活常识 2025年04月13日 17:23 4 admin

  

  Combining next-token prediction and video diffusion in computer vision and robotics

  在当前的人工智能时代思潮中,序列模型因其分析数据和预测下一步行动的能力而广受欢迎。例如,您可能使用了ChatGPT这样的下一个令牌预测模型,它预测序列中的每个单词(令牌),以形成用户查询的答案。还有像Sora这样的全序列扩散模型,它通过连续地“去噪”整个视频序列,将单词转换成令人眼花缭乱的逼真视觉效果。

  麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员对扩散训练方案提出了一个简单的改变,使该序列去噪更加灵活。

  当应用于计算机视觉和机器人等领域时,下一个令牌和全序列扩散模型需要进行能力权衡。Next-token模型可以输出长度不同的序列。

  然而,它们在不知道遥远未来的理想状态的情况下生成这些代(例如将序列生成转向10个令牌之外的某个目标),因此需要额外的机制来进行长期规划。扩散模型可以执行这种未来条件采样,但缺乏下一个令牌模型生成变长序列的能力。

  CSAIL的研究人员希望结合这两种模型的优势,因此他们创建了一种序列模型训练技术,称为“扩散强迫”。这个名字来自“教师强迫”,这是一种传统的培训方案,它将完整序列生成分解为更小、更容易的下一个代币生成步骤(很像一个好老师简化一个复杂的概念)。

  扩散强迫在扩散模型和教师强迫之间找到了共同点:它们都使用训练方案,包括从未被掩盖的标记中预测被掩盖的(有噪声的)标记。在扩散模型的情况下,它们逐渐向数据中添加噪声,这可以看作是分数掩蔽。

  麻省理工学院研究人员的扩散强迫方法训练神经网络来清理一组标记,在预测接下来的几个标记的同时,去除每个标记中不同数量的噪声。其结果是:一个灵活、可靠的序列模型,为机器人和人工智能代理带来了更高质量的人工视频和更精确的决策。

  通过对噪声数据进行分类并可靠地预测任务的下一步,扩散强迫可以帮助机器人忽略视觉干扰来完成操作任务。它还可以生成稳定一致的视频序列,甚至可以引导人工智能代理通过数字迷宫。

  这种方法可能使家庭和工厂机器人能够适应新的任务,并改善人工智能生成的娱乐。

  序列模型以已知的过去为条件,预测未知的未来,这是一种二元掩蔽。然而,掩码并不需要是二进制的,”主要作者,麻省理工学院电子工程与计算机科学(EECS)博士生,CSAIL成员陈博元说。

  “通过扩散强制,我们为每个标记添加不同级别的噪声,有效地充当一种分数掩蔽。在测试时,我们的系统可以“揭开”一组标记,并在不久的将来以较低的噪声水平扩散一个序列。它知道该信任数据中的哪些内容,以克服分布之外的输入。”

  在几个实验中,扩散强迫在忽略误导性数据以执行任务的同时预测未来的行动方面表现出色。

  例如,当它被植入机械臂时,它帮助两个玩具水果在三个圆形垫子上交换,这是一系列需要记忆的长期任务的最小例子。研究人员通过在虚拟现实中远程控制(或远程操作)来训练机器人。

  这个机器人经过训练,可以通过摄像头模仿用户的动作。尽管从随机位置开始,看到像购物袋挡住标记这样的干扰,它还是把物体放在了目标位置。

  为了制作视频,他们在“我的世界”游戏玩法和谷歌DeepMind实验室模拟器中创建的彩色数字环境中训练了扩散强迫。当给定一帧镜头时,该方法产生的视频比类似sora的全序列扩散模型和类似chatgpt的下一个标记模型等可比基线更稳定,分辨率更高。

  这些方法产生的视频看起来不一致,后者有时无法生成超过72帧的工作视频。

  扩散强迫不仅可以生成精美的视频,还可以作为动作计划器,引导玩家走向预期的结果或奖励。由于其灵活性,扩散强迫可以独特地生成具有不同视界的计划,执行树搜索,并结合直觉,即遥远的未来比近期的未来更不确定。

  在解决2D迷宫的任务中,Diffusion Forcing通过生成更快的通往目标位置的计划而优于6个基线,这表明它可能是未来机器人的有效计划器。

  在每个演示中,Diffusion Forcing充当完整序列模型,下一个令牌预测模型,或两者兼而有之。根据Chen的说法,这种通用的方法可能会成为“世界模型”的强大支柱,这是一个人工智能系统,可以通过对数十亿互联网视频的训练来模拟世界的动态。

  这将允许机器人通过根据周围环境想象自己需要做什么来执行新的任务。例如,如果你让一个机器人在没有经过训练的情况下打开一扇门,这个模型可以制作一个视频,向机器展示如何做到这一点。

  该团队目前正在寻求将他们的方法扩展到更大的数据集和最新的变压器模型,以提高性能。他们打算扩大他们的工作范围,建立一个类似chatgpt的机器人大脑,帮助机器人在没有人类演示的情况下在新环境中执行任务。

  “通过扩散强迫,我们正在迈出一步,将视频生成和机器人技术更紧密地结合在一起,”资深作者文森特·西兹曼说,他是麻省理工学院助理教授和CSAIL成员,在那里他领导着场景表现小组。

  “最后,我们希望我们可以利用互联网上存储在视频中的所有知识,让机器人在日常生活中提供帮助。还有许多令人兴奋的研究挑战,比如机器人如何通过观察人类来模仿人类,即使它们的身体与我们的身体如此不同。”

  该团队将于12月在NeurIPS上展示他们的研究成果,他们的论文可以在arXiv预印本服务器上找到。

  更多信息:陈伯元等,扩散强迫:下一个标记预测满足全序列扩散,科学通报,vol . 14(2024)。DOI: 10.48550/ arXiv .2407.01392期刊信息:arXiv由麻省理工学院提供引文:结合计算机视觉和机器人中的下一个令牌预测和视频扩散(2024年10月17日)检索自2024年10月17日https://techxplore.com/news/2024-10-combining-token-video-diffusion-vision.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

浪东网鲁ICP备2021033673号-3 备案号:川ICP备66666666号 Z-BlogPHP强力驱动 主题作者QQ:201825640