2023年Top10最具变革性人工智能研究-照亮AI突破之路

远方来的花 · 2024-5-12 13:49:17

原创张长旺旺知识
本文中，我们深入研究了来自不同AI领域的十篇变革性研究论文，涵盖语言模型、图像处理、图像生成和视频编辑。围绕通用人工智能(AGI)的讨论表明，AGI似乎比以往任何时候都更加平易近人，一些专题论文探索了通向AGI的各种途径，例如扩展语言模型或利用强化学习来掌握跨领域知识。

图源：旺知识

作者：张长旺，旺知识，CCF理论计算机科学专业委员会

以下是我们精选的研究论文：

微软-通用人工智能的火花之GPT4早期实验
谷歌-具身智能多模态大模型PALM-E
MetaAI-开源大语言模型LLaMA2
威斯康星大学-大型语言和视觉助手LLaVA
斯坦福大学和谷歌-斯坦福小镇GenerativeAgents
MetaAI-分割任何内容SegmentAnything
OpenAI-文生图模型DALL-E 3
斯坦福大学-控制网络ControlNet
Runway-视频合成模型Gen1
DeepMind和多伦多大学-多领域世界模型DreamerV3

1. 微软-通用人工智能的火花之GPT4早期实验

在这篇研究论文中，微软研究院的一个团队分析了OpenAI的GPT-4的早期版本，该版本当时仍在积极开发中。该团队认为，GPT-4代表了一类新型大型语言模型，与之前的人工智能模型相比，表现出更通用的智能。他们的调查揭示了GPT-4在数学、编码、视觉、医学、法律和心理学等各个领域的广泛功能。他们强调，GPT-4可以在没有专门提示的情况下解决复杂而新颖的任务，通常可以达到接近人类水平的性能。
微软团队还强调GPT-4被视为一种早期但不完整的通用人工智能(AGI)形式的潜力。他们专注于识别GPT-4的局限性，并讨论迈向更先进、更全面的AGI版本所面临的挑战。这包括考虑当前下一个单词预测模型之外的新范式。

在一个月的时间里，我们以大致相同的时间间隔查询了三次 GPT-4 提示 "在 TikZ 中画一只独角兽"。我们可以看到 GPT-4 的绘画水平有了明显的提高。

GPT-4通过LeetCode模拟技术面试。GPT-4有可能被录用为软件工程师。

Sparks of Artificial General Intelligence: Early experiments with GPT-4
https://arxiv.org/abs/2303.12712

2. 谷歌-具身智能多模态大模型PALM-E

该研究论文介绍了PaLM-E，这是一种新的语言模型方法，通过直接合并连续传感器输入来弥合现实世界中单词和感知之间的差距。这种具体语言模型无缝地集成了包含视觉、连续状态估计和文本信息的多模态句子。这些输入通过预先训练的大语言模型进行端到端训练，并应用于各种具体任务，包括顺序机器人操作规划、视觉问答和字幕。
PaLM-E，特别是具有562B参数的最大模型，在各种任务和模式上表现出了卓越的性能。值得注意的是，它在具体推理任务中表现出色，表现出跨语言、视觉和视觉语言领域联合训练的积极迁移，并展示了OK-VQA基准测试中最先进的能力。尽管专注于具身推理，PaLM-E-562B还展示了一系列功能，包括零样本多模态思维链推理、少样本提示、免OCR数学推理和多图像推理。仅对单图像示例进行训练。

PaLM-E是一个单一的通用多模态语言模型，可用于具身推理任务、视觉语言任务和语言任务。PaLM-E将视觉语言领域的知识转化为具体推理--从机器人在具有复杂动态和物理约束的环境中进行规划，到回答有关可观察世界的问题。PaLM-E可在多模态句子上运行，即插入任意模态输入（如图像、神经三维表征或状态，绿色和蓝色）的标记序列，与文本标记（橙色）一起作为端到端训练的LLM的输入。

PaLM-E-562B可以进行0样例多模态思维链推理，可以根据图像讲述视觉条件下的笑话，并展示了一系列与机器人相关的多模态信息能力，包括感知、视觉基础对话和规划。尽管PaLM-E只接受过单幅图像提示的训练，但它还能对多幅图像提示进行"零点"泛化。PaLM-E还能在图像上进行数学运算，图像上有文字交错的手写数字。此外，PaLM-E模型还能对时间标注的自我中心视觉进行问答.

PaLM-E: An Embodied Multimodal Language Model
https://arxiv.org/abs/2303.03378

3. MetaAI-开源大语言模型LLaMA2

LLaMA2是其前身的增强版本，在新的数据组合上进行训练，具有增大40%的预训练语料库、双倍的上下文长度和分组查询注意力。LLaMA2系列模型包括LLaMA2和LLaMA2-Chat，针对对话进行了优化，参数大小从7到700亿不等。与已有开源模型相比，这些模型在有用性和安全性基准方面表现出卓越的性能，并且与一些闭源模型相当。开发过程涉及严格的安全措施，包括特定于安全的数据注释和红队。本文旨在通过提供微调方法和安全改进的详细描述，为大语言模型的负责任发展做出贡献。

训练Llama2-Chat模型：首先，我们使用公开的在线资源对Llama2进行预训练。之后，我们通过应用监督微调技术创建了"Llama2-Chat"的初始版本。随后，我们使用人反馈强化学习（RLHF）方法对模型进行迭代改进，特别是通过拒绝采样和近端策略优化（PPO）。在整个RLHF阶段，迭代奖励建模数据的积累与模型改进并行，这对确保奖励模型保持在分布范围内至关重要。

Llama 2: Open Foundation and Fine-Tuned Chat Models
https://arxiv.org/pdf/2307.09288.pdf

4. 威斯康星大学-大型语言和视觉助手LLaVA

该研究论文介绍了LLaVA（大型语言和视觉助手），这是一种突破性的多模态模型，利用纯语言GPT-4生成文本和图像的指令跟踪数据。这种新颖的方法将指令调整的概念扩展到多模态空间，从而能够开发通用视觉助手。
该论文提出了一种利用GPT-4将图像-文本对转换为适当的指令跟踪格式的方法，解决了视觉语言指令跟踪数据稀缺的挑战。他们通过将CLIP的开放集视觉编码器与语言解码器LLaMA集成来构建大型多模态模型(LMM)。事实证明，对生成的教学视觉语言数据的微调过程是有效的，并且为构建通用的指令跟随视觉智能体提供了实用的见解。
该论文的贡献包括生成多模态指令跟踪数据、通过对生成的数据进行端到端训练来开发大型多模态模型，以及在ScienceQA多模态推理数据集上实现最先进的性能。此外，该论文通过向公众提供生成的多模式指令数据、用于数据生成和模型训练的代码库、模型检查点和可视化聊天演示，展示了对开源原则的承诺。

LLaVA根据用户输入的草图为交互式网站生成HTML/JS代码。在修正了生成输出中的一个小错误（红色字体）后，交互界面开始运行。LLaVA的输出还有改进的余地，例如将笑话和笑点分成两行，只有在点击按钮时才显示笑点，以更好地反映用户的意图。

LLaVA指的是达芬奇的著名艺术作品《蒙娜丽莎》。当我们开始新对话时，它还会解释网络上模仿《蒙娜丽莎》创作的幽默艺术作品。

LLaVA的一个有趣能力是它既能识别埃隆-马斯克的大头照，也能识别他打扮成狗的幽默备忘录。这意味着预训练的CLIP视觉编码器可能已经看到了埃隆-马斯克的图像。然而，令人惊讶的是，埃隆-马斯克从未出现在LLaVA视觉特征对齐或视觉指令调整阶段的训练数据中，这表明基础语言模型能够泛化到未见过的视觉概念。

Visual Instruction Tuning
https://arxiv.org/abs/2304.08485

5. 斯坦福大学和谷歌-斯坦福小镇GenerativeAgents

该论文引入了一个突破性的概念——可以模拟可信的人类行为的生成智能体。这些特工表现出广泛的行动，从烹饪早餐等日常生活到绘画和写作等创造性活动。他们形成观点、参与对话、记住过去的经历，创造出充满活力的类人互动模拟。
为了实现这一目标，本文提出了一个扩展大型语言模型的架构框架，允许智能体以自然语言存储他们的经验，随着时间的推移合成记忆，并动态检索它们以进行行为规划。这些生成智能体在各个领域都有应用，从角色扮演场景到虚拟世界中的社交原型。该研究通过评估验证了它们的有效性，强调了记忆、反思和规划在创造令人信服的智能体人行为方面的重要性，同时解决了道德和社会问题。

生成式智能体是互动应用中可信的人类行为模拟。在这项工作中，我们用二十五个代理填充了一个沙盒环境，让人联想到《模拟人生》，从而展示了生成代理。用户可以观察和干预代理计划自己的日子、分享新闻、建立关系和协调小组活动。

小镇沙盘世界。根节点描述整个世界，子节点描述区域（如房屋、咖啡馆、商店），叶节点描述物体（如桌子、书架）。代理记住一个子图，该子图反映了他们所看到的世界的各个部分，并保持着他们所观察到的这些部分的状态。

生成智能体约翰-林（JohnLin）的早晨生活。约翰早上6点左右起床，完成晨练、包括刷牙、洗澡和吃早餐。他与妻子梅和儿子简单地聊了几句、艾迪，然后出门开始一天的工作。

我们的生成式智能体架构。智能体可感知其所处环境，所有感知都会保存在一个名为"记忆流"的智能体经验综合记录中。根据它们的感知，该架构会检索相关记忆，并利用这些检索到的行动来确定行动。这些检索到的记忆还可用于形成更长期的计划和创建更高层次的反思，而这两者都会被输入记忆流，以供将来使用。

Generative Agents: Interactive Simulacra of Human Behavior
https://arxiv.org/abs/2304.03442

6. MetaAI-分割任何内容SegmentAnything

在本文中，MetaAI团队介绍了用于图像分割的突破性任务、模型和数据集。该项目利用数据收集循环中的高效模型，创建了迄今为止最广泛的分割数据集，其中包含1100万张许可且尊重隐私的图像的超过10亿个掩模。为了实现构建图像分割基础模型的目标，该项目重点关注在不同数据集上训练的可提示模型。SAM（分段任意模型）采用简单而有效的架构，包括图像编码器、提示编码器和掩码解码器。实验表明，SAM在各种下游任务（包括边缘检测、对象建议生成和实例分割）上与完全监督的结果相竞争。

我们的目标是通过引入三个相互关联的组件来建立一个分割基础模型：一个可提示的分割任务；一个分割模型（SAM），它为数据注释提供动力，并能通过提示工程将零镜头转移到一系列任务中；以及一个数据引擎，用于收集SA-1B（我们拥有超过10亿个掩码的数据集）。

来自我们新推出的SA-1B数据集的带有叠加掩码的示例图像。SA-1B包含1,100万张不同的、高分辨率的、授权的、隐私保护的图像和11B个高质量的分割掩码。这些掩码由SAM全自动注释，我们通过人工评分和大量实验验证了它们的高质量和多样性。为便于可视化，我们按每张图像的掩码数量对图像进行分组（平均每张图像有100个掩码）。

Segment Anything Model (SAM) 概览。重量级图像编码器可输出图像嵌入，然后可通过各种输入提示进行高效查询，从而以摊销后的实时速度生成对象掩码。对于对应多个对象的模糊提示，SAM 可以输出多个有效掩码和相关置信度分数。

在23个数据集上进行的点到掩码评估。(a)SAM和最强单点分割器RITM[92]的平均IoU。由于模糊性，单个掩码可能与地面实况不匹配；圆圈显示的是SAM3个预测中最相关的"oracle"结果。(b)注释者对每个数据集的掩码质量评分比较，从1（最差）到10（最佳）。所有方法都使用地面实况掩膜中心作为提示。(c,d)不同点数的mIoU。使用1个点时，SAM明显优于之前的交互式分割器，而使用更多点时，SAM的表现也不相上下。1个点的绝对mIoU值较低是由于模糊性造成的。

Segment Anything
https://arxiv.org/abs/2304.02643

7. OpenAI-文生图模型DALL-E 3

该研究论文提出了一种突破性的方法来解决文本到图像模型中最重大的挑战之一：提示跟随。文本到图像模型历来一直难以将详细的图像描述准确地转化为视觉效果，常常会误解提示或忽略关键细节。该论文的作者假设这些问题来自训练数据集中的噪声和不准确的图像标题。为了克服这一限制，他们开发了一种专门的图像字幕系统，能够生成高度描述性和精确的图像字幕。然后，这些增强的标题用于重新描述文本到图像模型的训练数据集。结果非常显着，在改进的数据集上训练的DALL-E模型显示出显着增强的提示跟踪能力。

DALL-E3中的部分横向画图样本

DALL-E3中的部分纵向和方形画图样本

Improving Image Generation with Better Captions
https://cdn.openai.com/papers/dall-e-3.pdf

8. 斯坦福大学-控制网络ControlNet

ControlNet是斯坦福大学研究团队设计的一种神经网络结构，用于控制预训练的大扩散模型并支持额外的输入条件。ControlNet以端到端的方式学习特定于任务的条件，即使使用小型训练数据集也能表现出强大的学习能力。训练过程与微调扩散模型一样快，并且可以在个人设备上执行，也可以使用强大的计算集群进行扩展以处理大量数据。通过使用ControlNet增强稳定扩散等大型扩散模型，研究人员可以实现边缘图、分割图和关键点等条件输入，从而丰富了控制大型扩散模型的方法并促进相关应用。

利用学习条件控制稳定扩散(Stable Diffusion)。ControlNet 允许用户添加 Canny 边缘（上）、人体姿势（下）等条件，以控制大型预训练扩散模型的图像生成。默认结果使用 "高质量、细致和专业的图像 "提示。用户可以选择性地给出 "厨房中的厨师 "等提示。

如 (a) 所示，一个神经块将特征图 x 作为输入，并输出另一个特征图 y。要为这样的神经块添加控制网络，我们需要锁定原始神经块并创建一个可训练的副本，然后使用零卷积层（即权重和偏置均初始化为零的 1 × 1 卷积层）将它们连接在一起。如 (b) 所示，这里的 c 是我们希望添加到网络中的调节向量。

Stable Diffusion 的 U-net 结构与编码器模块和中间模块上的 ControlNet 相连。锁定的灰色区块显示的是 Stable Diffusion V1.5（或 V2.1，因为它们使用相同的 U-net 架构）的结构。可训练的蓝色区块和白色零卷积层被添加到 ControlNet 中。

Adding Conditional Control to Text-to-Image Diffusion Models
https://arxiv.org/abs/2302.05543

9. Runway-视频合成模型Gen1

Gen-1研究论文通过融合文本引导的生成扩散模型介绍了视频编辑领域的突破性进展。虽然此类模型之前已经彻底改变了图像创建和操作，但将其功能扩展到视频编辑仍然是一个艰巨的挑战。现有方法要么需要对每个输入进行费力的重新训练，要么采用容易出错的技术来跨帧传播图像编辑。针对这些限制，研究人员提出了一种结构和内容引导的视频传播模型，该模型允许基于所需输出的文本或视觉描述进行无缝视频编辑。建议的解决方案是利用具有不同细节级别的单目深度估计来获得对结构和内容保真度的精确控制。
Gen-1接受了图像和视频方面的联合培训，为多功能视频编辑能力铺平了道路。它使用户能够对输出特性进行细粒度控制，从而能够根据一些参考图像进行定制。大量的实验证明了它的强大功能，从保持时间一致性到在编辑结果中实现用户偏好。

引导式视频合成我们提出了一种基于潜在视频扩散模型的方法，该方法可在保持输入视频（中间）结构的同时，根据文本（顶部）或图像（底部）描述的内容引导合成视频（顶部和底部）。

在训练过程中（左图），输入视频 x 通过固定编码器 E 编码为 z0，并扩散到 zt。我们通过对利用 MiDaS 获得的深度图进行编码，提取结构表征 s，并利用 CLIP 对其中一个帧进行编码，提取内容表征 c。然后，模型会在 s 和 c 的帮助下学习逆转潜空间中的扩散过程，前者会被连接到 zt，后者则通过交叉注意力块提供。在推理过程中（右图），输入视频的结构 s 也是以同样的方式提供的。为了通过文本指定内容，我们通过先验将 CLIP 文本嵌入转换为图像嵌入。

时间扩展：我们将基于图像的 UNet 架构扩展到视频，在其构建模块中添加时间层。我们在其残差块中的每个二维空间卷积之后添加一个一维时间卷积（左图），并在其每个二维空间注意力块之后添加一个一维时间注意力块（右图）。

时间控制：通过联合训练图像和视频模型，我们可以通过时间引导尺度 ωt 明确控制编辑视频的时间一致性。在左侧，通过连续帧的 CLIP 余弦相似度衡量的帧一致性随 ωt 的增大而单调增加，而通过光流翘曲的帧之间的均方误差则随 ωt 的增大而单调减小。右图中，较低的比例（中间一行为 0.5）可实现 "手绘 "效果的编辑，而较高的比例（底部一行为 1.5）则可实现更平滑的效果。最上面一行显示的是原始输入视频，两段剪辑使用的提示是 "一个男人看着镜头的铅笔素描"。

我们的方法可以进行各种视频编辑，包括改变动画风格（如动漫或黏土动画）、改变环境（如时间或季节）、改变角色（如将人类变为外星人或将自然场景移至外太空）。

Structure and Content-Guided Video Synthesis with Diffusion Models
https://arxiv.org/abs/2302.03011

10. DeepMind和多伦多大学-多领域世界模型DreamerV3

该论文介绍了DreamerV3，这是一种基于世界模型的开创性算法，它在广泛的领域中展示了卓越的性能，包括连续和离散动作、视觉和低维输入、2D和3D环境、各种数据预算、奖励频率和奖励尺度。DreamerV3的核心是一个从经验中学习的世界模型，结合了丰富的感知和想象力训练。该模型包含三个神经网络：一个用于根据潜在行动预测未来结果，另一个用于评估不同情况的价值，第三个用于学习如何走向有价值的情况。该算法跨具有固定超参数的域的通用性是通过信号幅度的转换和稳健的归一化技术实现的。
DreamerV3的一个特别值得注意的成就是它能够完全从头开始克服在流行视频游戏Minecraft中收集钻石的挑战，而不依赖于人类数据或课程。DreamerV3还展示了可扩展性，较大的模型可以直接转化为更高的数据效率和卓越的最终性能。

在所有领域中使用相同的超参数，DreamerV3 在各种基准和数据效率机制中的表现都优于专门的无模型算法和基于模型的算法。在开箱即用的情况下，DreamerV3 还能在奖励稀疏的情况下，从头开始学习如何在流行的视频游戏 Minecraft 中获取钻石，而这是人工智能领域的一项长期挑战，以往的方法需要人类数据或特定领域的启发式方法才能解决。

这项工作考虑了四个视觉领域。DreamerV3 在这些不同的领域都取得了成功，其中既包括雅达利 2D 图形游戏中的机器人运动和操纵任务，也包括诸如 DMLab 和 Minecraft 等需要空间和时间推理的复杂 3D 领域。

DreamerV3 的训练过程。世界模型将感官输入编码为离散表征 zt，该表征由序列模型预测，序列模型具有给定动作 at 的循环状态 ht。输入被重构为学习信号，以形成表征。行动者和评论者根据世界模型预测的抽象表征轨迹进行学习。

Mastering Diverse Domains through World Models
https://arxiv.org/abs/2301.04104

总结展望

2023年，人工智能研究领域取得了显着进步，这十篇变革性论文照亮了AI前进的道路。从创新的语言模型到突破性的图像生成和视频编辑技术，这些论文突破了人工智能能力的界限。当我们反思这些成就时，我们预计即将出现更多变革性的发现和应用，从而塑造未来几年的人工智能格局。

图源：旺知识

参考资料：

盖茨对话OpenAI CEO奥特曼，深入探讨AI：趋势、监管、效率、社会、成本、人才、团队
2024年生成式人工智能(GenAI)发展趋势全面展望：商业、企业、投资、研发、应用、安全
https://www.topbots.com/top-ai-research-papers-2023
深度洞察：人工智能体(AI Agent)2024年重要发展趋势指南
深度洞察：人工智能2024年重要发展趋势指南

		自动登录	找回密码
密码			立即注册

2023年Top10最具变革性人工智能研究-照亮AI突破之路

本帖子中包含更多资源

最近发表

公社版块

关注我们