请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

2023 年十篇值得关注的人工智能研究论文

Sebastian Raschka,一位来自威斯康星大学麦迪逊分校的统计学助理教授,也是人工智能平台Lightning AI的LLM研究员,整理出了他认为在2023 年十篇值得关注的人工智能研究论文。这些论文我大部分都看过,都很不错。
原文链接:https://magazine.sebastianraschka.com/p/10-ai-research-papers-2023 我看了一下,感觉他选的这些文章,我大部分都看过,而且都是我觉得很不错的文章。他的点评也都很有意思。故此将这篇文章翻译了一下,以飨读者。以下为译文:
今年的感觉明显不同。我在机器学习和人工智能领域工作了十多年,但我不记得这些领域像今年这样流行和快速发展。 为了结束机器学习和人工智能研究领域多事的 2023 年,我很高兴与大家分享我今年读过的 10 篇值得注意的论文。我个人更关注大型语言模型,因此您会发现今年对大型语言模型 (LLM) 论文的重视程度高于计算机视觉论文。 我拒绝将这篇文章标记为“2023 年顶级人工智能研究论文”,因为确定“最佳”论文是主观的。选择标准基于我特别喜欢或认为有影响力且值得注意的论文组合。(排序顺序是推荐的阅读顺序,而不是按感知质量或影响进行排序。)
1) Pythia — Insights from Large-Scale Training Runs

通过《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》,研究人员最初发布了 8 个 LLM,参数范围从 70M 到 12B 参数(权重和数据都公开发布,这很罕见)。 但在我看来,这篇论文的突出特点是他们还发布了训练细节、分析和见解(其中一些如下图所示)。



来自 Pythia 论文的注释图表,https://arxiv.org/abs/2304.01373
以下是 Pythia 论文解决的一些问题:

  • 对重复数据进行预训练(即训练 >1 epoch)会产生影响吗?事实证明,重复数据删除不会有利于或损害性能。
  • 训练顺序会影响记忆吗?不幸的是,事实证明并非如此。“不幸的是”,因为如果这是真的,我们可以通过重新排序训练数据来减轻不良的逐字记忆问题。
  • 预训练的术语频率会影响任务绩效吗?是的,对于出现频率更高的术语,几次射击的准确率往往会更高。
  • 增加批量大小是否会影响训练效率和模型收敛?将批量大小加倍可以使训练时间减半,但不会损害收敛性。
仅仅六个月后的今天,LLM绝非开创性的。然而,我加入这篇论文是因为它不仅试图回答有关训练设置的有趣问题,而且还是关于细节和透明度的积极例子。此外,<1B 范围内的小型 LLM 是小型研究和修补的不错模板,或者是预训练实验的入门者(这里是其GitHub 存储库的链接)。 我对 2024 年的愿望是,我们在来年看到更多这样的研究和写得好的论文!
2) Llama 2: Open Foundation and Fine-Tuned Chat Models

Llama 2:开放基础和微调聊天模型是 Meta 广受欢迎的第一篇 Llama 论文的后续论文。 Llama 2 模型的参数范围为 7B 到 70B,这是本文进入此列表的原因之一:这些模型仍然是功能最强大且使用最广泛的开放模型之一。值得注意的是,Llama 2 许可证还允许在商业应用程序中使用(有关详细信息,请参阅访问请求页面)。



来自 Llama 2 论文 ( https://arxiv.org/abs/2307.09288 )的注释图比较了 Llama 2 模型和 ChatGPT
在模型方面,Llama 2 套件与许多其他 LLM 的区别在于,这些模型是标准的预训练模型和聊天模型,这些模型通过人类反馈的强化学习(RLHF,用于创建 ChatGPT 的方法)进行了微调,以遵循人类的行为类似于 ChatGPT 的指令 — RLHF 微调模型仍然很少见。



来自 Llama 2 论文 ( https://arxiv.org/abs/2307.09288 ) 的注释图总结了指令微调的 RLHF 过程。
有关 RLHF 以及如何在 Llama 2 中使用它的更多详细信息,请参阅下面我的更全面的独立文章。



添加图片注释,不超过 140 字(可选)
除了 Llama 2 模型被广泛使用并带有 RLHF 指令微调变体这一事实之外,我决定将这篇论文列入此列表的另一个原因是随附的 77 页深入研究报告。 在这里,作者还很好地说明了 Llama 2 70B Chat 模型的演变,追踪了从最初的监督微调 (SFT-v1) 到最终使用 PPO 的 RLHF 微调阶段 (RLHF-v5) 的历程。该图表反映了无害性和有益性轴的持续改进,如下面带注释的图所示。



Llama 2 论文 ( https://arxiv.org/abs/2307.09288 )中的注释图显示了从监督微调模型 (SFT-1) 的第一次迭代到最终 RLHF 微调聊天模型 (RLHF-v5) 的性能进展。
仅仅六个月后的今天,绝非开创性的。然而,我加入这篇论文是因为它不仅试图回答有关训练设置的有趣问题,而且还是关于细节和透明度的积极例子。-2-70B 模型,但在公开可用的 LLM 方面,Llama 2 仍然是常见且受欢迎的选择并在此基础上开发方法。 此外,尽管一些基准表明可能存在更好的模型,但今年更大的挑战之一是基准的可信度。例如,我们如何知道模型尚未根据上述基准进行训练并且分数没有被夸大?在经典的机器学习中,当有人提出一种新的梯度提升模型时,重现结果和检查相对容易。如今,考虑到培训LLM的成本和复杂性(而且大多数研究人员要么不披露架构,要么不披露训练数据细节),我们无法判断。 总而言之,尽管其他所有大公司现在都在推出自己专有的大型语言模型(Google 的 Bard 和 Gemini、Amazon 的 Q、Twitter/X 的 Grok 以及 OpenAI 的 ChatGPT),但看到 Meta 在开源领域加倍努力还是令人耳目一新。
3) QLoRA: Efficient Finetuning of Quantized LLMs

QLoRA:量化 LLM 的高效微调一直是今年 LLM 研究和微调社区中最受欢迎的技术之一,因为它使已经流行的 LoRA(低秩适应)技术更加内存高效。简而言之,这意味着您可以将更大的模型安装到更小的 GPU 上。



常规 LoRA 的简短视觉总结
QLoRA 代表量化 LoRA(低秩自适应)。标准 LoRA 方法通过将低秩矩阵添加到模型层的权重来修改预训练的 LLM。这些矩阵较小,因此在微调期间更新需要的资源较少。 在 QLoRA 中,这些低秩矩阵被量化,这意味着它们的数值精度会降低。这是通过将这些矩阵中的连续值范围映射到一组有限的离散级别来完成的。此过程减少了模型的内存占用和计算需求,因为对低精度数字的操作占用的内存较少



在LLM众多高效的微调方法中,LoRA 是最流行和最广泛使用的方法之一。注释图来自出色的《按比例缩小到按比例放大:参数高效微调指南》调查。
根据QLoRA 论文,QLoRA 降低了 65B Llama 模型的内存需求,以适应单个 48 GB GPU(如 A100)。由 65B Llama 量化 4 位训练得到的 65Bguanaco 模型保持了完整的 16 位微调任务性能,仅经过 24 小时的微调就达到了 ChatGPT 性能的 99.3%。 今年我还进行了许多 QLoRA 实验,发现 QLoRA 是一个方便的工具,可以在微调过程中减少 GPU 内存需求。不过,这需要权衡:额外的量化步骤会导致额外的计算开销,这意味着训练会比常规 LoRA 慢一些。



摘自我之前在这里写过的 LoRA 和 QLoRA 实验
由于研究人员和从业者的目标是创建定制的LLM,LLM微调仍然与以往一样重要。我很欣赏 QLoRA 等技术,它们通过降低 GPU 内存需求障碍来帮助使此过程更容易实现。
4) BloombergGPT: A Large Language Model for Finance (BloombergGPT:金融大型语言模型)

纵观今年发表的所有论文,《BloombergGPT:金融大型语言模型》对于前 10 名列表来说可能看起来是一个奇怪的选择,因为它没有产生突破性的新见解、方法论或开源模型。 我之所以将其纳入其中,是因为这是一个有趣的案例研究,其中有人在特定领域的数据集上对相对较大的LLM进行了预训练。而且,描述得相当详尽,这种情况越来越少见。当涉及到作者受雇于公司的论文时尤其如此——今年的趋势之一是,大公司对架构或数据集细节变得越来越保密,以在这个竞争格局中保护商业秘密(PS:我不知道)为此责备他们)。 此外,BloombergGPT 让我想到了我们可以在特定领域数据上预训练和微调模型的所有不同方法,如下图所示(请注意,BloombergGPT 论文中并未对此进行探讨,但看到未来的研究将会很有趣)在那)。



预训练和微调LLM的不同方法。
简而言之,BloombergGPT 是一个包含 500 亿个参数的金融语言模型,使用来自金融数据的 3630 亿个代币和来自通用公开数据集的 3450 亿个代币进行训练。相比之下,GPT-3 的大小是原来的 3.5 倍(1750 亿个参数),但训练的令牌却少了 1.4 倍(4990 亿个)。 既然 GPT-3 比 GPT-3 大 3.5 倍,为什么作者使用“仅”500 亿个参数的架构?这样更容易回答。他们采用了 Chinchilla 缩放法则,并发现考虑到可用的财务数据规模,这是一个很好的规模。 是否值得从头开始在组合数据集上(预)训练LLM?根据这篇论文,该模型在目标领域表现得非常好。但是,我们不知道它是否比 a)在特定领域数据上进一步预训练预训练模型或 b)在特定领域数据上微调预训练模型更好。 尽管上面有一些批评,但总体而言,这是一篇有趣的论文,可以作为特定领域LLM的有趣案例研究和示例;此外,它还为进一步研究预训练与微调以向LLM灌输知识留下了空间。 (PS:对于那些对微调比较感到好奇的人,正如Rohan Paul与我分享的那样,“小型” AdaptLLM-7B模型在一个数据集上的表现优于 BloombergGPT,并且几乎与它在其他三个金融数据集上的表现相匹配。尽管 BloombergGPT 似乎稍好一些总体而言,值得注意的是,培训 AdaptLLM-7B 的成本约为 100 美元,而 BloombergGPT 的投资则高达数百万美元。)
5)Direct Preference Optimization: Your Language Model is Secretly a Reward Model(直接偏好优化:你的语言模型实际上是一个奖励模型)

在讨论“直接偏好优化:您的语言模型是秘密奖励模型”论文之前,让我们先退后一步,讨论一下它旨在取代的方法:人类反馈强化学习 (RLHF)。 RLHF 是 ChatGPT 和 Llama 2 Chat 模型背后的主要技术。在 RLHF 中,我在另一篇文章中更详细地描述了它,我们使用多步骤过程:

  • 监督微调:模型最初在包含指令和所需响应的数据集上进行训练。
  • 奖励建模:人类评估者提供有关模型输出的反馈。该反馈用于创建奖励模型,该模型学习预测哪种类型的输出是首选的。
  • 近端策略优化(PPO):模型生成输出,奖励模型对每个输出进行评分。PPO 算法使用这些分数来调整模型的策略
产生更高质量的产出。(这是一种强化学习算法,用于微调模型的策略。



来自数据集的两个训练示例,用于监督指令微调步骤。请注意,“输入”是可选的。
虽然 RLHF 很流行且有效,正如我们在 ChatGPT 和 Llama 2 中看到的那样,但它的实现也相当复杂且挑剔。 直接偏好优化(DPO)论文介绍了一种算法,可以优化语言模型以符合人类偏好,而无需显式奖励建模或强化学习。相反,DPO 使用简单的分类目标。



DPO 论文中的带注释的数字,https://arxiv.org/abs/2305.18290
在 DPO 中,我们仍然保留有监督的微调步骤(上面的步骤 1),但我们用单个步骤替换步骤 2 和 3,以进一步根据偏好数据微调模型。换句话说,DPO 完全跳过了 RLHF 所需的奖励模型创建,这显着简化了微调过程。 效果如何?直到最近,才出现很多使用 DPO 进行训练的模型。(这是有道理的,因为 DPO 也是一种相对较新的方法。)但是,最近的一个例子是Zephyr:LM 对齐的直接蒸馏中描述的 Zephyr 7B 模型。Zephyr-7B 基于 Mistral-7B 基础 LLM,并使用 DPO 进行了微调。(稍后会有更多关于米斯特拉尔的内容。) 正如下面的性能表所示,7B 参数 Zephyr 型号在发布时优于同尺寸级别的所有其他型号。更令人印象深刻的是,Zephyr-7B 在会话式MT-Bench基准测试中甚至超越了大 10 倍的 70B 参数 Llama 2 聊天模型。



Zephyr 模型(经过 DPO 微调的 LLM)的带注释基准,来自https://arxiv.org/abs/2310.16944
综上所述,DPO论文的吸引力在于其方法的简单性。使用 RLHF 训练的聊天模型的稀缺(Llama 2 是一个明显的例外)可能归因于 RLHF 方法的复杂性。鉴于此,我认为预计来年 DPO 模型的采用将会增加是合理的。
6) Mistral 7B

我必须承认Mistral 7B 论文由于其简短而不是我的最爱。然而,它提出的模型相当有影响力。 我决定将这篇论文列入此列表,因为 Mistral 7B 模型不仅在发布时非常受欢迎,而且还作为基础模型,导致了其他两个著名模型的开发:Zephyr 7B 和最新的 Mistral Mixture of Experts(MoE)方法。这些模型很好地体现了我预计(至少)2024 年上半年小型LLM的趋势。 在讨论 Zephyr 7B 和 Mistral MoE 型号之前,我们先简单谈谈 Mistral 7B 本身。 简而言之,Mistral 7B 论文引入了一种紧凑而强大的语言模型,尽管其规模相对较小,只有 70 亿个代币,但在各种基准测试中,其性能优于其较大的对应模型,例如 13B Llama 2 模型。(除了两倍大的Qwen 14B之外,Mistral 7B 也是今年NeurIPS LLM 微调和效率挑战赛获胜解决方案中使用的基本模型。)



来自https://arxiv.org/abs/2310.06825的注释图比较了 Mistral 7B 和 Llama 13B 的性能
究竟为什么它如此出色尚不清楚,但这可能是由于它的训练数据。Llama 2 和 Mistral 都没有公开训练数据,所以我们只能推测。 在架构方面,该模型与 Llama 2 共享组查询注意力。虽然与 Llama 2 非常相似,但 Mistral 架构的一个有趣的补充是滑动窗口注意力,以节省内存并提高计算吞吐量以加快训练速度。(滑动窗口注意力先前在Child et al. 2019和Beltagy et al. 2020中提出。) Mistral 中使用的滑动窗口注意力机制本质上是一个固定大小的注意力块,它允许当前令牌仅关注特定数量的先前令牌(而不是所有先前令牌),如下图所示。



来自https://arxiv.org/abs/2310.06825的注释图解释了滑动窗口注意力。
在 7B Mistral 的具体情况下,注意力块大小为 4096 个标记,研究人员正在使用多达 100k 个标记上下文大小来训练模型。举一个具体的例子,在常规的自注意力中,第 50,000 个 token 的模型可以关注所有之前的 49,999 个 token。在滑动窗口自注意力中,Mistral 模型只能关注 45,904 到 50,000 的令牌(因为 50,000 - 4,096 = 45,904)。 然而,滑动窗口注意力主要用于提高计算性能。Mistral 优于更大的 Llama 2 模型的事实可能不是因为滑动窗口注意力,而是尽管有滑动窗口注意力。 Zephyr 和 Mixtral Mistral 7B 是一个有影响力的模型的原因之一是它是 Zephyr 7B 的基础模型,正如前面 DPO 部分提到的。Zephyr 7B 是第一个经过 DPO 训练的流行模型,其性能优于其他替代方案,它有可能为 DPO 在未来几个月成为微调聊天模型的首选方法奠定基础。 另一个值得注意的源自 Mistral 7B 的模型是最近发布的Mistral Mixture of Experts (MoE) 模型,也称为 Mixtral-8x7B。该模型在多个公共基准测试中的性能与较大的 Llama-2-70B 相当或超过。



OpenCompass 基准测试通过https://github.com/open-compass/MixtralKit 。蓝色框突出显示每行中的最佳结果。
有关更多基准测试,另请参阅 Mixtral 官方博客文章公告。该团队还发布了一个 Mixtral-8x7B-Instruct 模型,该模型已使用 DPO 进行了微调(但截至撰写本文时,还没有将其与 RLHF 微调模型 Llama-2-70-Chat 进行比较的基准)。



Mixtral 架构概述基于 Mistral 团队最初通过社交媒体上的磁力链接共享的 param.json 文件
据传 GPT-4 是一个由 16 个子模块组成的 MoE。据传这 16 个子模块中的每一个都有 1110 亿个参数(作为参考,GPT-3 有 1750 亿个参数)。如果您大约两个月前阅读我的2023 年人工智能和开源文章,我提到“看看 MoE 的方法是否可以在 2024 年将开源模型提升到新的高度将会很有趣”。看起来 Mixtral 很早就开始了这种趋势,而且我确信这只是一个开始。 专家组合 101 如果您不熟悉 MoE 模型,这里有一个简短的解释。



来自 Switch Transformers 论文 ( https://arxiv.org/abs/2101.03961 ) 的注释图解释了专家混合架构
上图显示了 Switch Transformer 背后的架构,每个代币使用 1 个专家,总共 4 个专家。另一方面,Mixtral-8x-7B 由 8 位专家组成,每个代币使用 2 位专家。 为什么是MoEs?综合起来,像 Mixtral 这样的 7B 模型中的 8 位专家仍然是 ~56B 参数。实际上,它小于 56B,因为 MoE 方法仅应用于 FFN(前馈网络,又名全连接)层,而不是自注意力权重矩阵。因此,它可能更接近 40-50B 参数。 请注意,路由器会重新路由令牌,以便一次仅使用 <14B 参数(2x <7B,而不是全部 <56B)进行前向传递,因此与传统的非MoE方法相比,训练(尤其是推理)速度更快。 如果你想了解更多关于phi模型的信息,这里有Sophia Yang推荐的阅读清单:

  • The Sparsely-Gated Mixture-of-Experts Layer (2017)
  • GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding (2020)
  • MegaBlocks: Efficient Sparse Training with Mixture-of-Experts (2022)
  • Mixture-of-Experts Meets Instruction Tuning (2023)
此外,如果您有兴趣尝试 MoE LLM,还可以查看OpenMoE存储库,该存储库于今年早些时候实现并共享了 MoE LLM。 其他规模较小但具有竞争力的LLM Mistral 7B、Zephyr 7B 和 Mixtral-8x7B 是 2023 年取得进展的绝佳例子,它们的型号虽小但功能强大,具有公开可用的重量。另一个值得注意的模型是 Microsoft 的 phi 系列,它是我最喜欢的论文列表中的亚军。 phi 的秘密武器是对通过过滤网络数据获得的高质量数据(称为“教科书质量数据”)进行训练。 phi 模型于 2023 年分阶段发布,包括 phi-1(1.3B 参数)、phi-1.5(1.3B 参数)和 phi-2(2.7B 参数)。后者于两周前发布,据称其性能可与 Mistral 7B 相媲美或优于 Mistral 7B,尽管其尺寸只有 Mistral 7B 的一半。



1.3B参数phi-1.5模型与各种7B参数模型的比较(来自phi-1.5论文,https://arxiv.org/abs/2309.05463 )
有关 phi 模型的更多信息,我推荐以下资源:

  • Textbooks Are All You Need -- the phi-1 paper
  • Textbooks Are All You Need II: phi-1.5 Technical Report
  • The Phi-2: The Surprising Power of Small Language Models announcement


7) Orca 2: Teaching Small Language Models How to Reason (Orca 2:教授小语言模型如何推理)

Orca 2:教授小语言模型如何推理是一篇相对较新的论文,时间会证明它是否对我们在未来几个月或几年内培训LLM的方式产生持久影响。 我决定将其包括在内,因为它结合了几个概念和想法。 第一个想法是从 GPT-4 等大型、有能力的模型中提取数据,创建一个合成数据集来训练小型但有能力的LLM。去年发表的《自我指导》论文中描述了这个想法。今年早些时候,Alpaca(一种在 ChatGPT 输出上进行微调的 Llama 模型)真正普及了这种方法。 这是如何运作的?简而言之,这是一个 4 步过程:

  • 种子任务池,包含一组人工编写的指令(本例中为 175 条)和示例指令;
  • 使用预训练的LLM(如GPT-3)来确定任务类别;
  • 给定新指令,让预训练的 LLM 生成响应;
  • 在将响应添加到任务池之前收集、修剪和过滤响应。





基于 Self-Instruct 论文的注释图,https://arxiv.org/abs/2212.10560
另一个想法可能并不令人惊讶,但值得强调:高质量的数据对于微调非常重要。例如,LIMA 论文提出了一个人类生成的高质量数据集,仅包含 1k 个训练示例,可用于微调以超越在 50k ChatGPT 生成的响应上微调的相同模型。



LIMA 论文的注释图,https://arxiv.org/abs/2305.11206
与之前严重依赖模仿学习来复制较大模型输出的研究不同,Orca 2 旨在向“小型”(即 7B 和 13B)LLM 教授各种推理技术(例如逐步推理、回忆然后生成、等)并帮助他们确定每项任务的最有效策略。这种方法使 Orca 2 的性能明显优于类似尺寸的模型,甚至达到了与 5-10 倍大的模型相当的结果。



Orca 2 论文中评估的许多基准任务的子集,https://arxiv.org/abs/2311.11045
虽然我们还没有看到对此进行任何广泛的研究,但 Orca 2 方法也可能能够解决使用合成数据的问题,这一问题在《模仿专有LLM的虚假承诺》论文中强调。在这里,研究人员使用 Alpaca 和 Self-Instruct 等示例,研究了微调较弱的语言模型以模仿 ChatGPT 等更强的专有模型。最初,模仿模型显示出可喜的结果,与 ChatGPT 相比,在遵循指令方面表现良好,并获得了人群工作者的有竞争力的评级。然而,更多的后续评估表明,这些模仿模型似乎只对人类观察者表现良好,但往往会产生实际上不正确的反应。
8) ConvNets Match Vision Transformers at Scale (卷积网络大规模匹配视觉Transformer)

近年来,我几乎只使用LLM或视觉Transformer(ViT),因为它们具有良好的性能。 在最后三篇文章中,我从语言论文转向计算机视觉论文,我发现计算机视觉 Transformer 特别吸引人的是,预训练的 ViT 比卷积神经网络更容易微调。(我在这里总结了今年早些时候 CVPR 上的简短实践演讲:https://magazine.sebastianraschka.com/p/acceleating-pytorch-model-training)。 令我惊讶的是,我偶然发现了ConvNets Match Vision Transformers at Scale论文,该论文表明,当能够访问足够大的数据集时,卷积神经网络 (CNN) 实际上可以与 ViT 竞争。



带注释的图来自 ConvNets Match Vision Transformers at Scale ( https://arxiv.org/abs/2310.16764 ) 论文
在这里,研究人员投入了高达 11 万个 TPU 小时的计算预算,以对 ViT 和 CNN 进行公平的比较。结果是,当 CNN 使用类似于 ViT 通常使用的计算预算进行预训练时,它们可以匹配 ViT 的性能。为此,他们对 JFT 的 40 亿张标记图像进行了预训练,随后在 ImageNet 上对模型进行了微调。
9)Segment Anything (分割一切)

图像和视频中的对象识别和分割以及分类和生成建模是计算机视觉的主要研究领域。 简要强调这两个任务之间的区别:关于预测边界框和相关标签的对象检测;分割对每个像素进行分类以区分前景和背景对象。



对象检测(上)和分割(下)。数据来自 YOLO 论文 ( https://arxiv.org/abs/1506.02640 ) 和 Mask R-CNN 论文 ( https://arxiv.org/abs/1703.06870v3 )
Meta 的Segment Anything论文是开源和图像分割研究的一个重要里程碑。本文介绍了图像分割的新任务、模型和数据集。随附的图像数据集是迄今为止最大的分割数据集,在 1100 万张图像上包含超过 10 亿个掩模。



Segment Anything Model (SAM) 专为高效、基于提示的图像分割而设计。带注释的屏幕截图来自 Segment Anything 论文,https://arxiv.org/abs/2304.02643
然而,罕见且特别值得称赞的是,研究人员使用了经过许可且尊重隐私的图像,因此该模型可以开源,而不会出现重大版权问题。 分段任意模型 (SAM) 由三个主要组件组成,如上图所示。



Segment Anything Model 的三个主要组成部分来自https://arxiv.org/abs/2304.02643
更详细地说,这三个组成部分可以概括如下:

  • 图像编码器利用基于预训练视觉变换器 (ViT) 的屏蔽自动编码器,可以处理高分辨率输入。该编码器每个图像运行一次,并且可以在提示模型之前应用。
  • 处理两种类型提示的提示编码器:稀疏(点、框、文本)和密集(掩模)。点和框由位置编码与每种提示类型的学习嵌入相结合来表示。自由格式文本使用 CLIP 的现成文本编码器。密集提示(即掩码)使用卷积进行嵌入,并与图像嵌入按元素求和。
  • 掩码解码器将图像嵌入、提示嵌入和输出标记映射到掩码。这是一种解码器式Transformer架构,用于计算每个图像位置的掩模前景概率。
图像分割对于自动驾驶汽车、医学成像等许多其他应用非常重要。在短短的6个月内,该论文已被引用超过1500次,并且已经有许多项目基于该论文构建。
10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models(调整你的Latents:高分辨率视频合成与潜伏扩散模型)

Emu Video:通过显式图像调节分解文本到视频的生成是 Meta 研究部门的另一个著名计算机视觉项目。 Emu 是一种文本转视频模型,可以根据文本提示生成整个视频。 虽然它不是第一个令人印象深刻的文本到视频生成模型,但它与之前的作品相比非常有利。



Emu 与其他文本转视频模型的性能比较:https://arxiv.org/abs/2311.10709
正如作者所指出的,与以前的方法相比,Emu 架构设置相对简单。这里的主要思想之一是 Emu 将生成过程分解为两个步骤:首先,基于文本生成图像(使用扩散模型),然后根据文本和生成的图像创建视频(使用另一个扩散模型) )。 对于 DALL-E 2、Stable Diffusion 和 Midjourney 等文本到图像模型来说,2022 年是重要的一年。虽然文本到图像模型在 2023 年仍然非常流行(尽管LLM在这一年中受到了大部分关注),但我认为文本到视频模型即将在来年在在线社区中变得更加流行。 由于我不是图像或视频设计师,因此目前没有这些工具的用例;然而,文本到图像和文本到视频模型作为计算机视觉进展的一般衡量标准仍然值得关注。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册