通过《Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling》,研究人员最初发布了 8 个 LLM,参数范围从 70M 到 12B 参数(权重和数据都公开发布,这很罕见)。 但在我看来,这篇论文的突出特点是他们还发布了训练细节、分析和见解(其中一些如下图所示)。
摘自我之前在这里写过的 LoRA 和 QLoRA 实验
由于研究人员和从业者的目标是创建定制的LLM,LLM微调仍然与以往一样重要。我很欣赏 QLoRA 等技术,它们通过降低 GPU 内存需求障碍来帮助使此过程更容易实现。
4) BloombergGPT: A Large Language Model for Finance (BloombergGPT:金融大型语言模型)
近年来,我几乎只使用LLM或视觉Transformer(ViT),因为它们具有良好的性能。 在最后三篇文章中,我从语言论文转向计算机视觉论文,我发现计算机视觉 Transformer 特别吸引人的是,预训练的 ViT 比卷积神经网络更容易微调。(我在这里总结了今年早些时候 CVPR 上的简短实践演讲:https://magazine.sebastianraschka.com/p/acceleating-pytorch-model-training)。 令我惊讶的是,我偶然发现了ConvNets Match Vision Transformers at Scale论文,该论文表明,当能够访问足够大的数据集时,卷积神经网络 (CNN) 实际上可以与 ViT 竞争。
带注释的图来自 ConvNets Match Vision Transformers at Scale ( https://arxiv.org/abs/2310.16764 ) 论文
在这里,研究人员投入了高达 11 万个 TPU 小时的计算预算,以对 ViT 和 CNN 进行公平的比较。结果是,当 CNN 使用类似于 ViT 通常使用的计算预算进行预训练时,它们可以匹配 ViT 的性能。为此,他们对 JFT 的 40 亿张标记图像进行了预训练,随后在 ImageNet 上对模型进行了微调。
9)Segment Anything (分割一切)
图像分割对于自动驾驶汽车、医学成像等许多其他应用非常重要。在短短的6个月内,该论文已被引用超过1500次,并且已经有许多项目基于该论文构建。
10) Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models(调整你的Latents:高分辨率视频合成与潜伏扩散模型)
Emu Video:通过显式图像调节分解文本到视频的生成是 Meta 研究部门的另一个著名计算机视觉项目。 Emu 是一种文本转视频模型,可以根据文本提示生成整个视频。 虽然它不是第一个令人印象深刻的文本到视频生成模型,但它与之前的作品相比非常有利。