Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 10684–10695).
ldm使用去噪自编码器和扩散模型将形成图像的过程分解为一系列步骤,这允许在不需要重新训练的情况下控制图像生成过程。传统的扩散模型因为需要连续的评估,所以需要大量的计算资源和昂贵的使用,为了解决个问题研究人员在强大的预训练自编码器的潜在空间中应用了扩散模型。这使得他们在复杂性降低和细节保存之间达到了一个近乎最佳的点,极大地提高了视觉保真度。通过在模型架构中引入交叉注意层,ldm可以用于一般的条件输入,如文本或包围框,并可以以卷积方式生成高分辨率图像。ldm在图像修补和类条件图像合成方面取得了最新的成绩,在文本到图像合成、无条件图像生成和超分辨率等任务上具有很强的竞争力,同时与传统的基于像素的扩散模型相比,显著降低了计算需求。
3、LaMDA: Language Models for Dialog Applications
Thoppilan, R., De Freitas, D., Hall, J., Shazeer, N., Kulshreshtha, A., Cheng, H. T., … & Le, Q. (2022). Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239.
除了这些技术成就,研究人员还探索了LaMDA在教育和内容推荐领域的使用,分析了它在这些领域的帮助和角色一致性。总的来说,LaMDA的发展代表了自然语言处理领域的重大进步,并有潜力改进广泛的基于对话的应用程序。
4、A ConvNet for the 2020s
Liu, Z., Mao, H., Wu, C. Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A convnet for the 2020s. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 11976–11986).
Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust speech recognition via large-scale weak supervision. arXiv preprint arXiv:2212.04356.
研究人员探索了如何在元学习中开辟新的可能性,并发现无需通过更新规则进行反向传播就可以在epsilon-greedy Q-learning agent中进行元学习的高效探索。这种新算法有可能通过元学习显著提高人工智能系统的效率。
8、Tabular Data: Deep Learning is Not All You Need
Shwartz-Ziv, R., & Armon, A. (2022). Tabular data: Deep learning is not all you need. Information Fusion, 81, 84–90.
这篇论文比较了树集成模型XGBoost与几种深度学习模型在不同表格数据集上的分类和回归任务性能。结果表明,XGBoost的表现始终优于深度学习模型,包括之前声称深度模型性能优越的论文中使用的那些模型。该研究发现XGBoost需要的调优比深度学习模型要少得多。XGBoost和深度学习模型的集成在数据集上的表现比单独XGBoost更好。这些发现表明,XGBoost仍应被视为数据科学项目中表格数据的首选。并强调人工智能并不局限于深度学习,而是有不同的解决方案。
9、Imagen Video: High Definition Video Generation with Diffusion Models
Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., … & Salimans, T. (2022). Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303.
一种名为 Imagen Video 的新型文本条件视频生成系统使用基础视频生成模型和一系列交错的空间和时间视频超分辨率模型,可以根据给定的文本提示生成高清视频。 该系统可扩展为文本到高清视频模型,它利用各种分辨率的全卷积时间和空间超分辨率模型以及扩散模型的 v 参数化。 研究人员还将渐进式蒸馏应用于视频模型,可以在不使用分类器的情况下进行快速和高质量的采样。 Imagen Video 不仅可以生成高保真度的视频,还具有高度的可控性和世界知识,包括生成各种艺术风格和 3D 对象理解的多样化视频和文本动画的能力。
10、 A Path Towards Autonomous Machine Intelligence Version 0.9.2
LeCun, Y. (2022). A path towards autonomous machine intelligence version 0.9. 2, 2022–06–27. Open Review, 62.