请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
搜索

2024 年十大数据和人工智能趋势





“数据和人工智能领域发展迅速。如果你不停下脚步,放眼四周,你可能就会错过。”
2023年是GenAI的年份。而2024年正在成为……另一个GenAI的年份。
但是,2023年团队们争先恐后地进行名字的丢挂,而2024年将看到团队们将真正的业务问题放在他们的AI模型上的优先级。随着重新聚焦,也带来了新的优先事项。
说到数据的未来,上涨的潮水会提升所有的船只。GenAI将在2024年继续上升,提升数据行业的标准和优先级。
以下是我对数据和人工智能团队接下来的十大预测,以及你的团队如何保持领先一步。
1、LLM将改变技术栈

这一点不言而喻。
可以毫不夸张地说,大型语言模型(LLM)在过去12个月中已经改变了技术的面貌。从拥有合法用例的公司到寻找问题的技术的“夜行”团队,每个人和他们的数据监管员都试图以一种方式或另一种方式使用生成式人工智能(GenAI)。
LLM预计将继续在2024年及以后改变技术栈——从推动对数据的需求增加,并需要新的架构,例如向量数据库(也就是“AI技术栈”),到改变我们处理和使用数据的方式,为我们的最终用户。
自动化数据分析和激活将成为每个产品的预期工具,以及数据堆栈的每个层面。问题是:我们如何确保这些新产品在2024年提供了真正的价值,而不仅仅是PR信用的一点新闪光?
2、数据团队将像软件团队一样

最成熟的数据团队正在将他们的数据资产视为真正的数据产品——完整的产品需求、文档、冲刺,甚至是终端用户的服务级别协议(SLAs)。
因此,随着组织开始将更多的价值映射到他们定义的数据产品上,越来越多的数据团队将开始像关键产品团队一样看待并受到管理
3、软件团队将成为数据实践者

当工程师试图在不考虑数据的情况下构建数据产品或 GenAI 时,结果不会很好。
随着人工智能继续吞噬世界,工程和数据将合而为一。如果不关注人工智能,任何主要的软件开发都不会进入市场,而如果没有某种程度的真实企业数据为其提供支持,任何主要的人工智能都不会进入市场。
这意味着,当工程师寻求提升新的人工智能产品时,他们需要关注数据以及如何使用数据,以便构建能够增加新的持续价值的模型。
4、RAG将会成为焦点

在经历了一系列备受瞩目的 GenAI 失败之后,对干净、可靠和精心策划的上下文数据来增强 AI 产品的需求变得越来越明显。
随着人工智能领域的不断发展,普通 LLM 训练的盲点变得越来越明显,拥有专有数据的团队将大规模地转向 RAG (检索增强生成)和大规模调整,以增强他们的企业AI产品,并为他们的利益相关者提供可证明的价值壕沟。
RAG 仍然比较新(它是由Meta AI在2020年首次引入的),组织还没有对RAG开发经验或最佳实践——但它们会出现的。
5、团队将运营企业级人工智能产品

持续发展的数据工程趋势——数据产品。毫无疑问,人工智能是一个数据产品。
如果说2023年是人工智能年,那么2024年将是人工智能产品落地之年。无论是出于需要还是出于胁迫,各行业的数据团队都将采用企业级人工智能产品。问题是——他们真的做好了企业准备吗?
(希望)创建随机聊天功能只是为了在董事会要求时集成人工智能的日子已经一去不复返了。到 2024 年,团队可能会更加成熟地开发人工智能产品,利用更好的培训实践来创造价值并确定需要解决的问题,而不是推出技术来创造新问题。
6、数据可观测性将支持AI和向量数据库

在亚马逊网络服务(AWS)的2023年首席数据官见解调查中,受访者被问及他们组织在实现生成式人工智能潜力方面的最大挑战是什么。
最常见的答案是?数据质量。
生成式人工智能的核心是一种数据产品。与任何数据产品一样,如果没有可靠的数据,它就无法发挥作用。但在法学硕士的规模上,手动监控无法提供使任何人工智能可靠所需的全面有效的质量覆盖。
为了真正取得成功,数据团队需要一个针对人工智能堆栈量身定制的活生生的数据可观测性策略,使他们能够在不断增长的动态环境中持续检测、解决和防止数据停机。而且,这些解决方案需要优先考虑分辨率、管道效率和支持 AI 的流/矢量基础设施,以便成为 2024 年现代 AI 可靠性之战的竞争者。
7、大数据将变小

三十年前,个人电脑还是个新鲜事物。现在,随着现代 Macbook 拥有与 AWS 服务器 Snowflake 于 2012 年推出 MVP 仓库相同的计算能力,硬件正在模糊商业和企业解决方案之间的界限。
由于大多数工作负载都很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。
特别是对于需要快速扩展的团队来说,这些解决方案可以快速启动,并且可以通过商业云产品提升到企业级功能。
8、适当规模将优先

今天的数据领导者面临着一项不可能的任务。使用更多的数据,产生更多的影响,利用更多的人工智能——但降低云成本。
正如《哈佛商业评论》所说,首席数据和人工智能官员是注定要失败的。根据IDC的报告,截至2023年第一季度,云基础设施支出增长到215亿美元。根据麦肯锡的数据,许多公司每年云支出增长高达30%。
像元数据监控和允许团队查看和调整利用率的工具这样的低影响方法在2024年将非常宝贵。
9、冰山将崛起(Apache Iceberg)

Apache Iceberg是由Netflix的数据工程团队开发的开源数据湖表格式,旨在提供一种更快速、更简便地处理大规模数据集的方式。它被设计为即使是具有PB级数据的大型分析表,也可以轻松地用SQL查询。
现代数据仓库和数据湖将提供计算和存储,而Iceberg则专注于提供成本效益高的结构化存储,这种存储可以由可能在同一时间跨组织使用的多种不同引擎访问,比如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。
最近,Databricks宣布Delta表元数据也与Iceberg格式兼容,Snowflake也在积极努力与Iceberg集成。随着湖仓成为许多组织的事实上的解决方案,Apache Iceberg — 以及Iceberg的替代方案 — 也可能继续增长。
10、重返办公室

RTO——每个人最不喜欢的首字母缩写。或者可能是他们的最爱!老实说,我现在跟不上。虽然团队在这个问题上似乎存在分歧,但越来越多的团队每周至少有几天被召回他们的小隔间/开放式平面图/灵活的工作环境。
根据 Resume Builder 2023 年 9 月的一份报告,90% 的公司计划在 2024 年底前执行重返办公室政策——距离 2020 年那个决定性的春天已经过去近四年了。
事实上,包括亚马逊的安迪·贾西(Andy Jassy)、OpenAI 的萨姆·奥尔特曼(Sam Altman)和谷歌的桑达尔·皮查伊(Sundar Pichai)在内的几位有权势的首席执行官在过去几个月已经制定了重返办公室政策。与完全在家工作相比,在办公室工作(至少是兼职)似乎至少有一些好处。
发现自己处于永远呆在家里的营地吗?答案似乎是——就像数据中的情况一样——提供更多价值。尽管最近出现经济逆风及其对就业市场的影响,但数据和人工智能团队的需求仍然很高。雇主通常会不惜一切代价来获得并留住他们。虽然一些公司要求所有员工无论职位如何都返回办公室,但 Salesforce 等其他公司则要求非远程工程师的上班时间要少得多,每季度总计10 天


参考链接:
原文链接:https://barrmoses.medium.com/top-10-data-ai-trends-for-2024-7f830196db65
点赞关注 二师兄 talk 获取更多资讯,并在 头条 上阅读我的短篇技术文章

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册