生成式人工智能的数据困境

kulelala · 2024-1-18 10:58:05

生成式人工智能（GenAI）有望为全球组织提供竞争优势，是每个企业领导者挂在嘴边的话题。这对他们的组织意味着什么？它的使用计划是什么？它们能以多快的速度颁布？
迄今为止，随着这项技术的指数级增长，许多特定于数据的对话都集中在收集的物流上。因此，它主要关注计算能力、基础设施、存储、技能等问题。
但是，GenAI进入主流也引发了一些关于数据使用伦理的更基本的问题——将对话从我们如何做到这一点，发展到我们应该这样做。在本文中，我们将研究围绕数据和GenAI出现的三个道德困境的例子，并考虑它们在制定长期AI方法时对公司的影响。
数据困境 1：您应该使用哪些数据？即公共与私人辩论

尽管它有所有的承诺，但GenAI的好坏取决于你给它的数据源--因此，公司倾向于使用尽可能多的数据。然而，事情并没有那么简单，它引发了围绕隐私、偏见和不平等的问题。
在最基本的层面上，您可以将数据分为两大类——公共和私有，前者比后者更客观且更容易受到偏见的影响，一个可以描述为您希望世界看到的内容，另一个可以描述为事实。但是，虽然私人数据可能因此更有价值，但它也更加敏感和机密。
从理论上讲，像《人工智能法案》这样的法规应该开始限制私人数据的使用，从而将决定权从公司手中夺走，但实际上，一些国家不会区分这两种类型。正因为如此，过于严格的法规可能效果有限，并使那些遵循它们的人处于不利地位——可能导致他们的GenAI模型得出劣质或有偏见的结论。
知识产权（IP）领域是类似监管情况的一个很好的例子——西方市场倾向于遵守知识产权法，而东方市场则不然，这意味着东方市场的创新速度远远快于西方市场。而且，不仅仅是其他公司可以利用这种数据使用的不平等——网络犯罪分子在进行攻击时不会坚持道德的人工智能使用和遵守隐私法，让那些有效地战斗的人被一只胳膊绑在背后。
那么这样做的动机是什么呢？
数据困境 2：您应该将数据保留多长时间？即 GDPR 与 GenAI

GenAI 模型是在数据集上训练的，数据集越大，模型越好，结论越准确。但这些数据集也需要稳定——删除数据，你实际上是在删除学习材料，这可能会改变算法可能得出的结论。
不幸的是，这正是 GDPR （通用数据保护法案）规定公司必须做的事情——只在处理数据所需的时间内保留数据。那么，如果 GDPR 告诉您删除旧数据怎么办？还是有人要求被遗忘？
除了必须重新训练GenAI模型的财务和可持续性影响外，在自动驾驶汽车的例子中，删除数据可能会产生非常实际的安全影响。
那么如何平衡两者呢？
数据困境 3：如何训练 GenAI 避免使用机密数据？即安全性与分类

根据法律，公司必须保护其数据，否则将面临巨额罚款。然而，为了保护他们的数据，他们首先需要对数据进行分类或分类——了解他们正在使用什么以及如何处理它。
到目前为止，一切都很简单，但鉴于公司现在每天创建的大量数据，越来越多的人转向GenAI来加速分类过程。这就是困难所在。机密数据应被赋予尽可能高的安全等级，并因此与任何GenAI引擎保持良好关系。
但是，如何训练人工智能对机密数据进行分类，从而避免机密数据，而不向其展示机密数据示例呢？Zscaler 最近的研究表明，全球只有 46% 的受访组织根据重要性对其数据进行了分类，这对大多数人来说仍然是一个紧迫的问题。
考虑到这些困境，接近GenAI

这需要考虑很多因素——而这只是公司在确定其 GenAI 方法时面临的众多问题中的三个。那么，坐以待毙，等待别人制定规则，是不是有理由呢？或者更糟糕的是，忽略它们，以牺牲能够更快地实施其 GenAI 为代价？
在回答这个问题时，我相信我们可以从公司发展碳足迹方法的方式中学到很多东西。虽然围绕这一点的立法越来越多，但花了很多年才达到这一点——我想GenAI也是如此。
就碳足迹而言，公司最终成为决定和管理其方法的人，但主要基于客户的压力。就像客户开始改变他们的购买习惯以反映品牌的“绿色证书”一样，我们可以预期他们会惩罚不道德地使用人工智能的公司。
鉴于此，公司应该如何开始负责他们的GenAI方法？

1. 尽管可能很诱人，但将公共和私人数据严格分开，并尽可能保护您对私人数据的使用。从竞争的角度来看，这可能会对你不利，但从道德上讲，不这样做太危险了。
2. 将这种数据类型分离扩展到 AI 引擎 – 考虑在内部将私有 AI 用于私有数据源，并且不要将私有数据暴露给公共 AI 引擎。
3. 牢记偏见 – 限制基于有偏见的公共信息得出结论且不验证其内容的 AI。验证您自己的结果。
4. 必须优先考虑现有法规——确保遵守 GDPR 规则和“被遗忘权”做法。这将意味着考虑重新应用人工智能处理引擎的频率，并将其纳入计划和预算。
5. 考虑使用预先训练的 AI 模型或合成数据集来稳定模型并避免机密分类训练的问题。
6. 不惜一切代价保护您的私有数据源 – 不要让人工任务简化（例如数据分类）成为 AI 数据泄露的不知不觉途径。有时答案不是GenAI。
7. 将您的私人数据保护扩展到员工 – 为 GenAI 制定指导方针，包括围绕允许将数据上传到工具和安全使用的培训。
现在就采取行动的必要性

组织（或者更准确地说是他们的 IT 和安全部门）面临着压力，他们需要尽快锁定他们的方法，以便他们能够利用 GenAI 来发挥自己的优势。
事实上，我们的研究表明，95%的组织已经在以某种形式使用GenAI工具——尽管存在上述安全问题——51%的组织预计从现在到圣诞节，他们对GenAI的使用将大幅增加。
但他们需要找到在不影响我们上面介绍的困境的情况下做到这一点的方法。回到我们的碳足迹比较，你不必准备好所有的答案就可以开始行动——但你确实需要证明你至少从一开始就试图做正确的事情。

		自动登录	找回密码
密码			立即注册

生成式人工智能的数据困境

最近发表

公社版块

关注我们