AI数据从何而来？版权难题何解？合规水位定多高？专家热议

thy · 2024-1-5 12:54:59

12月19日，第七届啄木鸟数据治理论坛在京召开。此次论坛由南方都市报数字经济治理研究中心联合中国政法大学数据法治研究院举办，主题为“数据为本，AI向善”。在论坛圆桌讨论环节，南都数字经济治理研究中心负责人李玲围绕“生成式AI数据利用与合规挑战”主题对话来自AI产研一线法律界和企业界的四位嘉宾，从多维度碰撞智维火花，为AI治理合规发展建言献策。

圆桌对谈中，嘉宾们一致认同，在确保人工智能蓬勃发展的同时，不失伦理底线，不破法律边界，践行责任担当，共建AI安全治理新生态已成共识。

让数据“活起来”
建立全链条可监控可追溯的

数据生命周期管理体系

生成式AI的发展非常依赖数据质量——因为只有高质量的数据才能够让大模型训练出高质量的内容。可以说，优质数据是未来大模型的核心竞争力。数据从何而来？高质量的中文语料数据稀缺难题怎么破解？

清华大学智库中心助理研究员、智能法治研究院院长助理刘云认为，版权数据来源质量相对有保障，此外开源数据集、结构化的标注数据等也是提高数据模型质量的优良通道，以及未来政务数据的过滤、筛选、提取和分类，都将是高质量提纯数据的活水源头。

刘云谈数据治理挑战痛点

对外经济贸易大学数字经济与法律创新研究中心主任张欣则补充提到：“平台上用户生产以及平台衍生的数据，在合规的背景下也可以探索授权使用。”

她同时指出，未来合成数据或将日益成为占据整个AI的训练与研发的重要组成部分，但现阶段技术水平下不能忽视其伴生风险——即大规模地运用AI合成数据训练大模型，有可能导致模型崩溃。这一点已于今年中旬英国与加拿大研究人员在开放期刊arXiv上发表的论文中得到证实。本质上，模型崩溃是指AI模型生成的数据最终污染了后续模型的训练集，这种“污染”导致模型对现实的认知产生扭曲。

张欣在讨论中

讨论中腾讯机器学习专家姚军指出，在当前的机器深度学习时代，大规模工业化半工业化的数据生产流程已经建立。在数据处理的过程中，人力更多在审核和决策上发挥关键功能。他指出，当前的大模型数据处理范式在融合高精度高密度的人类知识框架方面存在局限性。姚军以智能驾驶中边缘概率事故场景中的数据搜集举例，日常普通搜集已无法满足车辆研发创新所需的训练数据量，而通过机器增强的技术手段，能够数量级地提升此类数据的提纯与过滤，更好地优化未来应对类似边缘事故时的响应处置。“当前业界正在积极探索各种知识增强方法，如利用搜索增强生成技术来强化知识库的应用，并研究通过数据增强技术回馈AI训练的可行性。这些尝试将加速大模型在产业端的大规模应用。”

姚军回答主持人提问

此外，姚军特别强调，在数据的采集积累之外，更重要的是过滤加工处理，这是保障数据高质量的必经之路；同时还应建立全链条可监控的数据生命周期管理体系，让数据更好地被管理和使用。“如何更好地实现人机协同是特别值得关注的点，其中包括价值对齐和客观知识体系的对齐。”姚军说。

传统知产制度如何回应时代之变？

专家呼吁：耐心给予版权创新包容与空间

生成式AI的训练基于海量数据，其中包含了大量涉及知识产权的内容。在生成式AI背景下，这些海量训练数据及生成内容的知产权如何界定？现有的法律法规又该如何及时回应？

“新技术浪潮下，传统知识产权的制度变不变、变多少，是核心问题。”谈及高质量的训练数据治理痛点，中国科学院大学知识产权学院副教授、中国科技法学会人工智能法专委会执行主任刘朝认为，眼下要耐心给整个社会以制度创新的空间。刘朝同时援引当新兴软件许可需求与版权法原则矛盾时，开源这一制度创新在不改变版权基本逻辑的前提下，有效促进了软件产业发展这一历史实例。她指出传统的知识产权授权模式不适应当前AIGC产业的发展，探索新技术新业态下新的版权交易模式已势在必行，但不主张轻易动摇版权制度的基本逻辑。

刘朝发言中

在她看来，“新技术业态背景下的AI治理，之所以强调多元共治和多方合作探索，就是希望全社会耐心地给各类主体以足够的包容和空间，希望催生自下而上的新商业模式创新。”

张欣则指出，与生成式AI海量数据信息及其知识产权紧密相关的，还有其带来的产业链变革挑战。“所有信息生产和部署的终级控制权掌握在平台手里，这也是国家AI治理之所以要建立基于平台主体责任框架的出发点。”张欣表示，当下AIGC可以说已经渗入了社会各行各业的产业链结构，大模型垂直部署，诸如插件模式等等，都引出一个问题，那就是上游基础模型研发者和中游对点工具开发者，下游面向用户C端的运营者，谁对AI最终的内容生产负有终极主体责任，仅依靠平台主体责任的大框架并不能很好地应对这个问题，这也是需要全社会协同发力治理，并在技术合规风险中前置考虑的核心议题之一。

专家谈AI合规：

合规治理目的在于发展

合规水位亦应取法乎上

AI监管合规，水位高低如何定？

在对话中张欣表示，从国内AI企业的视角出发，尽管短期内因为条件约束可能无法采用最佳合规实践，但从长远来看，仍然应该取法乎上。

她通过援引英美等27个国家刚发布的AI安全部署指南中“技术负债”概念，以及美国的FTC执法罚没不合规的算法模型，对国内AI合规水位监测、改进、度量的机制提出建议，并对国际AI治理协同的趋势作出预判。“不知道AI能力边界，意味着不知道AI风险的边界。人工智能企业的合规具有长期动态性，国内在借鉴全球AI监管制度举措的同时，应以动态平衡的视角看待AI企业的合规进程。”她强调。

在刘云看来，提升透明度是彰显人工智能技术安全可控的试金石。谈及AI合规立法的必要性，他表示：“很多科技创新过程中的教训提醒我们，合规制度后置有可能会导致整个前期投资打水漂。”在AI领域，在目前这个发展阶段，透明度监管对于企业展示自己合规信心是很重要的方式，对助推企业内部的技术进步也能产生很好的自驱力。

治理的目的是为了发展，不发展才是最大的问题。许多与AI数据治理有关的领域也都面临一个问题——是不是应该回到生成式AI自身的技术发展规律，去探索数据治理元规则？在谈及AI监管合规标准时，姚军就表示，技术带来的问题用技术的手段去解决才是更好的路径。“监管合规应该只是我们的底线，从技术原动力出发，我们还追求对大模型生产环节的每一步进行性能测量，建立全链路可监控的技术方案，以便在出现问题时能够追溯原因。”同时，姚军呼吁全球AI行业参与者之间的协同合作，包括国家、行业、机构在内共同参与定义测试工具、标准、数据集和方法论的工作，共同助力大模型生产环节的优化与对齐。

统筹：李玲

采写：南都记者吕虹

出品：南都数字经济治理研究中心

		自动登录	找回密码
密码			立即注册

AI数据从何而来？版权难题何解？合规水位定多高？专家热议

本帖子中包含更多资源

最近发表

公社版块

关注我们