CNCC｜如何基于少量标注构建高精度自然语言处理系统？

ianchen · 2022-10-29 10:16:16

CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办，今年CNCC技术论坛数量达到122个，内容涵盖了“计算+行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举行的【少标注自然语言处理】技术论坛。

报名及了解更多技术论坛信息请识别下图二维码进入CNCC2022官网。目前早鸟票限时优惠报名正在进行，抓住机会立享大幅优惠！

目前主流的自然语言处理模型均高度依赖大规模标注数据，然而由于自然语言处理任务具有标注难度高、任务种类多、领域差异大且层出不穷等特点，导致针对特定任务的标注数据量往往较少。因此，研究如何基于少量标注数据构建高精度自然语言处理系统具有重要意义。但是由于自然语言处理还具有知识的依赖性、表示的符号性、任务的多样性等特点，使得现有少标注学习方法在面向自然语言处理问题时往往显得力不从心。本论坛将邀请多位自然语言处理专家，就少标注自然语言处理理论以及方法的最新研究进展、未来发展方向进行深入探讨。

论坛安排

顺序	主题	主讲嘉宾	单位
1	利用理性因果指导的数据增强提高少标注自然语言处理模型的鲁棒性	张岳	西湖大学
2	低资源条件下的知识图谱构建及处理	陈华钧	浙江大学
3	Delta Tuning：大模型的小参数高效微调	刘知远	清华大学
4	语言模型即服务与黑箱优化	邱锡鹏	复旦大学

论坛主席

刘挺

CCF会士/理事

哈尔滨工业大学计算学部主任兼计算机学院院长

“十四五”国家重点研发计划“先进计算与新兴软件”、“社会治理与智慧社会科技支撑”两个重点专项的指南专家。中国中文信息学会副理事长，黑龙江省计算机学会理事长，黑龙江省中文信息处理重点实验室主任。主要研究方向为人工智能、自然语言处理和社会计算等。曾获国家科技进步二等奖、省科技进步一等奖等。

论坛共同主席

车万翔

哈尔滨工业大学人工智能研究院副院长/长聘教授

社会计算与信息检索研究中心副主任。国家级高层次青年人才，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。CCF高级会员、国际计算语言学学会亚太分会（AACL）执委兼秘书长。主持国家自然科学基金重点项目、科技创新2030—“新一代人工智能”重大项目课题等。曾获黑龙江省科技进步一等奖、中国中文信息学会科学技术奖一等奖等奖励。

报告及讲者介绍

张岳

西湖大学教授

主要研究领域为自然语言处理、文本挖掘、机器学习等。发表国际期刊论文50余篇，CCF列表 A、B 类国际会议论文二百余篇。担任CCL 2020、EMNLP 2022等语言处理国内外顶级会议程序委员会主席(PC cochair)。获CCF 2018中文计算与自然语言处理青年新锐奖、SemEval2020 Honorable Mention、COLING2018和IALP2017最佳论文奖等奖项。

报告题目：利用理性因果指导的数据增强提高少标注自然语言处理模型的鲁棒性

近些年来，包括“预训练+微调”的训练方法的革新使得深度学习在少标注自然语言处理任务上展现了很强大的预测能力。但是目前的深度学习方法仍然是黑匣子，并且在模型准确性和可解释性之间存在固有的权衡。而在实际场景应用中，希望其保持很高的准确率。本次报告将讲述如何通过对比事例、人在闭环、反事实推断和因果依据实现类人学习，达到准确度和可解释性的均衡提升。我们的方法在微调阶段不必再依赖于大规模数据的学习，有时仅需要50个样本的训练，也可取得更加可解释的推断以及更鲁棒的泛化性能。

陈华钧

浙江大学计算机科学与技术学院教授

主要研究方向为知识图谱、大数据系统、自然语言处理等。作为负责人主持多项国家自然科学基金重点类项目，以及国家重点研发计划、国家重大科技专项及企业合作项目等二十余项。曾获国际语义网会议ISWC2006最佳论文奖、教育部技术发明一等奖、中国中文信息学会钱伟长科技奖一等奖、浙江省科技进步二等奖、国家科技进步二等奖、中国工信传媒出版集团优秀出版物一等奖等奖励。

报告题目：低资源条件下的知识图谱构建及处理

很多领域知识图谱构建普遍存在低资源困境和挑战，即：大量长尾部分的知识由于使用较少，导致训练样本缺乏（小样本问题），难于训练出高效的知识图谱抽取或补全模型。同时，不断新增的知识又要求模型具备处理新实体、新属性和新关系的能力（零样本问题）。因此，研究低资源条件下的知识图谱构建模型具有迫切的研究意义和实际的应用价值。本报告尝试结合学术前沿和应用实践探讨低资源条件下的知识图谱构建与处理的一些思路和方法，并介绍了DeepKE、NeuralKG等相关开源工具。

刘知远

清华大学计算机系副教授

主要研究方向为自然语言处理、知识图谱和社会计算。Google Scholar统计引用超过24,000次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才、北京智源研究院青年科学家、2020年Elsevier中国高被引学者、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。

报告题目：Delta Tuning：大模型的小参数高效微调

近年来深度学习成为自然语言处理关键技术，特别是2018年以来的预训练语言模型，显著提升了自然语言处理整体性能。如何更好地激发大规模预训练模型在下游任务上的效果，是广泛关注的研究课题。但是，随着模型规模增大，如何微调大模型参数适配下游任务，变得越来越困难。最近，参数高效微调通过固定大模型参数不动，只微调非常少的参数（Delta），就可以达到与全参数微调相当的效果，取得了很多突破性进展。本报告将介绍大模型的小参数高效微调方法、前沿动态以及未来展望。

邱锡鹏

复旦大学计算机学院教授

国家优青获得者。主要从事自然语言处理、深度学习等方向的研究，发表CCF A/B类论文70余篇，获得ACL 2017杰出论文奖（CCF A类）、CCL 2019最佳论文奖、《中国科学：技术科学》2021年度高影响力论文奖，有5篇论文入选PaperDigest发布的IJCAI/ACL/EMNLP的最有影响力论文（被引用数进入前当届会议的20名）。出版开源专著《神经网络与深度学习》，Github关注数1.5万，豆瓣评分9.4分。培养学生多次获得一级学会优博。

报告题目：语言模型即服务与黑箱优化

随着预训练语言模型的规模急剧增大，出于商业考虑及高昂的微调成本，很多大规模预训练语言模型（如GPT-3）不再开源其参数，而是以提供模型推理API的方式向下游用户提供服务，这一场景我们称为“语言模型即服务”。在本次报告中，我将介绍一种针对大规模预训练语言模型的黑箱优化方法，它可以在仅访问模型推理API的情况下完成对连续提示语的优化，在少样本学习场景下达到与模型全参数微调可比的性能。相较于目前主流的梯度下降法，黑箱优化方法具有优化效率高、优化资源少的优势。

CNCC是级别高、规模大的高端学术会议，探讨计算及信息科学技术领域最新进展和宏观发展趋势，展示计算领域学术界、企业界最重要的学术、技术成果，搭建交流平台，促进科技成果转换，是学术界、产业界、教育界的年度盛会。今年邀请嘉宾包括ACM图灵奖获得者、田纳西大学教授Jack Dongarra，以及高文、管晓宏、江小涓、钱德沛、徐宗本、张平等多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家，CNCC在计算领域的水准及影响力逐年递增。本届CNCC的主题是：算力、数据、生态。

CNCC2022将汇聚国内外顶级专业力量、专家资源，为逾万名参会者呈上一场精彩宏大的专业盛宴。大会期间还将举办“会员之夜”大型主题狂欢活动，让参会者畅快交流，燃爆全场。如此盛会，岂能缺席！等你来，马上行动，欢迎参会报名！

KFC外送员 · 2022-10-29 16:05:36

那个啥吧。。。就是这个。。。你知道我要说啥吧。。。

硕士水 · 2022-10-31 07:06:02

我也来顶一下..

a胡大雄 · 2022-10-31 13:23:29

唉？楼主写完了？不打算多写点么？

		自动登录	找回密码
密码			立即注册

CNCC｜如何基于少量标注构建高精度自然语言处理系统？

本帖子中包含更多资源

大神点评3

最近发表

公社版块

关注我们