智客公社

标题: 人工智能语音识别现象级产品带来哪些启示？ [打印本页]

作者: 黎小艾 时间: 2023-2-10 13:26
标题: 人工智能语音识别现象级产品带来哪些启示？
2022年12月1日，美国的人工智能研究公司OpenAI发布自然语言识别新模型Chat GPT，并免费开放测试。人工智能内容生成技术（AIGC）早已出现，而Chat GPT成为社交分享平台的现象级产品，引发对AIGC技术及其行业发展的新思考。

人工智能领域的新尝试

21世纪初，人工智能文字生成技术已逐渐从实验性向实用性转变。2007年，纽约大学人工智能研究员罗斯•古德温装配的人工智能系统，通过对公路旅行中的所见所闻进行记录和感知，撰写出世界第一部完全由人工智能创作的小说《1 The Road》。但其可读性不强，拼写错误、辞藻空洞、缺乏逻辑等缺点明显。

GPT（Generative Pre-trained Transformer，生成型预训练变换器）是一种基于互联网可用数据训练的文本生成深度学习模型，用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI。在性能方面，2018年诞生的GPT-1有一定的泛化能力，能够用于和监督任务无关的任务中。有观点认为，这一年也是NLP（自然语言处理）的预训练模型元年。在此之前，传统的NLP模型往往使用大量的数据对有监督的模型进行任务相关的模型训练，但这种有监督学习的任务存在两个缺点，即需要大量的标注数据和模型难以泛化。

随后，AIGC技术发展迅速。仅2022年就相继出现Dall-E、Imagen、Stable Fusion、Midjourney、Lambda、Imagen Video等突破性的AI技术。新晋网红Chat GPT模型，则是OpenAI在2020年推出的NLP预训练模型GPT-3的衍生产品。有观点认为，本次放出的Chat GPT应被称为GPT-3.5，业内人士认为，这将是对NLP以及人工智能领域有重要意义的一款模型。有了GPT-3.5的加持，Chat GPT经训练后提升了对答如流的能力。在实际效果上，GPT-3只预测任何给定的单词串之后的文本，而Chat GPT则试图以一种更像人类的方式与用户发生互动。在使用体验上，多数网民反馈Chat GPT的互动非常流畅，适配于各种主题，与几年前的聊天机器人相比，Chat GPT带来许多惊喜。

有观点认为，Chat GPT令人眼前一亮的表现，与其人力参与的训练方式密不可分。OpenAI官方称，Chat GPT是在人类的帮助下创建并训练的，人类训练师对该AI早期版本回答查询的方式进行排名和评级。然后，这些信息被反馈到系统中，系统会根据训练师的偏好来调整答案。具体来说，Chat GPT使用监督微调训练了一个初始模型：人类AI训练员提供对话，并在对话中扮演双方——用户和AI助手，AI训练员可以访问模型编写的对话回复，以帮助AI调整回复内容。这也是一种训练人工智能的标准方法，被称为RLHF（从人类反馈中强化学习）。

准确性仍是难题

Chat GPT一经发出，便引爆社交网络。12月5日，OpenAI首席执行官Sam Altman在社交媒体上发文表示，OpenAI训练的大型语言模型Chat GPT推出后，当日突破100万用户。推特首席执行官马斯克发推特称，许多人陷入疯狂的Chat GPT循环中。

一时间，针对Chat GPT的探讨、询问、闲聊帖刷屏了各大社交媒体平台。有网民尝试让Chat GPT参加美国高考、书写学术文章、检查代码、回答热力学问题；有程序员“诱骗”Chat GPT规划如何毁灭世界，并引诱让其提供底层代码；更有甚者让Chat GPT扮演OpenAI，在系统内构建Chat GPT套娃。在实际表现中，Chat GPT敢于质疑不正确的前提和假设、主动承认错误，回答一些无法回答的问题、主动拒绝不合理的问题，提升了对用户意图的理解以及结果的准确性。

Chat GPT或将衍生出一批强大的自然语言处理商业应用。有人工智能行业专家认为，通用大模型的普及预计会在3—5年内实现，人工智能将很快替代简单重复劳动，甚至是一些流程性的技术岗位，比如翻译、新闻简讯编辑等。通用大模型很可能会在短时间内改变很多生产和生活方式，大量基础性的工作流程会被基于大模型的智能应用渗透甚至取代。

当然，Chat GPT离实际落地还有一段距离。其中最为核心的问题，在于模型的准确性和部署成本。其中，各大AI公司已积极对部署成本做出改进。

准确性仍为人工智能技术商业落地待解的普遍性难题，而Chat GPT的准确性仍存在缺口。OpenAI承认，Chat GPT倾向于用“听起来合理但不正确或无意义的答案”来回应，该公司认为这个问题很难解决。一是在训练过程中缺少引用来源；二是为避免误报，模型可能会拒绝回答；三是训练的模型具有倾向性，例如，如果训练者喜欢更长的答案，将会导致模型倾向于冗长的回答，以及过度使用某些短语。以上原因都会导致Chat GPT输出的结果不够准确。

在使用上，如果初始提示或问题含糊不清，则Chat GPT模型不会适当地要求澄清，会导致用户的使用壁垒。虽然Chat GPT的输入输出均为自然语言，但模型的底层逻辑与自然语言逻辑不同，故而程序员在调整输入关键词上具有专业优势，而普通使用者则难以理解模型底层逻辑并进行调节。

技术突破是主要推动力量

在商业发展上，Chat GPT所在的AIGC赛道竞争激烈。中国的互联网巨头、大学，在短短的一两年之内，设计了二十多个千亿参数以上的大模型。同时，类似功能定位的产品也已出现。

资本市场上的新技术定位与应用不断更新，Chat GPT四面楚歌。2022年5月，获得2.25亿美元股权融资的机器学习初创公司Inflection AI，旨在5年内实现将人类意图转化为计算机可理解的语言。

2022年4月，以6500万美元的融资悄然出现的Adept实验室，正在构建通用智能，旨在使人类和计算机能够创造性地合作解决问题，将技术应用推向新的台阶。该公司项目可以简单概括为完善计算机中的覆盖层，即听从人的指令，让计算机使用人类的工具为人类干活，诸如生成月度合规报告或者帮助设计建筑装修图，并使用现有软件来完成。Adept的首席执行官David Luan表示，真正的通用智能不仅可以读写，而且可以在人们要求它做某事时采取行动。

在2022年2月的一篇论文中，人工智能企业Deep Mind的科学家提出数据驱动方法，用于教会AI控制计算机，对AI技术未来应用提供前瞻。通过让人工智能观察人们使用键盘和鼠标完成“指令遵循”的计算机任务，科学家训练系统执行一百多项任务，以达到人类水平的准确性。

在创新应用上，Chat GPT转型搜索引擎仍存瓶颈。有观点认为，Chat GPT在回答基本的、甚至有些无聊的问题上具有独特优势。有网民在对比了谷歌的搜索结果和与Chat GPT的聊天结果之后，宣称谷歌已经“完蛋”了。因此，如果能准确地呈现这些信息，并以更流畅和对话的语调来进行反馈，将实现传统搜索的巨大进步。

但在实际操作上，Chat GPT作为搜索引擎仍存在技术瓶颈。一方面，受限于训练数据集和模型逻辑，Chat GPT的输出结果仍存在优化空间。据Open AI，由于Chat GPT的知识只来自训练数据中的统计规律，而不是任何类似人类对世界复杂和抽象系统的理解，因此“该系统偶尔会产生不正确或误导性的信息，并产生攻击性或有偏见的内容”。此外，该机器人对2021年之后的世界知识了解有限，对于某些特定人群的问题也知之甚少。

另一方面，Chat GPT的输出也具有道德风险。当用户向Chat GPT询问一些危险的问题时，受过安全训练的系统会解释为什么它不能告诉你答案。但用户可以通过某些技巧来绕过这种安全训练，比如哄骗Chat GPT，让它以为自己是电影中的一个角色，或是它正在撰写一个有关人工智能模型为何不应该回答此类问题的剧本。

Chat GPT未来的发展重点在于技术营销，应注重保持高流量、高热度。微信公众号“券商中国”认为，技术的突破和推广是主要推动力量。信达证券研究所相关研究表示，2022年下半年以来，深度学习模型不断完善、开源模式的推动、商业化案例的落地，推动AIGC发展明显加速。

人民数据研究院认为，在注意力时代，技术与普通产品一样流量为王。虽然，Chat GPT模型的准确性仍为其短板，但其不可预测的输出也带来极高的话题性，无形中普及了AIGC技术，奠定了公共流量基础，与其他同领域模型或公司相比，具有先发优势。未来新版本的Chat GPT也可以通过继续降低应用门槛，增加模型输出话题性，吸引更多人力、金钱、资源的投入，占据市场优势地位，逐步迭代完善技术效能。　　

作者：人民数据研究院研究员刘雪伦

来源：《网络舆情》杂志

欢迎光临智客公社 (http://bbs.cnaiplus.com/)