什么是自然语言?
什么是自然语言?以语音为物质外壳,由词汇和语法两部分组成的符号系统。文字和声音是语言的两种属性。语言是人类交际的工具,是人类思维的载体;人类历史上以语言文字形式记载和流传的知识占人类知识总量的80%以上。是约定俗成的,有别于人工语言,比如Java、C++等程序设计语言。
什么是自然语言处理?
什么是自然语言处理(Natural Language Processing, NLP)?自然语言处理就是,利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息,进行各种类型处理和加工的技术。----冯志伟自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力和语言应用的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。----Bill Manaris
- 自然语言处理的处理主要包括两个部分:自然语言理解、自然语言生成, 在这两部分之下有各种的基础算法来支撑这两部分。自然语言理解(Natural Language Understanding,NLU): 使计算机理解自然语言(人类语言文字)等,重在理解。
- 具体来说,就是理解语言、文本等,提取出有用的信息,用于下游的任务。如情感识别、意图识别、信息检索(包括个性化搜索和语义搜索,文本匹配等)、信息抽取(命名实体提取、关系抽取、事件抽取等)。自然语言生成(Natural Language Generation, NLG): 提供结构化的数据、文本、图表、音频、视频等,生成人类可以理解的自然语言形式的文本。NLG又可以分为三大类,文本到文本(text-to-text),如翻译、摘要等;文本到其他(text-to-other),如文本生成图片;其他到文本(other-to-text),如视频生成文本。
自然语言处理应用“:
自然语言处理技术被广泛应用于搜索、对话、翻译、推荐等场景中:智能问答对话助手语义搜索信息抽取推荐系统机器翻译文本创作……
自然语言理解层次:
自然语言的理解和分析是一个层次化的过程,具体可分为以下五个层次:语音分析,是要根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出音节及其对应的词素或词。 词法分析,是找出词汇的各个词素,从中获得语言学的信息。句法分析,是对句子和短语的结构进行分析,目的是要找出词、短语等的相互关系以及各自在句中的作用。语义分析,是找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。 语用分析,是研究语言所存在的外界环境对语言使用者所产生的影响。
自然语言处理难点:
词法歧义:分词:词语的切分边界比较难确定。严守一/把/手机/关/了严守/一把手/机关/了词性标注:同一个词语在不同的上下文中词性不同。我/计划/v 考/研/我/完成/了/计划/n命名实体识别:人名、专有名称、缩略词等未登录词的识别困难。高超/nr/a 华明/nr/nt 移动/nt/v句法歧义:句法层面上的依存关系受上下文的影响。咬死了猎人的狗那只狼咬死了猎人的狗咬死了猎人的狗失踪了
语义歧义At last, a computer understands you like your mother.含义1:计算机会像你的母亲那样很好的理解你。含义2:计算机理解你喜欢你的母亲。含义3:计算机会像理解你母亲那样去理解你。语用歧义“你真坏”当对干了坏事的成年人说时,是一种严厉的苛责。当妈妈对淘气的儿子说时,实际表达的是对儿子的一种疼爱。当恋爱中的女孩对男友说时,则是女孩在男友面前撒娇的一种表现。
自然语言处理发展历史:
|