2022年自然语言处理行业研究报告



2022年自然语言处理行业研究报告

第一章 行业概况

自然语言处理定义

自然语言处理是通过构建算法使计算机自动分析、表征人类自然语言的学科。自然语言处理是计算机理解和生成自然语言的过程,自然语言处理技术使计算机具有识别、分析、理解和生成自然语言文本(包括字、词、句和篇章)的能力。

自然语言处理机制涉及自然语言理解和自然语言生成两个流程:(1)自然语言理解:计算机理解自然语言文本的思想和意图;(2)自然语言生成:计算机用自然语言文本表述思想和意图。

自然语言理解和分析是一个层次化过程,从词法分析、句法分析、语义分析到语用语境分析层层递进:(1)词法分析:分析词汇的各个词素,从中获得语言学信息;(2)句法分析:分析句子和短语的结构,识别各词语、短语在句中的作用以及相互间的关系;(3)语义分析:找出词义、结构意义及词与结构结合的意义,确定语言所表达的真正含义;(4)语用语境分析:分析语言所存在的外界环境对语言使用者所产生的影响。

自然语言处理环节

(1)词法分析

词法分析的主要任务是词性标注和词义标注。词性是词汇的基本属性,词性标注是在给定句子中判断并标注各词的词性,而兼类词和未登录词的词性复杂难以确定,标注兼类词与未登录词的词性是词法分析的重要任务。词义标注是在具体语境中明确各词的词义,如多义词拥有多种意义,但在具体语境中表达的意义是可确定的。在不同的具体语境中解决多义词的义项问题是词义标注的重点。

(2)句法分析

句法分析的基本任务是确定句子的语法结构或句子中词汇间的依存关系,包括确定语言的语法体系,明确符合语法规则的句子的语法结构以及通过分析语言单位内成分间的依存关系推导句子的句法结构。

(3)语义分析

语义分析通过建立有效的模型使计算机系统能对各个语言单位(包括词汇、句子和篇章等)进行自动语义分析,从而理解自然语言文本的真实语义。根据理解对象的语言单位不同,可将语义分析分为词汇级语义分析、句子级语义分析以及篇章级语义分析。词汇级语义分析关注如何获取或区别单词的语义,句子级语义分析关注整个句子所表达的语义,篇章级语义分析研究篇章文本的内在结构以及理解篇章文本内语言单元(句子、从句或段落)间的语义关系。

(4)语用语境分析

语用指人对语言的具体运用,自然语言用语与语境、语言使用者的知识涵养、言语行为、想法和表达意图密切相关。语用分析是计算机在情景语境和文化语境中研究分析语言使用者的表达用意。

自然语言处理技术应用

随着人工智能的深入发展,自然语言处理需求不断提升,众多类型智能应用需要自然语言处理技术帮助其实现智能化,如(1)文本领域的搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用;(2)语音领域的语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用均需自然语言处理技术理解或生成自然语言。

① 自动问答

自动问答应用涉及自然语言的词法、句法、语义等分析问题,是自然语言理解与生成技术应用的集中体现。自动问答系统能自动回答用户提出的问题,反馈给用户基于自然语言表述的答案,不再是简单的基于关键词匹配排序的文档列表,系统在生成答案的操作中需要正确理解用户所提出的问题,抽取用户问题中的关键信息,进而检索语料库或知识库,将可匹配的最佳答案用自然语言的形式反馈给用户,完成自动问答任务。

② 信息检索

信息检索是计算机自主从文档集合中查找用户所需信息的过程。信息检索系统将信息标引、描述以及组织整理后存在于数据库中,将用户输入的检索关键词与数据库中信息的标引词匹配,实现用户的信息检索要求。信息检索要求计算机理解用户输入的自然语言信息,自动将自然语言信息与数据库中的标引信息进行比对,以达成检索任务。如谷歌搜索引擎可通过理解用户输入的自然语言关键词,反馈给用户一个检索目标页面列表,用户可在列表中选择能够满足自己信息需求的页面加以浏览。因为搜索引擎无法通过简单的关键词表达体会用户真正的查询意图,只能将所有可能满足用户需求的结果集合以列表的形式提供给用户。

③ 情感分析




上一篇:越秀地产:准备做国内REITs的突破口
下一篇:浙矿股份董秘回复:公司一直以来围绕破碎分选技术进行相关技术和装备的研发与制造,积极拓展装备下游应用场景,在研发完成废旧铅