中科智汇工场科创大数据平台

自然语言处理、机器翻译和数据可视化关键技术研究

中国科学院计算技术研究所

浏览次数

1401

收藏次数

接洽次数

自然语言处理、机器翻译和数据可视化关键技术研究

中国科学院计算技术研究所

浏览次数

1401

收藏次数

接洽次数

项目简介

“自然语言处理、机器翻译和数据可视化关键技术研究”是与中国移动公司的横向合作项目，起止时间为 2016 年 4 月至 2018 年 12 月，2017 年 12 月已通过中国移动公司的终验，2017 年 12 月至 2018 年 12 月为维护期。根据项目要求，我们主要为中移动提供中文分词、词性标注、命名实体识别、语义角色标注、句法分析、文本摘要、核心翻译技术、翻译后处理八个组块。中移动利用我们提供的这八个组块可以搭建一个自然语言处理平台，以服务于中移动庞大的用户群体，创造出相应的经济效益和社会效益，也可以将各个模块组合到不同的产品或平台中，创造出其它的产品效益。

下面分别介绍这八个模块有可能的应用场景和应用后效果：

1）中文分词；中文分词是自然语言处理预处理中关键的一环，其主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。以信息检索为例：例如：“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，如果被当作同一类来处理，结果是检索“和服”的相关信息，会将他们都检索到。通过引入分词技术，就可以使机器对海量信息的整理更准确更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被当做一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。目前我们的分词系统准确率为 98%，召回率 95%，F 值 95%。分词速度达到了 3M/s 的水平，完全达到客户要求。

2）词性标注；词性标注（Part-of-Speech tagging 或 POS tagging) 是指对于句子中的每个词都指派一个合适的词性，也就是要确定每个词是名词、动词、形容词或其他词性的过程，又称词类标注。词性标注是自然语言处理中的一项基础任务，在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。目前我们的词性标注准确率 97%，词性标注的速度达到了 3M/s 的水平，完全达到甲方要求。

3）命名实体；命名实体识别（Named Entity Recognition，简称 NER），又称作“专名识别”，是指识别文本中具有特定意义的实体。一般来说，命名实体识别的任务就是识别出待处理文本中三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）。命名实体识别是信息提取、信息检索、问答系统、句法分析、机器翻译、面向 Semantic Web 的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。比如，在信息抽取中，事件发生的时间、地点和人物等都是命名实体；在信息检索中，为得到“姜雨生”这一人物的检索结果，就需要命名实体识别先对文档中的人名进行准确的识别；在机器翻译中，“文章马伊琍夫妇”中，必须识别出“文章”为人名，才能准确地进行翻译。我们系统的命名实体识别测试结果达到了甲方的要求，具体测试结果如下： P R F1 All 90.73 85.52 88.04 nr（人名） 90.73 85.52 88.04 ns（地名） 90.66 83.75 87.00 nt（机构名） 92.35 79.24 85.29 nz（其他专有名词） 76.74 63.46 69.47

4）语义角色标注；语义角色标注（Semantic Role Labeling, SRL）是目前语义分析的一种主要实现方式，它采用“谓语动词 - 角色”的结构形式，标注句法成分为给定谓语动词的语义角色，每个语义角色被赋予一定的语义含义。例如“[ 委员会 Agent][ 明天 Tmp] 将要 [ 通过 V][ 此议案 Passive]。”其中，“通过”是谓语动词，“委员会”、“此议案” 和“明天”分别是其施事、受事和动作发生的时间。目前语义角色标注在问答系统、机器翻译和信息抽取等方面得到了成功地应用，是目前自然语言理解领域中比较热门的一个研究方向。我们系统的语义角色标注的准确率为 83%，召回率为 94%，F 值为 88%。语义角色标注的速度达到了 3M/s 的水平，完全符合客户要求。

5）句法分析；句法分析可以帮助机器更好的理解句子 , 从而在机器翻译、自动问答、知识抽取等领域都得到了广泛的应用。我们系统的句法分析的 F 值为 86%，达到了客户的要求。

6）文本摘要；文本摘要模块主要目的用于改善用户阅读的效率，对于给定的文本，生成一个简短有效的摘要来更有效地表示原始文本，作为自然语言处理和信息检索的重要应用，文本摘要同时也为其他相关应用提供了支撑。在 web 上或是大规模文本集上查找相关的文档，可以用简短的文摘代替检索全文，也可以建立文摘的索引或直接存储文摘来提供检索效率。此外，文本摘要在网上图书馆、问答系统、PDA（Personal Digital Assistant）系统等方面也引起了广泛关注。我们系统文本摘要的样例通过率是 100%，文本摘要的速度是 15 篇 /s，技术质量完全达到甲方要求。

应用领域

核心翻译技术（模型训练与解码）主要应用在以下方面： ■ 垂直场景 - 翻译机：目前很多翻译类的产品将机器翻译和 OCR 技术以及语音识别技术进行结合，可以实时的通过摄像头来翻译外文指示牌、菜单、说明书等，也可以结合语音技术进行对话翻译，从而实现不同语种的无障碍交流。 ■ 语音同传技术：同声传译广泛应用于国际会议等多语言交流的场景，演讲者的语音实时转成文本，并且进行同步翻译，低延迟显示翻译结果，实现不同语言人们低成本的有效交流； ■ 跨语言检索：例如，不论用户输入中文还是英文，系统都会从海量优质的英文网页中选出用户想要的搜索结果，并应用机器翻译自动将其进行翻译，为用户提供英文原文、中文译文、中英双语三个页面的搜索结果； ■ AI 助力翻译行业升级。利用机器翻译提升传统翻译行业的效率，提升商业价值。我们系统的核心翻译技术各个功能模块的测试通过率为 100%，在可靠性、安全性、兼容性、易用性等方面均达到客户要求。

机器翻译后处理机器翻译后处理主要应用于优化机器翻译的翻译结果。如句子首字母大写、删除未登录词、特殊字词修正、去除首尾标记符号等。该技术还可以应用于 OCR 文字识别的后处理中。