项目简介
“自然语言处理、机器翻译和数据可视化关键技术研究”是与中国移动公司的横向合作项目, 起止时间为 2016 年 4 月至 2018 年 12 月,2017 年 12 月已通过中国移动公司的终验,2017 年 12 月至 2018 年 12 月为维护期。根据项目要求,我们主要为中移动提供中文分词、词性标注、命名实体识别、语义角色标注、句法分析、文本摘要、 核心翻译技术、翻译后处理八个组块。中移动利用我们提供的这八个组块可以搭建一个自然语言 处理平台,以服务于中移动庞大的用户群体,创造出相应的经济效益和社会效益,也可以将各个 模块组合到不同的产品或平台中,创造出其它的 产品效益。
下面分别介绍这八个模块有可能的应用场景和应用后效果:
1)中文分词;中文分词是自然语言处理预处理中关键的一 环,其主要应用于信息检索、汉字的智能输入、 中外文对译、中文校对、自动摘要、自动分类等 很多方面。 以信息检索为例:例如:“制造业和服务业 是两个不同的行业”和“我们出口日本的和服比 去年有所增长”中都有“和服”,如果被当作同 一类来处理,结果是检索“和服”的相关信息, 会将他们都检索到。通过引入分词技术,就可以 使机器对海量信息的整理更准确更合理,在“制 造业和服务业是两个不同的行业”中“和服”不 会被当做一个词来处理,那么检索“和服”当然 不会将它检索到,使得检索结果更准确,效率也 会大幅度的提高。 目前我们的分词系统准确率为 98%,召回率 95%,F 值 95%。分词速度达到了 3M/s 的水平,完全达到客户要求。
2)词性标注;词性标注(Part-of-Speech tagging 或 POS tagging) 是指对于句子中的每个词都指派 一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注。 词性标注是自然语言处理中的一项基础任务,在 语音识别、信息检索及自然语言处理的许多领域 都发挥着重要的作用。目前我们的词性标注准确 率 97%,词性标注的速度达到了 3M/s 的水平, 完全达到甲方要求。
3)命名实体;命名实体识别(Named Entity Recognition,简称 NER),又称作“专名识别”, 是指识别文本中具有特定意义的实体。一般来说, 命名实体识别的任务就是识别出待处理文本中三 大类(实体类、时间类和数字类)、七小类(人 名、机构名、地名、时间、日期、货币和百分比)。 命名实体识别是信息提取、信息检索、问答系统、 句法分析、机器翻译、面向 Semantic Web 的 元数据标注等应用领域的重要基础工具,在自然 语言处理技术走向实用化的过程中占有重要地位。 比如,在信息抽取中,事件发生的时间、地 点和人物等都是命名实体;在信息检索中,为得 到“姜雨生”这一人物的检索结果,就需要命名 实体识别先对文档中的人名进行准确的识别;在机器翻译中,“文章马伊琍夫妇”中,必须识别出“文章”为人名,才能准确地进行翻译。我们 系统的命名实体识别测试结果达到了甲方的要求, 具体测试结果如下: P R F1 All 90.73 85.52 88.04 nr(人名) 90.73 85.52 88.04 ns(地名) 90.66 83.75 87.00 nt(机构名) 92.35 79.24 85.29 nz(其他专有 名词) 76.74 63.46 69.47
4)语义角色标注;语义角色标注(Semantic Role Labeling, SRL)是目前语义分析的一种主要实现方式,它采用“谓语动词 - 角色”的结构形式,标注句法成分为给定谓语动词的语义角色,每个语义角色被 赋予一定的语义含义。例如“[ 委员会 Agent][ 明 天 Tmp] 将要 [ 通过 V][ 此议案 Passive]。”其中,“通过”是谓语动词,“委员会”、“此议案” 和“明天”分别是其施事、受事和动作发生的时间。 目前语义角色标注在问答系统、机器翻译和 信息抽取等方面得到了成功地应用,是目前自然 语言理解领域中比较热门的一个研究方向。我们 系统的语义角色标注的准确率为 83%,召回率为 94%,F 值为 88%。语义角色标注的速度达到了 3M/s 的水平,完全符合客户要求。
5)句法分析;句法分析可以帮助机器更好的理解句子 , 从 而在机器翻译、自动问答、知识抽取等领域都得 到了广泛的应用。我们系统的句法分析的 F 值为 86%,达到了客户的要求。
6)文本摘要;文本摘要模块主要目的用于改善用户阅读的 效率,对于给定的文本,生成一个简短有效的摘 要来更有效地表示原始文本,作为自然语言处理 和信息检索的重要应用,文本摘要同时也为其他 相关应用提供了支撑。在 web 上或是大规模文 本集上查找相关的文档,可以用简短的文摘代替检索全文,也可以建立文摘的索引或直接存储文 摘来提供检索效率。此外,文本摘要在网上图书馆、 问 答 系 统、PDA(Personal Digital Assistant) 系统等方面也引起了广泛关注。我们系统文本摘要的样例通过率是 100%,文本摘要的速度是 15 篇 /s,技术质量完全达到甲方要求。
应用领域
核心翻译技术(模型训练与解码)主要应用在以下方面: ■ 垂直场景 - 翻译机:目前很多翻译类的产 品将机器翻译和 OCR 技术以及语音识别技术进 行结合,可以实时的通过摄像头来翻译外文指示牌、菜单、说明书等,也可以结合语音技术进行 对话翻译,从而实现不同语种的无障碍交流。 ■ 语音同传技术:同声传译广泛应用于国 际会议等多语言交流的场景,演讲者的语音实时转成文本,并且进行同步翻译,低延迟显示翻译结果,实现不同语言人们低成本的有效交流; ■ 跨语言检索:例如,不论用户输入中文 还是英文,系统都会从海量优质的英文网页中选 出用户想要的搜索结果,并应用机器翻译自动将 其进行翻译,为用户提供英文原文、中文译文、 中英双语三个页面的搜索结果; ■ AI 助力翻译行业升级。利用机器翻译提 升传统翻译行业的效率,提升商业价值。 我们系统的核心翻译技术各个功能模块的测 试通过率为 100%,在可靠性、安全性、兼容性、 易用性等方面均达到客户要求。
机器翻译后处理 机器翻译后处理主要应用于优化机器翻译的 翻译结果。如句子首字母大写、删除未登录词、 特殊字词修正、去除首尾标记符号等。该技术还 可以应用于 OCR 文字识别的后处理中。