vlambda博客
学习文章列表

【论文笔记】中文分词十年回顾

《中文分词十年回顾》


这篇论文写于2007年,所以回顾的是97~07的中文分词。


虽然历史悠久,但是文章更多关注的是分词任务本身,而非只着眼于分词技术。所以文章在今天看来还是非常值得反复细读的。


论文一作,黄昌宁,国内计算语言学奠基者之一,清华大学计算机科学与技术和亚洲研究院的自然语言处理组创始人。另外,MSRA实体识别与分词语料库 也是老先生的成果。



00

目录




分词的四个难题

  1. “词”是否有清晰的界定

  2. 分词和理解孰先孰后

  3. 分词歧义消解

  4. 未登录词(Out of vocabulary ,简称 OOV) 识别



01


“词”是否有清晰的界定



自动分词的重要前提:在计算的意义上清楚界定真实文本中每个词语的边界。怎么才算是一个“词”?这个问题看似简单,但是即使在汉语为母语的语言使用者之间,中文词语的平均认同率也只有0.76左右。


国家标准按词类分别给出了各类分词单位的定义; 然而 ,在许多地方无可奈何地把“结合紧密、使用稳定”视为分词单位的界定准则。“紧密”,“稳定”这种非常主观的概念,即便是同为汉语使用者也会有不同的理解,机器更是不可能自动化判断的。


黄老先生在标注和审定 MSRA 分词语料库的实践探索中发现:通过“分词规范 + 词表 + 分词语料库”的方法可以得到计算机所需要的”词“的可计算定义。另外总结了语料标注的质量的三要素 :


(1) 严格执行“词表驱动”原则 ;


(2) 把人名、地名、机构名 等命名实体和日期、时间等数字表达式的定义纳入分词规范 ;


(3) 把规范制定和语料标注两个过程紧密结合起来 ,务使规范达到词例化的详尽程度。

 

“词表驱动”,就是在相关上下文中未见歧义的情况下 ,词表词应当作为一个完整的切分单位 , 决不许随意切碎或组合。


例子:”科教兴国“在上下文中未见歧义,但因为测试集句子没有严格按照词表驱动导致,训练集与测试集的不一致性。

 

把人名、地名、机构名等命名实体和日期、时间等数字表达式的定义纳入分词规范。一方面 ,因为实体词的识别任务与自动分词任务 ,你中有我 ,我中有你 ,是不可分割的整体;另一方面是因为这些实体词占了 文本中未登录词的大约三分之二 ,把它们定义清楚了肯定有助于进一步提高标注的一致性。

 

让分词规范的制定与分词语料的标注、审定过程交互进行。相对于静态词表,分词语料能够表示词语在不同上下文中的分词情况。这个过程是一个循环的迭代过程。制定规范,标注,根据标注时候存在的问题,重新制定规范,再次标注,如此反复循环。

 


Thinking


这种标注流程已经成为主流,通过多次迭代,一般能得到质量较好的标注数据。另外,发现标注存在的问题一般有两种方式: 

  • 标注过程中,收集标注规范未定义的bad case

  • 多个标注者标注一份数据,找到标注结果之间的不同

【论文笔记】中文分词十年回顾



02


分词和理解孰先孰后



分词作为大部分中文信息处理系统的第一步所依据的只能是文本的表层信息。所以 ,尽管人在识别句子中的词语时是以理解为基础的,从机器角度来看选择“先分词后理解”的处理策略会更合理。



Critical Thinking

人类在完成分词任务的时候,的确是首先理解句子语义在进行分词。但是,在正常人阅读文字的过程中,其实更多遵循的是快速的机械分词。分词后无法理解文本语义才会重新分词,重读文本。重复这个过程,直到分词正确,理解文本语义为止。



另外还有一个更现实的原因:


如果先理解文本,再进行分词,那么是否还有分词的必要呢?既然已经理解文本了,何必再分词。


分词之所以作为中文信息处理系统的第一步,就是因为分词后能够使得系统更好理解文本,处理文本。


近年来,NLP技术,深度学习技术不断发展,尽管有更多复杂的算法模型能够更好地“理解”文本,进而更好地分词。


但是在工业实践中更多使用的还是简单模型(CRF,结构化感知器等),原因是在极短的响应时间内,处理大量数据的情况下,我们还是更倾向将更多的资源和时间分配给重要性更高的下游任务。



03


分词歧义消解


 

分词歧义分为组合型歧义、交集型歧义和真歧义三种类型:


1) 组合型歧义 ( Combination Ambiguity , CAS):

汉字字符串AB是词,同时AB也分别是词,称AB为组合型歧义切分字段。例如在字串将来中,将来是词,同时也分别是词,将来就是一个组合型歧义切分字段。比如“中华人民共和国”,粗粒度的分词就是“中华人民共和国”,细粒度的分词可能是“中华/人民/共和国”。

 

2) 交集型歧义 (Overlapping Ambiguity , OAS):

汉字字符串ABC,在一种语境中ABC分别是分词单位,在另一种语境中ABC分别是分词单位。在“郑州天和服装厂”中,“天和”是厂名,是一个专有词,“和服”也是一个词,它们共用了“和”字。

 

3) 真歧义:

本身的语法和语义都没有问题,即便采用人工切分也会产生同样的歧义,只有通过上下文的语义环境才能给出正确的切分结果。例如:对于句子“美国会通过对台售武法案”,既可以切分成“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。

又比如,“一卡通照片”

【论文笔记】中文分词十年回顾

 

 

04


未登录词



未登录词(Out of vocabulary ,简称 OOV),长期以来研究人员一直把未登录词和分词歧义并列为影响分词精度的两大因素。 

为了衡量未登陆词与分词歧义对分词效果的影响,Bakeoff使用正向最大匹配 ( Forward Maximum Matching ,简称 FMM) 算法对每个语料库进行带有未登录词的基线 (Baseline) 和不含未登录词的顶线( Topline) 两种切分,并分别形成两套性能指标。其中,Fbase和 Ftop分别表示基线和顶线的 F值。( Ftop - Fbase ) 表示未登录词单独给分词系统带来的精度失落 。( 1 - Ftop ) 表示分词歧义单独造成的分词精度失落 。

 


从实验可以看出,在大规模真实文本中未登录词造成的分词精度失落比歧义切分造成的精度失落至少大 5 倍以上


为了解决未登陆词问题,新词发现的任务应运而生。后续有时间会专门写一篇关于新词发现的文章。