vlambda博客
学习文章列表

与统计相遇|当统计学遇上开放域中文分词

近年来,自然语言处理(Natural Language Processing, 简称NLP)领域发展迅猛。在中文自然语言处理(Chinese Natural Language Processing, 简称CNLP)中,词汇之间缺少边界,故文本分词和词汇发现是中文文本分析的首要任务,也是下游分析任务(如文本分类、情感分析等)的基础。本文介绍了通过统计学框架将中文分词和词汇发现有机结合的方法--TopWORDS-Seg,该方法特别适用于开放域文本领域,模型解释性强,且不依赖人工标注的训练数据。相关成果TopWORDS-Seg: Simultaneous Text Segmentation and Word Discovery for Open-Domain Chinese Texts via Bayesian Inference入选自然语言处理领域的国际顶级会议“2022年第60届国际计算语言学协会年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)”的主会长文单元。清华大学统计学研究中心2018级博士研究生潘长在为文章的第一作者,清华大学统计学研究中心邓柯副教授作为文章的通讯作者, 与清华大学计算机科学与技术系孙茂松教授共同指导了该研究。

作者团队

与统计相遇|当统计学遇上开放域中文分词

清华大学

潘长在

与统计相遇|当统计学遇上开放域中文分词

清华大学

邓柯 副教授

与统计相遇|当统计学遇上开放域中文分词

清华大学

孙茂松 教授


  1. 背景介绍

由于中文词汇与词汇之间没有明确边界的语言习惯,中文自然语言处理首先面临着文本分词(text segmentation)和词语发现(word discovery)两个任务。以"碳的各种同素异形体的物理性质差异巨大"为例,文本分词是指将句子以词汇为单位切分("碳|的|各种|同素异形体|的|物理性质|差异|巨大"),而词语发现是对句子中的技术词汇进行深入挖掘,如句子中的"碳"、"同素异形体"、"物理性质"等词汇。

在处理开放域(open-domain)文本时,因为文本中会出现大量算法未登录词(out-of-vocabulary words, OOV)和命名实体(named entity),文本分词和词语发现相互依赖:精准的文本分词背后需要一个高质量技术词表的支撑,而高质量的词语发现又离不开精准文本分词结果的指导。这使得文本分词和词汇发现在实践中存在瓶颈。

  1. 相关方法

CNLP的文本分词大体可分为三类:第一类:词汇匹配(word matching)方法。该方法假设潜在的词表已知,通过匹配词表中的字符串对句子进行分词。第二类:有监督学习方法。大多数CNLP的文本分词是基于有监督学习方法,即利用人工标注好的大规模语料库训练模型,通过训练好的模型进行分词。该类方法在封闭测试下的表现很好,且已有很多开源的工具包可使用,如Jieba、StandfordNLP、THULAC、PKUSEG、LTP等。第三类:无监督学习方法,即在没有潜在词表和大规模标注语料库的情况下,利用文本中的天然信息,字和字之间的关联性,进行分词,如:基于局部统计量的描述长度增益(description length gain)、互信息(mutual infomation)等方法,以及基于统计生成模型的图术语切分(graph term segmentation),TopWORDS等方法。

一般来说,无监督分词方法不能提供高质量的分词结果,但在新词发现领域却有优势,如TopWORDS。有监督分词方法,虽然在封闭测试上表现很好,但是当应用到开放域时,表现不稳定,往往无法正确识别技术词汇。如何将两类方法的优势有机结合是该领域的一个挑战。另外,从方法论上而言,并没有合适的框架可以将文本分词和词语发现链接起来;从实际应用角度出发,开放域评价标准的缺乏导致不同方法不好比较。基于以上问题,研究团队提出解决思路:1. 引入贝叶斯框架,将高效的词语发现器TopWORDS和强大的分词工具PKUSEG结合,开发出更高效的工具TopWORDS-Seg,该工具能同时进行文本分词和词语发现 2.在基准(benchmark)数据集和开放域数据上建立评价标准,同时测评不同方法文本分词和词语发现的表现。经过测评发现,TopWORDS-Seg在开放域文本处理任务上的效果明显优于其他方法。

  1. TopWORDS-Seg方法

TopWORDS由Deng et al. (2016) 提出,是一种基于无监督统计学习的离线自然语言处理方法。作者以 TopWORDS为基础,通过贝叶斯推断,将TopWORDS从词汇发现能力强但文本分词能力弱的工具,升级为在两个维度上具有平衡能力的更强大的工具TopWORDS-Seg。

TopWORDS-Seg 算法的流程分为四个步骤,如图 1 所示:(1)字典初始化阶段:枚举最大词长不超过 且最小词频不小于 的子字符串构成庞大的初始词典。(推荐默认设置 ) (2)先验构建阶段:由分词工具 导出, 为任意一种强大的分词工具,后续实践中使用的是PKUSEG。(3)词汇发现阶段:由EM算法进行参数估计,并通过似然比检验筛检掉初始词典中不显著的词汇候选,得到最终精简的词表 。(4)文本分词阶段:基于已得到的词表 和参数 ,通过条件概率进行分词,在切分概率大于 的地方切开( 控制了分词的颗粒度,一般默认 = 0.5)。其中在先验构建阶段,超参数κ的选取很关键。一般来讲,κ越小则越接近先验分词器  ,越大则越接近TopWORDS。作者在不同的任务中使用不同的值指定κ:在词语发现阶段使用大的κ(称为 ),以充分利用TopWORDS强大的新词发现能力;在文本分词中使用小的κ(称为 ),以充分利用PKUSEG强大的分词能力。基于广泛的实验研究,作者建议设置 算法的详细内容参见论文的第二节。

与统计相遇|当统计学遇上开放域中文分词

图1:TopWORDS-Seg算法流程图

  1. 方法测评--中文维基百科

为了测评TopWORDS-Seg在词语发现和文本分词上的表现,研究团队分别选取了开放域语料(维基百科),用来测评方法对于技术词汇的发现和切分效果,以及封闭测试语料(PKU数据集),用来测评方法在一般文本上的切分效果。

维基百科包含超过百亿文字和3600万网页的语料,涵盖各个领域的文本和技术性词汇,是最大的开源数据集之一。由于技术词汇有超链接这一天然标注,维基百科是最理想的研究开放域中文自然语言处理的数据集。考虑到计算量,作者抽取了其中800万字文本作为维基百科文本的代表(记为Chinese Wiki-Rand)。另外,根据网页词条的类别,作者抽取了两个特殊领域(物理领域Chinese Wiki-Physics和电影领域Chinese Wiki-Film),均包含500万左右的文本,作为特殊领域文本的代表。

PKU数据集是最常用的中文文本测试集之一,用来评估方法对于非技术性文本的切分效果。

各种方法的比较结果如图2。其中 为技术词汇发现率,衡量了词语发现的表现; 为技术词汇切分准确率,衡量了文本分词的表现。在词语发现方面,TopWORDS-Seg完美继承了TopWORDS的优势;在文本分词方面,它吸收了PKUSEG的优势后青出于蓝,切分表现最好。并且,在背景文本切分方面TopWORDS-Seg比TopWORDS有着显著的提升。

与统计相遇|当统计学遇上开放域中文分词

图2:(a)维基百科网页实例(b)维基百科文本(c)不同方法在维基百科数据集(Chinese Wiki-Rand、Chinese Wiki-Film、Chinese Wiki-Physics)和PKU数据集中的表现 (d)不同方法在四种不同语料上文本切分的相似度(e)特定句子上的切分结果

  1. 方法实践--处理《深度学习》

另外,研究团队还以《深度学习》为例,在实际数据中进行了方法验证。《深度学习》在2016年出版,由Goodfellow等人所著,是深度学习领域最流行的书籍之一。作者采用本书的中文翻译版,用书目中的术语索引表测试各种方法的词语发现效果。

具体测试结果如图3:TopWORDS-Seg词语发现效果排名第二,仅比排名第一的TopWORDS低0.9%,但是词表规模却比TopWORDS的词表规模精简了15%,精简掉许多"假词"(图3f)。另外,TopWORDS-Seg相较于其他有监督方法高出至少15%,词汇发现优势突出,且能发现如"随机梯度下降"等其他方法发现不了的词汇(图3e)。

与统计相遇|当统计学遇上开放域中文分词

图3:(a)深度学习书的封面(b)不同方法词汇发现率的对比(c)不同方法的文本切分相似度(d)TopWORDS-Seg发现的最常出现的100个词汇词云图(e)被TopWORDS-Seg捕捉但是被其他方法都遗漏的词汇 (f)被TopWORDS错误找到的但却被TopWORDS-Seg移除的"假词汇"

  1. 总结讨论

研究团队提出了基于贝叶斯框架的TopWORDS-Seg分词方法,在开放域中,具有强大的中文处理功能。其优点在于:(1)成功将文本分词和词语发现结合起来,经实验证明,TopWORDS-Seg不仅能在开放域上有效捕捉发现技术词汇,而且对基准数据集和开放域数据集都有精准的分词效果。(2)TopWORDS-Seg可以处理大量的开放域语料且不需要人工标注,为目前开放域文本领域处理瓶颈提供了很好的解决方案。(3)模型清晰透明,解释性强,是开放域文本分析很有效的工具。

另外,TopWORDS-Seg也有一些局限:(1)遗漏文本中出现频率过低的稀有词汇(2)将PKUSEG作为先验信息,在每个位置强度相同。理想情况是在技术词汇部分PKUSEG信息强度更弱,从而更依赖TopWORDS-Seg的词汇发现手段,而在背景文本部分PKUSEG信息强度更强。以上局限性会在未来的工作中进行弥补。

供稿|潘长在

编辑|侯禹珊、宋希婷

审核|邓柯

与统计相遇  //  相关文章



邮箱:[email protected]

长按二维码关注