vlambda博客
学习文章列表

​二等奖|基于双向长短时记忆模型的中文分词方法



基于双向长短时记忆模型的中文分词方法

张洪刚 李焕

责任编辑:牛晓光

摘 要:中文分词是中文自然语言处理中的关键基础技术之一。目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作。基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能。文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究。首先从大规模语料中学习中文字的语义向量,再将字向量应用于 BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB) 和繁体中文数据集(HKCityU) 等数据集上进行了实验。实验表明,在不依赖特征工程的情况下,基于BLSTM 的中文分词方法仍可取得很好的效果。

作者简介:张洪刚( 1974-) ,男,副教授,主要从事模式识别研究。

引用格式:张洪刚, 李焕. 基于双向长短时记忆模型的中文分词方法[J]. 华南理工大学学报(自然科学版), 2017, 45(3): 61-67.

ZHANG Hong-gang,LI Huan. Chinese Word Segmentation Method on the Basis of Bidirectional Long-Short Term Memory Model[J]. Journal of South China University of Technology(Natural Science Edition), 2017, 45(3): 61-67.






线上投稿网址:http://zrb.bjb.scut.edu.cn

编辑:牛晓光/审核:刘淑华

戳左下角“阅读原文”在线翻阅本期期刊