【内审实务】文本挖掘在串通投标行为识别中的应用
文本分词是文本处理的一个基础步骤。采用Jieba分词组件,开发相应的程序,程序具有简单易用等特点。加载相应的文本文件,即可对投标文件进行文本处理,输出字数、分词词语量、关键词和高频词等信息。文本分词主要是对文本进行预处理以及统一文本的基准和范围。商务文件内容以资质证明等图片为主,开标文件和报价文件等内容单一,因此,将技术文件作为主要分析对象。应采用程序中的精确模式对文本进行分词,将文本内容中影响分析结果的噪声词语(如“的、是、了”)过滤,并针对招投标行业特别增加招标人、投标人、标书、合同等停用词。获得分词结果后,统计词频和关键词(TF-IDF)等信息。
招投标是审计工作重点关注的领域之一,在投标文件中引入文本挖掘,能够从文本信息的角度进行串通投标行为的识别,更好地助推相关审计工作的取证和开展。预防和遏制串通投标行为是一项系统工程,需要各环节的共同努力,才能确保招投标市场规范有序。
(作者单位:中国华电集团有限公司)
●
●
●
●
责任编辑:孙哲
文字编校:王会丽 赵伟伟 高明富