vlambda博客
学习文章列表

【内审实务】文本挖掘在串通投标行为识别中的应用

朗读原文 来自中国内部审计协会 04:06




文本分词是文本处理的一个基础步骤。采用Jieba分词组件,开发相应的程序,程序具有简单易用等特点。加载相应的文本文件,即可对投标文件进行文本处理,输出字数、分词词语量、关键词和高频词等信息。文本分词主要是对文本进行预处理以及统一文本的基准和范围。商务文件内容以资质证明等图片为主,开标文件和报价文件等内容单一,因此,将技术文件作为主要分析对象。应采用程序中的精确模式对文本进行分词,将文本内容中影响分析结果的噪声词语(如“的、是、了”)过滤,并针对招投标行业特别增加招标人、投标人、标书、合同等停用词。获得分词结果后,统计词频和关键词(TF-IDF)等信息。




【内审实务】文本挖掘在串通投标行为识别中的应用



案例一






某设备类招标项目共有4家投标商,分别为A、B、C、D。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。对分词结果分析后可得,投标商A、B、C三家文件字数均在3万—4万,投标商D文件字数略多,5万字以上;分词获得词语量为3000左右。对比关键词表,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围,而投标商D则明显不同,标书质量表现存疑。通过查看投标文件,投标商D投标文件质量明显不高,仅将招标文件技术规范书内容复制,并注明理解并响应。投标商D的陪标行为明显,陪标行为的出现,说明整个标段存在异常。对比高频词表,发现投标商A、B、C三家文件中冲洗、试验、机器人、提供等词语个数相近或相同,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。

【内审实务】文本挖掘在串通投标行为识别中的应用




【内审实务】文本挖掘在串通投标行为识别中的应用



案例二






某服务类招标项目共有3家投标商,分别为A、B、C。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。结果表明,投标商A和投标商C文件字数在1万左右,而投标商B文件字数略少,在6000左右。对比高频词表的分词后,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围。对比投标商A和C高频词表,发现工作、人员、处置、领导等词语出现次数相近或完全相同。对比投标商A和B高频词表,佩戴、书报、小说、游戏机、临阵脱逃等词语出现次数完全相同。“临阵脱逃”之类较少在投标文件中使用的词语同时出现在了投标商A和B文件中,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。

【内审实务】文本挖掘在串通投标行为识别中的应用






招投标是审计工作重点关注的领域之一,在投标文件中引入文本挖掘,能够从文本信息的角度进行串通投标行为的识别,更好地助推相关审计工作的取证和开展。预防和遏制串通投标行为是一项系统工程,需要各环节的共同努力,才能确保招投标市场规范有序。


(作者单位:中国华电集团有限公司)

【内审实务】文本挖掘在串通投标行为识别中的应用
【内审实务】文本挖掘在串通投标行为识别中的应用
【内审实务】文本挖掘在串通投标行为识别中的应用
【内审实务】文本挖掘在串通投标行为识别中的应用
往期精选


● 

● 

● 

● 


责任编辑:孙哲

文字编校:王会丽 赵伟伟  高明富



【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用

【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 【内审实务】文本挖掘在串通投标行为识别中的应用 



“阅读原文”一起来充电吧!