vlambda博客
学习文章列表

数字人文视角下的金庸文本挖掘研究

文本分析







邰沁清 / 北京语言大学大数据与语言技术研究所

夏恩赏 / 北京语言大学大数据与语言技术研究所

饶高琦 / 北京语言大学大数据与语言技术研究所

荀恩东 / 北京语言大学大数据与语言技术研究所

------------------------------------

摘要:从关键词分析、人物关系网络与情感分析方面对小说中的三要素——人物、环境、情节进行自动抽取与细节挖掘,呈现远读的特点和方法,并讨论相应工具的优缺点;其次,对小说中道德与文化元素进行基于文化词典的匹配和筛选,从中看到传统文史典籍在金庸小说中的分布情况,以及金庸文化思想的多元性和包容性;再次,在场景和时空的分布中,绘制小说对应历史时期的电子地图与门派分布图,多维度地呈现小说内容的面貌,一窥金庸笔下丰富多样而又均衡有序的武林世界。从研究结果可知,以合适的内容为研究对象并选用恰当的工具,能够有效地辅助文本阅读,发现重要的情节内容。

关键词:金庸小说 远读 数字人文 关键词分析 文化元素 时空分布

------------------------------------


数字人文视角下的金庸文本挖掘研究
引 言

数字人文是一个融合文理学科知识的新兴研究领域,相关研究最早可追溯至20世纪中期的人文计算(Humanities Computing)。意大利神父布萨(Roberto Busa)使用计算机技术为托马斯·阿奎那的著作编辑词语索引,成为人文科学计算研究的开端。步入21世纪以来,数字化技术与文本信息处理的快速发展和革新为人文学术研究提供了新的探索方向,也提出了新的要求。学者开始关注如何高效利用数字资源(如无格式文本、格式化数据、图像视频资料等)和计算机技术,站在宏观和全局性的视野研究语言、社会和文化中的问题,并对传统的微观视角研究进行以数据为支撑的证实和补充。


在文学研究中,自弗兰克·莫雷蒂教授(Franco Moretti)于2000年提出“远读”(Distant Reading)方法后,学者通过文本挖掘(Text Mining)技术,从海量文本数据中发现规律性、新颖有趣的知识成为了丈量文化和思想的新方式。在以往对文学作品的研究中主要有以下几个方面的探索:


(一)作品风格研究。李贤平用《红楼梦》中虚字的使用频率统计各章回的接近程度,再以聚类方法探究文本的归属[1];刘颖、肖天久从计量风格学的角度,采用文本聚类、主成分分析等定量统计与定性分析相结合的方法,发现金庸与古龙在写作风格上的异同[2];“Digital Humanities Research of Jin Yong's Works Based on Quantitative Linguistics”一文对金庸、古龙从计量语言学的特征说明各自的风格与功能,基于领域词表计算作品相似度并初步展示了人物行迹地图,拓展了传统小说研究的广度和深度[3]


(二)文本情感分析。国内目前情感分析的成果主要集中在对唐诗宋词风格(如婉约、豪放)和情感的自动分类研究上,已取得较高的检全率和检准率;而对于小说情感倾向的自动识别仍较少,多停留在技术层面。


(三)人物关系挖掘。莫雷蒂建立的斯坦福文学实验室通过对大规模文本进行验证假设、建模与量化分析,其中使用网络分析理论探究《哈姆雷特》中的情节并用人物对白探究人物关系[4];赵胜京等人抽取了《三国演义》的社会网络,发现人物角色频数分布呈现规律性的幂律特征,对探讨人物的中心性和凝聚子群分析很有价值[5]


(四)文本规律特征与可视化。Jack W. Chen首次对《世说新语》进行了文本可视化的实验研究,对其主题、人物以及地理空间信息进行了分析与探索[6];霍伊特·朗(Hoyt Long)通过构建黑人和白人作家的语料库,使用余弦相似度测量词汇差异和主题模型来探究不同种族作家的小说在形式和内容上的一致性和差异性,进行了对种族的批判性和解释性的计算研究[7]


金庸所构造的武侠世界是武林江湖中的“霸主”,其作品不断拓展丰富了侠义精神,又蕴含丰厚的历史与深刻的民族精神,写尽人生百态。全面梳理金庸作品,对其进行量化研究是对经典武侠世界的再呈现和再挖掘。关于金庸的文本探勘研究,学者已做过一些有价值的工作,如张旋等人基于复杂网络分析方法提出小说人物关系识别模型,[8]唐锋等人提出了武侠人名对应的外号的自动识别方法,对于自然语言处理中的同义词识别也具有借鉴意义[9]。在前人工作的基础上,本文依据研究内容选取相应的工具辅助,用新的思路和方法对金庸小说进行整体性的文本勘探研究。通过用统计学、机器学习等计算方式和语料库语言学等定量的方法分析,挖掘文学作品中的隐含信息,探索传统研究中较少涉及的时空和场景内容,从整体上呈现金庸小说中的交互融合关系,也为之后的文本内容挖掘研究提供一个可供参考的范式。本文以金庸的15部小说(新修版)[10]为研究对象进行分析和展示,利用BCC语料库提供的自然语言处理技术[11]对小说文本进行分词与词性标注,并借助n-gram和词语词性提取的方式校对语料。在金庸语料库[12]的数据基础上,根据所要研究的内容选择合适的工具并在下文中展开详细说明。



小说三要素的远读探索


传统模式下的阅读是线性的,充分尊重文本的创作顺序与逻辑规律,但受经验主义认知的影响,在阅读已有初步认知经验的文本时,会对信息自动进行筛选,进行略读或跳读。在大数据时代,面对大规模语料,人的阅读与认知能力受到局限,传统阅读模式已无法完全满足信息提取的需要,“远读”应运而生。莫雷蒂在《对世界文学的猜想》一文中首次提出“远读”概念,主张通过对大量的文本进行计算、聚类和分析来解决文本中存在的“大量未读”问题,以了解文本所涉及到的文学本质[13]。面对800万余字的金庸小说文本,我们首先从传统的小说三要素角度,探索远读的优势与不足。


(一)关键词分析

关键词在一定程度上可以反映文本的主题思想,帮助阅读者迅速建立对文本内容的初步印象。目前,关键词提取可大略分为有监督和无监督两种模式。前者需要大量人工预处理,效率较低,虽有较高准确率,但应用并不广泛。常用的无监督的关键词抽取方法主要包括以下三种:TF-IDF算法、TextRank算法和LDA主题模型(更适宜于短文本)。在本研究中,我们采用前两种方法对金庸15部小说进行关键词分析和比较。


TF-IDF[14](逆文本频率)算法是基于统计的方法来评估某个词汇在整个文本或语料库中的重要程度。TF(Term Frequency)表示某词在这个文本中出现的频率,其计算公式如式1,其中分子表示词语在文本中出现的次数,分母表示所有文档中所有词语出现的次数总和。IDF(Inverse Document Frequency)为逆文档频率,用来衡量一个词在语料库中是否是常见词,其计算公式如式2,其中N是文本集中的文本总数,ni表示包含词i的文本数量。

数字人文视角下的金庸文本挖掘研究

综上,将词频(TF)和逆文档频率(IDF)相乘,我们就可以得到TF-IDF公式(式3)。若某词TF-IDF值高,即表示它在指定文本中出现频率高,同时在整个集合文本中出现次数较少,说明区分度高,对文本有较强重要性,可作为该篇文章的关键词。


TextRank[15]算法基于PageRank,将对文本的分析转化到网络图中,通过分析网络图中各个节点的权重,确定节点(字词)的重要性[16]。其计算公式如式4,其中V代表词语的集合,E为词语和词语间连接的集合,d是阻尼系数,w代表连接权重:

数字人文视角下的金庸文本挖掘研究


我们基于上述两种方法分别提取了金庸15部小说的关键词,并将前30个关键词用图表展示。以表1中三部小说为例,我们发现,两种算法提取的关键词均以专名居多,专名往往也是我们阅读前后最直观的印象,包括人名、团体名、地点等。如《神雕侠侣》中的小龙女、杨过、蒙古,《书剑恩仇录》中的陈家洛、张召重、红花会,《笑傲江湖》中的令狐冲、任盈盈、恒山派。主人公、场景为小说三要素之二,小说主要人物(包括称呼)的提取可以使读者对小说内容进行初步的画像构建,迅速了解小说内容是围绕哪些主人公展开;地点、时间和组织名则展现了小说发生的环境及背景,完成了场景的构建。纵观15部武侠小说的关键词:虽同为武侠,主题甚至侠义鲜有重复,如《笑傲江湖》中的“恒山派”“掌门”“江湖”等词点明了小说是围绕江湖几大门派进行叙述的主题,关键词中没有明显的时代(朝代、民族)背景,但是反而可能映射了每个时代都会发生的权力之争。《书剑恩仇录》中的“乾隆”“清兵”明确交代了时代背景,加之“皇帝”“侍卫”更是说明了故事可能牵涉的皇室纠葛。笔者并未一字不落地读过所有小说,但也能对金庸武侠世界有一个“初印象”,正是因为这些关键词在文本的结构上有着特殊地位,因而通过计算方式才能够得出较为合理的解读。


表1 TF-IDF与TextRank对比

数字人文视角下的金庸文本挖掘研究

数字人文视角下的金庸文本挖掘研究


从计算原理及方法上看,两种算法都依赖于分词的结果,故而出现如“红花”的提取错误,对于这个问题,本文从以往的研究论文中提取了大量关于组织、武功名称加入分词词典,由此能够得到更为精准的分词效果。TF-IDF需要在所有小说作为语料库的基础上进行计算,从原理上看更加合理和完善,然而在计算时却过度依赖词频,从而忽略了词语的互相关联性,TextRank利用单篇文档本身的信息即可实现关键词提取,但涉及到构建词图及迭代计算,运算速度较慢。从整体15部小说的结果比较,TextRank的效果并不优于TF-IDF,两者都提取出了一些非关键词(没有区别意义的动词和名词),TextRank的结果中更多;其次专名的提取中TextRank的词语排序不佳,重要的词往往落在后面,甚至遗漏了如任盈盈、杨过等重要的专名(如上表中标记蓝色的词语)。我们也看到关键词在挖掘主题时的局限,主题往往是文字背后的意义,非一言一语就能体现,如《神雕侠侣》中以杨过与小龙女多次聚散、16年生离死别为主要焦点,但是关键词不可能出现爱情、相爱等文本中少有的词,这也直接体现了远读与传统阅读的差异:前者确实能够挖掘文本的未读信息,但是也只能限于文本已有的词语、句子中;而后者依靠经验和概括,解读能够超乎固有内容之外。


目前还较少有使用长文本提取关键词的实践,我们首次以金庸所有作品为语料库进行主题词计算,探讨了两种无监督方法的差异,从结果看,在预想范围之内,以关键词窥探主题仍旧是片面单一的。以下我们将结合人物关系与情感倾向获得更为完善的远读体验。


(二)人物关系挖掘

在文本处理中,对小说中的角色进行关系梳理有利于从整体上考察人物亲疏关系,并能够从细微处探索主要人物之间的联系,对传统的从单一人物深入文本的研究有所补益。本文使用可视化Gephi软件来绘制小说中的人物网络关系,以人物为网络节点,其中节点的大小取决于与该人物共现的角色数量,与之相关联的人物数量越多,节点越大;人物在小说中与其他角色的共现关系为边,以角色间的共现频数(指人物在每一段落中与其他人物同时出现的次数)为权重。通过这样的方式构建网络关系,并从中心度、凝聚子群等角度加以分析。由于小说中某个人物的名称往往不止一个,如《天龙八部》中萧峰还有“乔峰”“乔帮主”“萧大王”“萧大侠”“北乔峰”“姊夫”等外号和称呼,因此我们通过自然语言处理技术和Web搜索建立每一部小说人物及其称号的人名表,在文本中尽可能统一人物的不同称呼,以达到更精确地提取人物关系的目的。


1.人物中心性

一节点若与其他节点均存在联系,则表示该节点居于中心地位,因此,个体的“中心性”测量节点处于网络中心的程度,反映它在网络中的重要程度。我们挑选了人物关系复杂的《鹿鼎记》与《天龙八部》为代表,绘制了人物网络关系。其中节点越大、颜色越深(紫色最深,白色最浅)则表示该人物的关系复杂,中心性越强,而边的粗细则表示关系的密切程度。


数字人文视角下的金庸文本挖掘研究

图1《鹿鼎记》人物关系网络


数字人文视角下的金庸文本挖掘研究图2《天龙八部》人物关系网络


《鹿鼎记》人物关系网络(图1)中,韦小宝、康熙与吴三桂作为网络中的重要节点,形成一个稳定的三角关系,其中韦小宝与康熙的边更粗且颜色最深,这意味着三位主要人物中韦小宝与康熙关系更为密切。根据网络图中线的权重也能够探索性地解读韦小宝与其七个老婆之间的关系,判断他最珍视的人物。韦小宝通过各种手段娶了七位妻子,从原著中的相遇顺序来看,依次是沐剑屏、方怡、双儿、苏荃、建宁公主、曾柔、阿珂。从图1所示,依据边指向点的粗细排序为双儿、阿珂、方怡、沐剑屏、苏荃、建宁公主、曾柔。可见某角色的重要程度不受出场次数和出场顺序影响,双儿与韦小宝患难与共,屡次救韦小宝于水火之中,感情基础深厚;韦小宝与阿珂虽相识最晚,但是关系依旧密切,可见对她的喜爱非同一般;另外,建宁公主的人物关系网络比较复杂,但是与韦小宝关系并不那么紧密,同时曾柔在小说中的出现次数有限,描写刻画也较少。


从图2可见,段誉、慕容复、萧峰、阿朱、虚竹、段正淳依次排序,均具有广泛的“交际圈”,属于小说中核心人物。作为三大主人公的萧峰与虚竹从数据显示来看排序次于慕容复,这是由于中心性的定义体现为个体与其他节点共现的次数,表明的是该人物在诸多关系中的参与情况。慕容复为光复大燕,四处奔走,广交天下豪杰,因而与众人多有共现;阿朱作为小说中的女主人公,虽然在全书未过半处便替父受过去世,但是仍旧与萧峰高频共现,甚至高于阿紫,两人生死相守的陪伴可见一斑;段正淳年轻时惹下无数风流债,有段誉、木婉清、钟灵、阿朱、阿紫、王语嫣等子女,虽非主角,但也在小说中占有重要地位。可见,小说中作者笔下的主人公可能并非是参与故事情节最多的人,而参与故事情节较多的人往往也不是作者主要刻画的主角人物。


2.凝聚子群分析

“社会网络分析中的凝聚子群是网络中相互之间有着稳定、直接、强烈或频繁联系的行动者子群”[17],从子群中往往能够直观地看出各类小团体之间的关系以及小团体中成员之间的联系。《天龙八部》中的人物子群分为五个,在此列举其中四个社群展示。


数字人文视角下的金庸文本挖掘研究

数字人文视角下的金庸文本挖掘研究

数字人文视角下的金庸文本挖掘研究

数字人文视角下的金庸文本挖掘研究

图3 《天龙八部》人物子群网络


在图3的四个子群中,中心人物分别是虚竹、段誉、萧峰和段正淳,能够较好对应小说中的四条故事线,将每一块故事中涉及的主要人物聚集在一起。社群分析能够在《天龙八部》中得到比较好的聚类效果,这与金庸叙事的方式相关。小说的故事情节具有整体性,但同时围绕每位主人公开展了各自的故事线和人物关系,作为每段相对独立故事中的关键人物,能将核心的成员较为稳定地聚拢在周围,成为一段故事中叙事的相关对象,也是读者实现远读把握故事情节的方式之一。凝聚的子群能够弥补上述从中心度上看不出主角人物与次要人物的局限性,人物关系因而得到彰显。


人物关系是作者布局规划小说的重要部分,也是展开故事叙述的核心。传统经验性的分析往往只能够关注到故事叙述时围绕的焦点人物,难以衡量所有人物在所处故事背景中的地位,仅能从参与者的角度而非群体中寻找个人的作用。Gephi具有可视化、可测量的优势,能够清晰详尽地图示金庸武林世界中复杂的人物关系并量化人物之间的牵绊,基于文本理性客观、完整全面地将核心成员与边缘角色都纳入分析小说时的重要成分,从功能上看,核心成员是故事叙述的中心,而边缘角色对于推进剧情、辅助角色成长起着必不可缺的作用;但其缺点也显而易见,小说在叙述时使用的指示代词尤为丰富,而Gephi的原理是通过名字的共现来计算人物的关系,并未将代词纳入量化关系的考量范围,在后续工作中需要探索提升指代消解技术以完善共现的频次。此外,角色在小说中的活动错综复杂,有各色各样的社会关系和模式(如恋爱模式、仇敌模式),而目前的分析仅能单维度地展现整个状态,需要考虑如何通过人物的行为引导出人物关系,构建某领域下的行为模型,以反映更加真实细致的凝聚子群。本文在构建关系模型前,搜集了人物及其对应的外号称呼,构建人名语料库,以提升计算的准确率,并通过调整参数获得了清晰合理的群聚关系。


(三)基于情感词典和机器学习的情感分析

情感分析,简而言之,是对文本中含有情感态度的部分进行释义、推理的过程。关键词的抽取与人物关系网络展现了小说三要素中的人物与环境,而情节这一要素则可以通过情感分析进行浅层挖掘,文中情感的变化可以作为情节发展的有用代理。


情感分析的方法总体可归为以情感词典为基础的方法和机器学习的方法。借助情感词典的方法,其核心思想是:统计待分析文本中正向情感词和负向情感词的数目,根据他们的差值分析文本的情感极性。机器学习的方法则是通过标注训练语料和测试语料,使用支持向量机、朴素贝叶斯等分类器进行情感分类[18]。基于词典的情感分析方法作为情感分析最基础的方法完全依赖于情感词典,但目前尚未有一部完备的情感词典适用于武侠小说领域,且语义表达的丰富性可能会使分析出现很大误差。而机器学习的方法极度依赖语料,不能较好解决多个情感词引发的情感发散问题。两种方法各有利弊,因此我们尝试将上述两种方法对主人公在不同章节的情感变化分别进行统计分析。主要过程如下:首先,提取小说中包含某主人公的句子;然后,再对这些句子进行基于词典或机器学习的情感值计算,并分章节计算均值;最后,制作情感变化折线图。


数字人文视角下的金庸文本挖掘研究

图4 机器学习模型下张无忌情感曲线


基于机器学习的情感分析,我们选用了基本分类模型为贝叶斯模型的SnowNLP,并选取大连理工大学的中文情感词汇本体词表予以补充。以《倚天屠龙记》中的张无忌为例,如图4,横坐标为该小说章节序号,纵坐标为情感分值,SnowNLP的分值评价介于0—1之间,数值越大,积极情感倾向越明显,反之,则倾向于消极。武侠小说主人公情感起伏与小说情节的跌宕起伏息息相关。张无忌刚出场,其情感曲线便有大幅变化,与义父谢逊分离、踏入江湖初识险恶人心使得张无忌的情感中消极因素有所增加,其情感曲线在此时也相应有急转直下的趋势,而后张翠山夫妇双双离世,张无忌自身也病入膏肓,其情感中的负面因素更是大量增加,情感曲线达到低谷。然而,习得九阳真经、重遇周芷若等故人后,其情感曲线开始逐步上升,第23章中与赵敏在绿柳山庄的际遇使其情感达到一个峰值,这与小说中张无忌与赵敏的爱恨纠葛相呼应。后期与周芷若大婚遭逢变故,义父谢逊遇众人“屠狮”,使张无忌内心情感大幅波动,情感曲线也因此起伏明显。武侠小说的内容往往一波三折,主人公情感曲线也相应变化,文章的情感走势与主人公的命运相吻合,张无忌最后同赵敏远走天涯,其情感最终也有所上升。


使用机器学习进行情感分析,是用有监督的机器学习方法来对文本进行分类。一般情况下它可以实现对小说情感更精准的捕捉,但前提是需要有大量人工标注的相关语料以及适合的模型做训练。由于是探索性实验,我们在模型训练时,仅使用了情感词表及工具包内自带的情感正负向语料,因此在情感赋值上仍有误差,部分句子情感计算并不符合我们的认知,进而可能对整体情感变化有所影响。例如,“他这番话说得好听,赵敏却早知是缓兵之计,张无忌一落入他们手中,焉有命在”的情感打分为1,即判定为极强的积极倾向,这显然不符合事实与认知。


基于情感字典的情感分析,我们选取了清华原博制作的具有详细分值的情感词表作为基础词表,采用正向、负向情感词赋值打分,否定词调整权重与极性的方法来进行情感值计算。


数字人文视角下的金庸文本挖掘研究

图5 基于情感字典的令狐冲情感曲线


从图5《笑傲江湖》主人公令狐冲的情感变化曲线图来看,其情感变化有大起大落,第21章是其情绪较为低落之处,被囚于太湖之底,饶是乐观豁达的令狐冲也不禁悲苦,其情感中消极因素大幅增加,情感分值较低;而在第33、34章比剑、夺帅两章,群雄荟萃,故人相见,主人公内心情绪高涨,情感分值相对较高。


总体而言,大部分情感出现峰值与低谷的章节符合我们对小说的大体印象,从而能够了解小说情节的跌宕变化。但由于汉语语境的复杂性,基于字典的方法无法规避语境对情感的影响,因此会出现一些错误判断,比如,令狐冲道:“晚辈年轻识浅,今日恒山之事,便请方证、冲虚道长二位主持大局。”基于情感词典的情感分析对其判定为极强的积极情感,但从我们的认知及经验来看其情感并不强烈。由此看来,基于情感词典的情感分析也有一定误差。


另外,在情感方面,本文还对不同小说主人公的总体情感倾向进行了观察与比较。我们基于大连理工大学的中文情感词汇本体词表,以句为单位,对主人公所在语句中正负向情感词的平均频数进行统计,即统计情感词与主人公共现次数均值,在计算方式与情感词表相同的情况下实现长篇小说主人公的正负向情感统计。


数字人文视角下的金庸文本挖掘研究

图6 部分小说主要人物情感比较


如图6所示,三个柱状分别表示积极情感词、消极情感词以及情感词总数,纵坐标和横坐标分别代表句中情感词的平均频数和小说人物。以郭靖、令狐冲、张无忌为例,我们发现,与令狐冲共现的情感词更为丰沛,尤其是积极情感词,这恰好同令狐冲豁达乐观的性格相符合;然而,同郭靖共现的情感词无论是消极还是积极均较少,这可能与郭靖有些木讷的个性或小说情节的发展变化有关;张无忌与消极情感词共现次数相对较多,这可能与张无忌年幼失双亲、身受重伤的坎坷命运以及其优柔性格有一定联系。


目前长篇小说中量化人物情感的分析并不多,我们探索性地对主要人物在每一章节中的表现进行情感计算,看到整个故事走向中人物丰富的情感变化,并将多位主角放在同一水平上进行性格比较,以展现人物的差异。情感分析与内容密切相关,通过对情感倾向性的自动分析,还可以进一步获得表征不同情感强度的典型场景和词汇,为未来深入研究打下基础。


道德与文化元素的挖掘

金庸的小说蕴含着丰富的传统文化内涵,不仅在于语言风格的典雅,而且在于其引经据典,包罗中国文化中的多种元素。严家炎在《金庸小说与传统文化》中说:“这里涉及儒、释、道、墨、诸子百家,涉及千百年来中华民族众多的文史科技典籍,涉及传统文学艺术的各个门类如诗、词、曲、赋、绘画、音乐、雕塑、书法、棋艺等等。”[19]人物的性格和形象更是融合了多种思想内涵,不只是机械地重复和翻版,具有多样性,使得小说的内容丰富而有层次感。


表2 金庸小说中文化典籍使用占比(‰)

数字人文视角下的金庸文本挖掘研究


现主要通过文化词典在原文中匹配的方式尝试挖掘文本中的文化元素。限于时间和精力,本文参考金庸小说中文化因素的论文,收集了具有代表性的中国传统文化典籍,包括《易经》《庄子》《孙子兵法》《道德经》《孟子》《论语》等,佛教经典由于数量众多,结合论文与以往经验选择《般若波罗蜜多心经》《大乘妙法莲华经》《金刚般若波罗蜜经》《阿弥陀经》《地藏菩萨本愿经》《观无量寿经》《大佛顶首楞严经》等七部作为代表佛教文化的典籍。


我们将每一部文化典籍以标点符号(逗号、句号、感叹号、问号和省略号)切割开来,以小句形式形成该文化典籍的词典,在金庸小说的语料库中进行匹配和提取前后20个字符,经过仔细筛查后,得到了每一部小说引用文化典籍的话语的比率(如表2,标蓝部分表示占较大比重),比率的公式为:引用话语的数量/小说小句的数量。表格按照原始文本的容量大小从上至下升序排列,并依次归类为短篇、中篇、长篇小说。“创作时间”指作品的创作时序,从最开始的1排列至最近的15,“总”指每一部小说引用典籍的比率,最后一行指每一部文化典籍中被小说引用的比率。


从最后一列看,总体而言,小说中的文化元素基本与小说文本长度呈现正相关关系,即随着文本容量的增加引用数量也随之增加,极少数如《碧血剑》引用的文化元素数量较少,《越女剑》在短文本中的文化元素较多。《越女剑》讲述的是剑术精妙的越女阿青帮助越王勾践复国之事,从典籍的分布情况看,集中体现在《孙子兵法》中,讲述作战时的用兵之道,其余元素均未提及。


从文化典籍的内容被金庸所使用的情况看,《易经》是讲述天地之间万象变化的古籍,天地有五行,五行生八卦,八卦分阴阳两极,互相调和,卦象中涉及的诸多名称多应用于小说中的武功名称和原理中。从小说的占比看,《射雕英雄传》《天龙八部》《神雕侠侣》中《易经》元素较多,其中,最常出现的是“降龙十八掌”的武功招式。由于金庸小说中萧峰、洪七公与郭靖都以“降龙十八掌”闻名江湖,“亢龙有悔”“飞龙在天”“或跃在渊”“见龙在田”“龙战于野”“鸿渐于陆”“潜龙勿用”“履霜冰至”“损则有孚”“羝羊触藩”“利涉大川”“密云不雨”“神龙摆尾”(履虎尾)等招数均取自《易经》卦象;此外,在《书剑恩仇录》中袁士霄与张召重口头比武,《倚天屠龙记》中张无忌与小昭被困光明顶通道时,也用传统的伏羲六十四卦方位判定穴位与方位。占比次高的是《孙子兵法》,除《越女剑》外,《射雕英雄传》中各派势力围绕遗失的《武穆遗书》开展争夺,也有较多涉及到兵书兵法作战的内容。


从引用佛教经典的小说来看,《倚天屠龙记》《天龙八部》《鹿鼎记》三部长篇远远高于其余小说。从创作顺序看,这三部均属于金庸后期创作的作品,佛教思想对金庸后期写作的影响可见一斑。传统研究中探讨了不少《倚天屠龙记》《天龙八部》中佛教文化的渗透和主人公在佛教文化的熏染下的性格和命运,但较少提到《鹿鼎记》中的佛教文化。在佛教思想已经被前两部小说诠释得较为深刻的基础上,金庸在《鹿鼎记》中又以何种形式诠释对佛教精神的理解呢?从匹配得到的语料来看,韦小宝在书中曾作为康熙的替身,在少林寺出家,因而场景多设置在佛寺和庙宇中,多处提及佛教相关的专有名词,如少林寺的“般若掌”“达摩堂”“罗汉堂”“般若堂”等;此外,从截取到的句子看,有关佛教、佛经的话语往往是韦小宝不感兴趣甚至是调侃的对象。如:


“我佛当年在鹿野苑初转法轮,传的是四圣谛、八正道,这‘正意’是八正道的一道......”韦小宝打断他话头,说道......



“我佛慈悲,普渡众生,她怨你、恨你、要杀你而甘心,你反躬自省,总有令她怨、令她恨,使得她决意杀你的因。你避开她,孽因仍在,倘若派人杀了她,恶孽更加深重了。”......韦小宝肚里大骂:“......我要骂你、打你、杀你,你给不给我打骂?给不给我割你的老秃头?”


作为一个市井人物,韦小宝代表了普通人对于佛教的理解和认识,但在这种离经叛道之下,他又确实是深得佛家“众生平等、尊重生命”思想内涵的人物,“韦小宝的不识佛经,正是他的大彻大悟之处,尽管那是不自觉的”[20],体现了“无我相,无人相,无众生相”的思想境界。


关于孔孟之道的儒家思想,在《书剑恩仇录》和《天龙八部》中引用最多。学者认为,金庸早期创作中描绘的人物,继承了中国传统游侠“出于公心,于乱世中拯危济弱主持公道”的精神,在价值取向和处世态度方面涵盖许多儒家文化的特征。在《书剑恩仇录》中,陆菲青相比于陈家洛更似是儒家文化的发言人,常将忠义之声放在嘴边:


那老者乃武当派名宿陆菲青,......更多读诗书,以致去做了李可秀总兵府中的教书先生,说道:“子曰:‘暴虎冯河,死而无悔者,吾不与也。必也临事而惧,好谋而成者也。’孔夫子并不许可一勇之夫。”


陆菲青缓缓摇头,叹道:“‘一朝之忿,忘其身,以及其亲,非惑与?’”


而陈家洛、袁承志、郭靖等人从外显的词语句子中并未体现出儒家文化的元素。文化元素的提取并不能完全反映文化本身的概念,很多文化内涵包罗在作者塑造的人物形象和行动中,是一个整体而连贯的要素,且小说与中国传统文化的联系,更重要的是表现在思想文化和意识的渗透,不能够仅仅从语汇上体现。不过,统计典籍中的词语语句客观地说明了金庸在塑造人物和推动故事情节发展时大量吸收了传统文化的元素,体现了金庸深厚的历史知识和文化底蕴,为塑造多元的角色形象打下基础。


场景和时空的分布


对小说整体做时空场景方面的探索是一次新的尝试,包括小说中涉及的地域、气象、四时,从全局角度观察作者创作时的偏好、规律乃至某种写作模式。


(一)地域

数字人文视角下的金庸文本挖掘研究

图7 北宋时期《天龙八部》高频地点分布示意图


本小节使用QGIS地理测绘工具探索小说中地域的分布特点。QGIS操作便捷,不仅可以导入实时地图,而且也支持多种历史数据地图,是可视化地理分布很好的辅助手段。为了立体呈现小说的时代背景,我们对部分小说的地点进行详细刻画,统计高频地名并筛选后标记在地图上,清楚地展示了小说中重要地点的分布。这些涉及明显的历史背景和历史叙事的小说,采用古代地图进行标记,不仅可以与书中地名统一,而且还能够较好地还原小说中的叙事语境,并从三维的空间展示与二维的描述文字中,提供更好的阅读感受和体验,同时也帮助读者了解情节与环境、人物与环境之间的交互关系。


图7根据校对优化的语料提取了其中高频的地点专有名词,并在北宋的历史地图上进行标记,从《天龙八部》的历史展示中我们看到了北宋时期政权分立的状态:辽国(契丹)、北宋、西夏、大理、吐蕃,北宋在地理位置上北临西夏、辽国,西接吐蕃、大理,从外部环境看便处于一种紧张的状态,直观体现了小说是以民族政权的战与和为时代背景的。


这一点在图8中有更明显的展示。我们以地点的频次为基础绘制了热力图,能够更加明显地看出小说家国天下的时代背景。图8中,大理的热度最高(频次为447),契丹次之(频次为417),这可能与小说中两位主人公的身世相关。小说以段誉出场为始,作为大理国王子,一路奇遇不断,又以其退场为终;萧峰长于大宋,实为契丹人,纠葛于自我身份的认知中,人物的命运与国家的命运紧紧相连。除了分散在北宋外围的政权地点以外,从内部地点的分布看,主要集中在江南一带,表明故事的发生地,同时随着情节的推动,人物也较为集中地出现在中原地区。把地理信息系统运用到小说和人物的研究中,能够看到数字技术和人文阐释的相互配合。


数字人文视角下的金庸文本挖掘研究

图8 北宋地图中《天龙八部》热度图


此外,武林门派的分布对于呈现金庸江湖世界也极为重要。金庸笔下的武林门派和各方势力共有127支,从取名上看分为门、派、帮、教、寺、镖局、庄、家、盟、岛、寨、会、其他等13类。通过分析诸门派所在位置,可以发现金庸小说的地理布局特点。


在127处门派中,我们考察了其中68处有大致方位说明的门派,从地理分布上看,呈现出了丰富的武林图景。金庸对武林体系的建构令人钦佩,其中江湖门派较为集中建立在中原一带和江南地区,这是金庸小说中常设置的故事背景,也是普通读者对金庸小说留下深刻印象之处,足见金庸对江南一带的喜爱与了解。而纵观版图缺省之处,东北地区和西藏地区各大势力分布较少。金庸作品中对西藏风光和人事的描写确实不多,在2005年10月的西藏当地报纸中,金庸曾说他很想把自己作品中提到过的名山大川都走遍,他已经走了许多地方,如今还有宁夏的银川和西藏的拉萨没能去成[21]。即便如此,金庸受藏传佛教思想影响颇深,他的笔下也营造了一些典型的西藏僧人的形象,如《连城诀》中做尽恶事的血刀老祖、《神雕侠侣》中的蒙古国师金轮法王、《射雕英雄传》中用毒砂掌暗伤王处一道长的灵智上人以及《天龙八部》中狂热追求至高武功的吐蕃国护法国师鸠摩智等,这些僧人武功极高,却总是以反面的形象出现,令人印象深刻。


结合地图的测绘标记工具,我们可以看到,嵩山派作为五岳之首,被几大重要门派包围在中间。金庸在建构武侠世界时,也充分运用了传统文化中阴阳五行的学说,使得整个江湖呈现较为明显的五行系统,如以嵩山派为中心构成了恒山派、华山派、衡山派、泰山派的五岳剑派,阴阳往复,平衡江湖各方势力;在《射雕英雄传》中,第一次华山论剑也产生了相同的五行的叙事模式,东邪、西毒、南帝、北丐以及独冠群雄、武力略胜一筹的中神通王重阳,其所在的门派也在地理位置上明显地呈现出相同的模式(其中全真教定位于终南山,丐帮总舵最初在洛阳,后由于战乱沦陷,四处分散);直至在《神雕侠侣》中,五行模式继续推演,东邪、西狂、南僧、北侠与中顽童。通过多方的平衡,乃至随时间更迭,又产生新的平衡,金庸也构造了丰富多样而又均衡有序的武林世界。


(二)气象

小说中的场景不仅涉及地域方面,而且也包括对天气环境和时间的描写。传统的金庸小说研究较少涉及气象的描述,但作为文学中空间的重要叙述,对天气和时间的研究能够从整体上还原小说较为完整的面貌,结合地理分布的展示能够呈现出立体性的全面了解。因此,我们对金庸小说中的时间词和天气气象词语进行了提取,试探其中的特点。我们选取了文本分词后词性为t(时间)的词语,经过筛选后制成时间词表,又从网上获取了天气和气象词库并加入了描述天气的成语,形成天气词库表,根据对季节和天象的分类,将场景从以下几个维度展开描述:


数字人文视角下的金庸文本挖掘研究

图9 金庸小说中的天气词语分布


结合图9表示天气词语的数量来看,小说中天气词语的分类比较明确,基本能够归于以下五类中,其中对“冰/雪”场景的描写几乎占所有词语的一半,可见金庸笔下描述冰天雪地的故事场景之多。总体来看,环境大都较为恶劣。小说中的环境描写除了交代故事发生的四时月份和早晚晨夕,为小说提供一个大体框架以外,也是作者“有意识地在小说中创设故事发生的季节、天象背景,作为一种‘时机’成为小说情节衍生的触发点”[22]。如小说中几场经典的决斗:洪七公与欧阳锋在雪山之巅决斗,两大武林高手也在此役中化解了恩怨;血刀老祖与落花流水四人在藏边雪谷的对决,巧妙布局,以一敌四;胡一刀与苗人凤在雪山惺惺相惜的对决......恶劣的环境也为决斗增添了惊心动魄之感,而又使人在绝境中发挥出更强的能力。此外,在词语的种类分布中,表示风的词语种类甚多,可见金庸对细微之处的感知,暴风、微风、和风、疾风、轻风等细节描写在小说中也起到不同的叙事效果。


(三)四时与传统节日

我们将金庸小说中的二十四节气、月份以及节庆日对应到春夏秋冬四季中,一年四季由“四立”开启:二月至四月为春季,五月至七月为夏季,八月至十月为秋季,十一月至翌年一月为冬季。从图10可见,小说中重要的故事情节发展大约都在冬季,夏天的描写最少,从中再次证实了冬季叙事在金庸叙事中的重要作用。通过对活动背景的抽取,可以看到人物丰富、动态的活动轨迹。传统节日也是十分重要的节点,提取到的有腊八、除夕、清明节、端午节、中秋节、重阳节、春节等,往往是许多大事发生的场景或重要人物的约定之日,如在《侠客行》中十年一度的“腊八之约”;陈玄风在中秋之日偷走了《九阴真经》;日月神教中一方阴损使人吃人的毒药便在端午午时发作;《倚天屠龙记》里定于重阳节的“屠狮英雄会”......但是纵观传统节日,除清明节外,另外两大“鬼节”中元节(七月十五)与寒衣节几乎没有被提到。中国传统文化多元地存在于小说中,而其中的鬼怪与封建迷信却甚少提及,甚至金庸笔下的柯镇恶曾表示不相信鬼怪迷信,但这也可能是出于人物刻画的需要,其中的文化观念可以进一步挖掘。当然小说创作中也不乏以鬼神命名的众多的人物外号,如薛神医、蝶谷医仙、阎王敌、俏药叉,糅合了道教长生不老与佛经中生死轮回的思想,对应了角色的形象特点。


数字人文视角下的金庸文本挖掘研究

图10 金庸小说中的四时分布


数字人文视角下的金庸文本挖掘研究
结 论


本文是数字人文视角下对金庸武侠世界的一次文本探勘实践,首次以15部小说为整体研究对象,采用多种远读的方式,多维度挖掘金庸武侠世界中的文化、时空特点。远读能够从人物、时间场景、情感态度等方面拓展构建角色、环境画像的维度,了解主要角色的性格特点,发现海量文本中规律性的语言、文化、写作特点。小说分析容易局限于文本之中,而细读往往可以跳脱出文本,依据经验进行思想上的延伸。可以说,细读带给研究者传统人文学科与思想素养上的训练与经验是远读开展研究的根本前提。“鉴于部分国人趋新、趋快、趋技术的心态,我们认为需要极力避免的是没有人文思想与学术史视野的数字人文文学研究,强调文学文化研究方面的学科训练,强调所研究问题的人文本位”[23],数字人文研究应以研究对象为先导,辅以便捷的工具来量化文化与文学特征,数字技术更多地体现为工具性。如基于金庸小说文史典籍引用丰富的特点,我们对小说中的文化元素进行抽取,是为了以客观数据展现传统文史典籍的运用情况,从词汇与句子层面上阐释文本的文化内涵及金庸在不同时期不同创作中的思想体现;在场景和时空的分析中,利用QGIS绘制小说对应历史时期的电子地图与门派分布图,提取气象与四时的描写,以可视化方式多维地呈现了小说内容的面貌,还原时空交融的立体图景,相对充分地重现了武侠生活的风貌,这也是在数字人文的背景下文本挖掘所能做到的独特的学术研究。



Research on Jin Yong with Text Mining from the Perspective of Digital Humanities

Tai Qinqing, Xia Enshang, Rao Gaoqi, Xun Endong


Abstraction: From the aspects of keyword analysis, character relationship network and sentiment analysis, the three elements of traditional novels-characters, environment, and plot are automatically extracted and detailed, showing the characteristics and methods of distant reading and discussing the pros and cons of corresponding tools. Secondly, the moral and cultural elements in the novels are matched and selected based on cultural dictionaries, from which we can see the distribution of traditional literature and historical books in Jin Yong's novels, as well as the diversity and tolerance of Jin Yong's mind. In the time and space of the distribution of the novel, an electronic map corresponding to the historical period and a distribution map of Menpai are drawn, presenting the content of the novel in multiple dimensions, giving a glimpse of the rich, diverse, balanced and orderly martial arts world described by Jin Yong. From the research results, it can be concluded that taking appropriate content as the research object and selecting appropriate tools can effectively assist text reading and discover important plot content.

Keywords: Jin Yong's Novels; Distant Reading; Digital Humanities; Keyword Analysis; Cultural Elements; Temporal and Spatial Distribution






编 辑  | 王波




向上滑动 查看注释:

[1]李贤平:《〈红楼梦〉成书新说》,《复旦学报》1987年第5期。

[2]刘颖、肖天久:《金庸与古龙小说计量风格学研究》,《清华大学学报》2014年第5期;肖天久、刘颖:《基于聚类和分类的金庸与古龙小说风格分析》,《中文信息学报》2015年第5期。

[3]Xia Enshang et al.“, Digital Humanities Research of Jin Yong's Works Based on Quantitative Linguistics,” International Journal of Knowledge and Language Processing, 2020, pp.1-10.

[4]Franco Moretti, Distant Reading, London: Verso, 2013.

[5]赵京胜等:《中文文学作品中的社会网络抽取与分析》,《中文信息学报》2017年第2期。

[6]JackW.Chen et al.“, The Shishuo xinyu as Data Visualization,”Early Medieval China,vol.20,2014,pp.23-59.

[7]Richard Jean So, Hoyt Long, and Yuancheng Zhu,“Race, Writing and Computation: Racial Difference and the US Novel, 1880-2000,”Journal of Cultural Analytics, January 2019.

[8]张旋等:《金庸小说中主角复杂爱情模式的识别与分析》,《中文信息学报》2019年第4期。

[9]唐锋等:《长文本武侠小说外号识别研究》,《中文信息学报》2019年第8期。

[10]http://www.jinyongwang.com/.

[11]荀恩东等:《大数据背景下BCC语料库的研制》,《语料库语言学》2016年第1期。

[12]Xia Enshang et al.,“Digital Humanities Research of Jin Yong's Works Based on Quantitative Linguistics,”International Journal of Knowledge and Language Processing, 2019, pp.1-10.

[13]Franco Moretti, Distant reading, London: Verso, 2013, pp. 211-221.

[14]Eugene Aglchteine et al.,“Finding high-quality content in social media,”Association for Computing Machinery, Proceedings of the 2008 international conference on web search and data mining, ACM, 2008, pp.183-194.

[15]Rada Mihalcea, Paul Tarau“, TextRank:Bringing Order into Texts,”Proceedings of Conference on Empirical Methods InNatural Language Processing, Barcelona, Spain, 2004.

[16]刘奇飞、沈炜域:《基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究》,《情报探索》2018年第6期。

[17]赵京胜等:《中文文学作品中的社会网络抽取与分析》,《中文信息学报》2017年第2期。

[18]孙建旺、吕学强、张雷瀚:《基于词典与机器学习的中文微博情感分析研究》,《计算机应用与软件》2014年第7期。

[19]严家炎:《金庸小说与传统文化》,《中国文化研究》1998年第3期。

[20]谢新华、吕蓉:《简析金庸小说中的传统文化》,《青岛大学师范学院学报》2000年第2期。

[21]https://www.sohu.com/a/272370824_119022.

[22]陈红凌:《明清小说季节叙事论》,硕士学位论文,浙江师范大学,2012年。

[23]笪章难:《以计算的方法反对计算文学研究》,汪蘅译,《山东社会科学》2019年第8期。

原刊《数字人文》2020年第4期,转载请联系授权。











校对  |  肖爽

美编  |  徐璇






数字使人文更新

投稿邮箱:[email protected]

数字人文门户网站:www.dhlib.cn