支持向量机法及其在中药研究中的应用
摘 要:在中医药现代化进程中,有效地结合现代科学技术手段对传统中医药进行更为合理的分析是一个重要研究方向。计算机科学技术与人工智能算法在中医药研究领域已取得长足发展,尤其是分类算法所具有的快速鉴别和分析能力,使其在复杂的中医药研究体系中发挥举足轻重的作用。对支持向量机分类算法及其结合其他算法在解决中医药相关领域问题方面及成果进行综述,以相关智能算法为基础探讨中医药研究过程中的诸多难题,为推动中医药现代化进程提供支撑。
中医药传承几千年,是中华文明的重要组成部分,其现代化研究虽已取得长足的进步,但仍存在许多关键性问题亟待解决。中药本身化学成分复杂,同时基原品种、产地来源、生长环境、采收季节、加工炮制工艺等诸多因素[1]形成了中药复杂多变的体系,外观相似的中药药理活性大相径庭,假冒伪劣的中药饮片常常被不法分子利用,严重影响中医药现代化的快速推进。传统鉴别手段需借助该行业相关专家以传统经验进行分析,但该方法存在着耗时长、效率低、准确率不能保证等一系列问题。人工智能算法的出现有效地解决了这一问题,同时进一步结合其他学科,发挥多学科联合应用的优势,取长补短,将大数据的分析模式与中医药整体观有机统一,可以从宏观上对中药进行综合鉴别判定分析,同时也可将之应用到符合传统中医药理论的中药配伍、中药药性药效、定性定量分析等领域,有力地推动了中医药现代化进程。
1 支持向量机(SVM)的定义及其在中药相关领域的应用
SVM作为近20年来高速发展的人工智能算法,属于二分类模型,如果数据服从某个(固定但未知的)分布,要使机器的实际输出与理想输出之间的偏差尽可能小,则机器应当遵循结构风险最小化(structural risk minimization,SRM)原则,而不是经验风险最小化原则[2]。通过事先选择的非线性映射将输入向量映射到高维特征空间,寻找最优超平面,然后在此空间中求解凸优化问题[3],SVM正是这一理论的具体实现,其中内核函数作为SVM的精髓,将原来线性不可分的样本可以在新的核空间下转变为线性可分。常见的核函数主要为线性核函数、多项式核函数、径向基核函数和sigmoid核函数。SVM的基本结构见图1,图中x1、x2……xn表示的是输入变量,经过SVM内积核函数计算,不考虑变换拉伸过程中的具体映射关系,得到输出变量y。SVM包括主要应用于模式识别与分类及差别分析等的支持向量分类(support vector classification,SVC)和主要用于数据的拟合并产生回归模型,用于相关预测等的支持向量回归(support vector regression,SVR)[4]。SVM是泛化能力很强的优质分类器,准确率也很高,SVM算法的分类作用目前主要应用于中药鉴定、中药药性、中药活性成分、中药安全性评价、药物分析、制剂工艺及中药配伍规律等研究领域。
1.1 产地识别鉴定研究
中药产地众多,质量参差不齐,且“一药多源”现象广泛存在,质量监控困难。而SVM算法为中药产地识别及中药鉴定研究提供了方法,已有研究以近红外光谱技术为基础,通过测定内部特征值及外部特征值,结合SVM算法,成功识别黄连饮片[5],并能快速鉴别枸杞子产地[6]。以此延伸至“内外结合”的中药质量控制新模式,实现传统“辨状论质”经验,得以现代“察外知内”的再现[7]。结合近红外光谱或者太赫兹时域光谱技术,能较为精准地鉴别中药,且具有自动识别的特点,而这种方法难以对紫外数据及中药指纹图谱数据进行分类鉴别。此外,该方法存在着缺乏对个体预测可信度的测量及整体预测准确性较差的问题。因此,欲将其更好地应用于中药鉴定领域需在其基础上进一步融合其他化学计量学方法。
1.2 中药药性研究
中药四性是中药药性理论的主要内容之一,是中药作用于生物体后出现的寒、热、温、凉4种生物效应的表征,长期指导着中医临床用药。目前对中药四性的研究主要集中在阐明其物质基础上。因此多采用药效学、药物化学等手段从药物成分结构方面寻找四性之奥秘,其研究方向也主要集中在运用现代科学技术方法预测药效成分与寒热药性的相关性。而支持向量机算法能够从初生物质这一难点入手对中药药性进行预测分析,有研究[8-9]指出通过支持向量机建立寒热药性的数学判别模型,发现游离脂成分以及多糖水解成分与中药寒热药性存在明显的相关性,可依据模型对药物药性进行判别。但要对中药药性展开进一步研究则需要将多种初生物质结合进一步分析,借助多学科的知识方可充分发掘其药性规律。
1.3 中药毒副作用研究
中药在临床应用常被认为是安全有效且毒副作用小,但随着现代科学的不断发展及研究的不断深入,类似于何首乌具有肝毒性等中药的毒副作用不断被发现,给中药的合理应用提出了新的课题,即如何准确有效地识别中药中潜在的毒性成分,建立中药安全评价方法体系。SVM凭借其强大的分类判别能力,结合外源数据库,构建合理的预测分析模型对具有潜在毒性的中药化学成分进行筛选,并在此基础上,结合系统药理学分析进一步阐明其毒性机制,在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除[10],可有效提高药物开发的效率和成功率。如在中药肾毒性研究中,有研究[11]借鉴化学药的定量-结构-活性关系(quantitative structure-activityrelationship,QSAR)模型进行检测,结果显示SVM算法在自身预测准确率方面远高于K-邻近算法。在其基础上,将肾毒化合物和无肾毒化合物转化为分子描述符,用SVM建立判别模型,用肾小管损坏模型[12]进一步判别肾毒性模型筛查结果为阳性的中药成分,其准确性较高。后将代谢组学技术结合SVM研究肾毒性小分子代谢标志物[13],设计出肾毒性判别模型,能够快速、高效地筛查中药中致毒性的成分,以及肾毒性生物标志物。此外,在山豆根[14]神经毒性成分筛选中,采取了与肾毒性成分筛选相似的处理方式,且进行了验证。在肝毒性成分[15]研究中,其模型较为复杂,以多种机器算法结合分子指纹构建的组合模型,整理出肝毒性位于前10的中药,为中药肝毒性的预测提供了合理的研究策略。在未来中药毒副作用研究过程中加强对致毒性成分的筛选判定,以达到祛除毒性成分,保留效应成分,更好地为中药临床合理用药提供技术支撑。
1.4 中药组方配伍研究
中药系多成分、多靶点作用,因此七情和合等配伍规律是中药组方基本理论体系的重要组成,但中药组方物质基础不明严重阻碍了中药配伍规律的现代化阐述。借助现代药理学的研究成果,筛选在临床上发挥作用的中药活性成分,回归预测治疗相关疾病的最佳药物配比已被证明是一条行之有效的途径。在大黄苷元治疗脑缺血配伍研究中[16],研究者采用了均匀设计-药效学验证-数学建模相结合的方法,对组分配伍剂量进行优化以阐明临床配伍量效关系,结果显示该模型能够模拟大黄各配伍组治疗脑缺血的药效预测。此外,在原有配伍剂量条件下,结合SVM算法对中药复方进行了二次开发[17],通过模型预测和实验验证,多个配伍组的药效优于原方,这项研究成果将推动中药经典名方的进一步研究开发及现有中药品种的二次开发。
1.5 中药复方制剂工艺优化和质量研究
中药制剂工艺参数的优化是决定药品质量及成本的关键因素,采用现代化科学智能算法对制剂工艺数据进行处理将会获得更精确的优化结果。在优化中药提取工艺所得到的数据集中,比较决策树和SVM算法的优劣性,结果表明决策树算法的结果可理解性较好,但SVM分类算法有更高的精度[18]。通过构建相关分类器,在总黄酮提取工艺中得到实际应用[19],其预测模型精确且泛化能力强,获得了较好的优化结果。在中药生产过程中,提取液浓度是一个非常重要但又难以测定的参数,常规检测方法主要是人工检测、离线检测,这些方法往往会造成每个批次之间具有主观差异[20]。但在线检测或线边检测是一个良好的解决方案,基于SVM建立提取液浓度的在线自适应软测量模型[21],实现了对提取液浓度的在线测量及控制,对中药生产加工的全局统筹及对物质基础动态变化规律的认识,可从根本上提高中药产品的质量[22]。如能进一步基于SVM建立中药质量标志物(Q-marker)体系的在线检测及控制,必将有效解决中药生产过程中物质传递稳定性等影响到成药质量的重要问题。同时在中药不同剂型质量分析中引入SVM算法,将为其质量研究提供更为精确的数据。如针对苦碟子注射剂的研究中[23],将受试者工作特征曲线(receiver operating characteristic curve,ROC)结合指纹图谱和SVM的指纹谱-ROC-SVM策略充分发挥了3者之间优势,能准确地将合格品、不合格品、高温加工样品、高照度加工样品区分开,表明该分析策略具有较强的实用性和准确性,可以进一步应用于中药注射液的监测或预测,大大提高中药注射剂的临床安全性。
1.6 中药有效成分研究
有效成分是中药治疗疾病的物质基础,而中药复方多成分在炮制、提取、浓缩、干燥、制剂加工等生产过程中,成分-成分、成分-辅料之间有可能形成非共价键形式结合的超分子体系,这也给中药物质基础研究带来了复杂性,如能阐明中药复方成分在生产过程中的结合与变化规律,将极大地推动中药药效物质基础的研究。有研究[24]建立了分类预测模型,对中药方剂在不同浓度下均形成聚集体这一现象进行了研究,精确地对中药有效成分三维结构与性质数据库的分子进行了预测,为中药有效成分研究提供了新的思路。
2 SVM与其他算法的结合及在中药研究中的应用
SVM作为一种传统的二分类算法,不仅能解决线性分类,还可以使用核函数有效地进行非线性分类。但由于SVM是借助二次规划求解支持向量,对大规模样本难以实施,在解决多分类问题上有困难,且由于SVM主要参数的选择能够在很大程度上影响分类性能和效果,目前参数优化缺乏理论指导[25]。因此当前针对复杂中医药体系研究往往都是与常见化学计量法相结合,以此达到分类识别预测等效果。化学计量学类似于生物计量学及经济计量学,主要使用统计学和数学工具从多元化的化学数据中提炼有效的相关信息,在探索多种中药物质相关联的数据、药材质量控制、多成分变化规律等中医药研究领域中发挥重要的作用。其本质是将复杂数据的变化删繁就简,从中提取更为有效且简洁的信息。针对中药复杂体系中具备多个特征数据的研究,多种算法交叉结合应用,主要遵循先降维,再回归,最后建模预测分类分析的原则以解决问题。
2.1 SVM与主成分分析(principal component analysis,PCA)的结合
PCA在化学计量法中属于经典算法,主要是对特征光谱数据进行降维处理,可以在数据可视化的同时降低分类的时间成本。利用近红外漫反射光谱(near infrared diffuse reflectance spectra,NIRS)法,结合PCA和SVM算法,在中药鉴定、中药构效关系及中药药性识别研究中得到了广泛的应用,也取得了良好的效果。PCA-SVM联用不仅能满足指标成分的筛选要求,同时能充分发挥在解决小样本数据及非线性等实际问题中的优势。
中药NIR光谱PCA-SVM鉴别模型[26]被建立并应用在6种树脂及其他类中药的鉴别过程中,实现了对中药的无损、快速鉴别。以PCA-SVM作为分类鉴别算法,结合比例-积分-微分(proportion integraldifferential,PID)算法研制了一套智能化自动检测系统,实现了对气室温度的智能控制,能够对红参、白参、西洋参、太子参、三七进行较高精度的鉴别[27],这些研究都推动了SVM与PCA结合在中药鉴定学科中的应用。阐明中药产生药效的物质基础是实现中药现代化研究的关键,也是广大中药研究者长期以来努力的方向,通过计算机算法模型对活性物质进行筛选预测已被证明是一条行之有效的途径。有研究表明在活血化瘀类中药中[28-29],选取显著代表化合物空间结构的描述参数,建立了相关的定量预测模型,此方法实现了对未知中药相应性质的分类和预测,对于药物的筛选或新药的合成都具有重要的参考价值。在探讨中药红外光谱与药性的相关性研究中[30],采用PCA对中药光谱数据降维之后,选择主成分作为SVM输入变量,构建得到平性药和非平性药的识别模型,可较好地区分平性药与非平性药,为药性物质基础研究提供了一种新的研究思路。如能适当增加不同提取部位的红外数据以增加SVM计算所需要的特征变量,有可能提高中药药性的识别率。
2.2 SVM与层次分析法(analytic hierarchy process,AHP)的结合
AHP是一种系统评价方法,常用于权重决策分析[31],属于定性与定量的结合,其计算方法有4种,即几何平均法、算术平均法、特征向量法、最小二乘法[32]。该分析方法在优化权重赋值时常可以摆脱人为主观影响,故应用广泛,已与SVM结合应用于中药方剂的优选。其具体结合思路首先利用AHP计算出指标权重,其次依权重来处理数据;最后用SVM对数据进行分类[33],两者结合能够更加全面、科学、客观地反映指标层对实验结果的影响。中药组合用药是新药研究的一个热点,根据方剂配伍理论,在中医传承辅助平台构建中药成方制剂的结构化数据库,经过AHP映射处理,在SVM模型下对方剂-疾病与方剂-证候数据集进行有效预测[34],将中医证候与中药方剂有力地关联起来,为进一步用现代科学语言阐明中医证候概念提供了支撑。
2.3 SVM与最小二乘法的结合
最小二乘支持向量机(least squares support vector machine,LS-SVM)回归模型是经典SVM的改进,其算法是一种人工智能技术结合,将线性思想引入向量机,用以处理非线性问题,通过核函数降低了计算复杂性,加快了求解速度,主要应用在光谱数据的建模分析。有研究[35]对银杏叶提取物指纹图谱及其清除氧化自由基能力的训练集和测试集建立LS-SVM预测模型,能够对银杏叶抗氧化活性进行测定。并且在根据化学计量学理论建立相关预测模型时,发现中药的生物活性是复杂体系的整体作用。该模型的结合预测效果优于目前普遍单独使用的误差反向传播神经网络和偏最小二乘回归。不仅如此,凭借对指纹图谱的多维色谱数据区分和预报能力,LS-SVM得到更好的分类效果[36]。在羌活的指纹图谱研究中,并未将共有峰作为输入变量,而是将全部色谱数据进行分析处理,其预测效果优于单独采用共有峰的预测,更为重要的是这种方法的研究思路与中医药的整体观念不谋而合,是一种研究中药活性物质及确定中药Q-marker的重要方法。
2.4 SVM与遗传算法(genetic algorithm,GA)的结合
在近红外定量分析常见的建模方法中,LS-SVM有建模速度快、优化参数少、泛化能力强等优点而备受关注[37]。而针对LS-SVM参数优化中的启发式算法则更多的被发掘应用,如蚁群算法、GA、粒子群算法等。通常情况下,因光谱数据无效数据较多,干扰信息庞杂,故如何对样本进行有效筛选,前处理是降低LS-SVM处理成本的重要条件。而基于GA的特征波长筛选可以在有效消除紫外(UV)光谱数据冗余信息的同时,保留光谱有效信息,从而降低模型的复杂度。在秦皮提取液的快速定量分析中[38],径向基核函数(radial basis function,RBF)凭借其拟合精度与预测性能均较好而非常适合作为建模函数,在其基础上进一步结合GA算法,成功地对秦皮甲素、秦皮乙素、秦皮素等进行含量测定。具体结合使用方法见图2[39]。同样在不同威灵仙[40]的代谢物分析中,GA-SVM模型显现出优秀的预测性能。
2.5 SVM与粒子群算法的结合
粒子群算法(particle swarm optimization,PSO)模拟鸟群捕食行为,其算法概念简单,控制参数少,易于实现,同时兼有进化计算和群智能优化的特点,通过个体间的协作与竞争,可以实现对复杂空间最优解的搜索[41],该算法不仅具有很强的全局搜索能力,而且是解决整数非线性优化、非线性连续优化和组合优化等问题的有效工具。利用LS-SVM多输入、多输出、非线性的特点,可进一步结合粒子群算法对复杂生产过程进行全局预测优化。在中药糖析出建模相关研究中,以SVM建立相关回归模型,结合多种粒子群算法对其参数进行寻优,解决模型参数较多或范围较大的问题。对山茱萸药材中多个质控指标(水分、浸出物、马钱苷和莫诺苷)的定量分析模型中[42],通过比较基于偏最小二乘回归法(partial least squares regression,PLSR)和人工神经网络(artificial neural networks,ANN)建立的NIR模型,得到PSO-LS-SVM模型能对山茱萸药材质量进行更为精确的控制。除在中药质量控制中的应用外,这种模型还用于建立红花[43]提取过程关键质控指标的定量分析模型。该优势在于避免使计算陷入局部最优,且容易实现,调整参数较少,因此SVM与粒子群算法相结合有可能用于解决中药从药材到制剂的动态迁移过程中Q-marker体系的研究,进一步充实中药Q-marker体系的建立与研究。本文以邵永[44]研究中的多种群粒子群算法(multipopulation particle swarm optimization,MPSO)对SVR模型参数进行优化流程举例,见图3。
2.6 SVM与人工神经网络的结合
在中医药各相关研究领域,SVM和人工神经网络(artificialneural network,ANN)作为数据挖掘算法均有非常广泛的应用。ANN是一种以生物学中神经网络为基本原理,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。其实际上是一个有大量简单节点相互连接传递的复杂网络,能够进行复杂的逻辑运算的系统,具有高度的非线性、非局限性、非定性和非凸性4个基本特征[45]。有研究[46]利用基于SVM(径向基函数与多项式函数2种算法)和ANN [一对多网络(ACON)与一对一网络(OCON)2种结构的网络] 对心血管疾病的中医临床信息和证候类别之间的关系进行分析,建立模型,观察其证候预测的准确性,反映一定的客观规律,实现中医诊断规范化,这也给ANN与SVM结合应用在中医药研究领域提供了参考。
2.7 国外SVM与其他算法结合的研究
目前国外针对SVM的研究很多,根据数据处理难度衍生出很多相关算法的结合,但针对中药方面的先进算法却是少数,抛开各专业局限性,根据分类预测2大核心功能,如能够综合借鉴其优点,将更好地运用在复杂多变的中药领域。关于SVM有几种常见的结合:(1)多实例SVM(MI-SVM)[47]广泛应用于各种实际任务例如药物和图像分析。(2)GA-共轭梯度(CG)-SVM[48]目前用于药物动力学预测及相关毒性预测[49]。(3)特征变换和SVM的联合学习(F-SVM)[50]属于扩展为联合学习非线性变换的分类器,能大幅度提高图像分类性能。(4)PmSVM[51]是一种用于一般非线性核的线性回归SVM框架,实现了最高的学习速度和最高的准确性。前两者在药理学等专业有所应用,后2种方法则是SVM自身做出的改进,相比于SVM,都实现了更为精确的演算。若将其正确的引用至复杂的中医药行业,不离开分类预测的大框架下,必将加快中医药现代化进程。
3 基于SVM的中医药研究新思路
中药质量标准决定着中药的安全性与有效性,完善的质量标准将会促进中医药产业走向现代化[52]。常规使用的中药质量表征方法有薄层色谱法、高效液相色谱法、气相色谱法、近红外光谱法等,但这些分析方法都存在数据集庞大且不明确、特征数据有效关联程度不够等一系列问题,尤其是近红外光谱技术的局限性,对不同类成分的研究缺乏有效分类技术手段,SVM的应用及其他分类算法的多学科交叉融合对中药质量标准研究具有重大指导意义。
中药质量应全面遵循中医药基础理论,应全面包括中药药性、药效、复方配伍及制剂加工等相关内容,才能够支撑中药现代化、规范化研究。鉴于此,结合SVM在中药相关研究领域中的应用,提出以下2种研究思路:(1)基于中药Q-marker概念[53],凭借SVM分类判别算法泛化能力强、分类预测能力强、客观真实且不需要大样本数据支撑等特点,将其融合到中药Q-marker的研究中来,有望获得更精准的Q-marker及相关质量标准,更好地推动Q-marker研究。在元胡止痛片[54]Q-marker鉴别中,以LS-SVM建立成分和功效之间的相关性模型,最终选择了3种成分(四氢巴马汀、羟乙基脯氨酸和欧前胡素)作为最小组合,既可以作为区分伪品的指标成分,又可以作为指示生物活性强度的Q-marker,成功改善该药片的质量控制。为Q-marker结合机器算法这一理念提供了有力证据,也证明基于SVM算法对Q-marker研究是一条行之有效的中药质量控制体系策略。(2)总量统计矩法具有整体、宏观和模糊分析等特点,可以对指纹图谱进行定性定量描述,是一种综合性、可量化的鉴定方法[55]。可在获得总量零、一、二阶矩等有相应意义的总量统计矩参数基础上,进一步运用SVM算法对其进行优化,有望为中药复方制剂加工过程中多成分质量迁移动态规律的研究提供支撑。在总量统计矩现有的参数体系,充分结合现代科学技术,发挥机器算法优势,进一步拓展总量统计矩的应用。
如何建立符合中医药特色的中药质量控制体系一直是中医药走向现代化的关键。SVM作为辅助中药研究的有效手段,其潜力不断被挖掘以提供更精确的数据信息。SVM算法属于有监督模式的化学模式识别方法,为新兴的人工智能技术,理论还在不断完善和发展中,具有巨大的研究潜力。SVM能够对色谱图信息进行数据化处理,使其数据整合后被计算机识别,现有研究表明其预测分类效果优于其他分类算法,为中药现代化研究提供了一个明确的方向。但目前SVM在中医药领域的应用尚存在结构不完善、结果不够精准等问题。如能将该算法与其他更多的专业算法相结合,对其进行优化,将对阐明中医药理论内涵提供逻辑更为精确的技术支持。
参考文献(略)
来 源:杨 岩,肖佳妹,周 晋,贺福元,曾慧杰,杨岩涛. 支持向量机法及其在中药研究中的应用 [J]. 中草药, 2020, 51(8):2258-2266.