人工智能的全自动喉镜图像识别系统初探

vlambda
2020-11-16

人工智能的全自动喉镜图像识别系统初探

人工智能的全自动喉镜

图像识别系统初探

最近我们团队发表在国际权威杂志

《laryngoscope》上的一篇文章，

描述了我们在喉镜领域人工智能诊断的尝试。

今天，

罩爸来给大家聊聊这是一个什么样的研究。。。。

背景回顾

▼

人工智能是一门集生物学、计算机科学、数学、神经科学等多个领域于一体的交叉学科，指经由人工研发智能机器或系统来模拟、延伸和增幅人的智能，实现相对独立的智能行为。目前人工智能正在以惊人的速度渗透医学领域，深度学习技术作为人工智能实现的主要技术，在图像识别领域显示出了超越人类的准确性和速度，在糖尿病眼底病变、肺结节、消化道早癌、鼻咽癌及慢性鼻窦炎等多个专科领域的医疗辅助诊断中取得长足发展，已经吸引了成千上万的医疗机构、跨国公司和创业公司投入研发和商业化，然而其在喉镜领域的应用鲜有人涉足。

图1.全球人工智能相关医药企业概览

图2.耳鼻喉领域人工智能辅助诊断发展现状

到目前为止，喉镜的发展已经历经了270多年的时光。早在1743年，Leveret 借助金属反光间接喉镜看到了人鼻咽部，预示人类喉镜历史的开始，到1895年最早的直镜片喉镜诞生，再到1943年出现的Macintosh 弯镜片喉镜并沿用至今，喉镜技术的发展之路漫长而曲折。而从上世纪末开始，随着现代科技的腾飞，喉镜技术的更新日新月异，纤维软镜、纤维硬镜、视频喉镜的相继出现为咽喉相关疾病的诊断和治疗带来了新的机遇。

图3.喉镜发展历程

但新的机遇往往也伴随着新的挑战，喉部病变，尤其是喉部早癌的内镜下识别要求医生掌握坚实的理论基础以及丰富的临床实践经验，如何做到快速准确地诊断给基层医生及年轻医生带来了极大的考验，而借助人工智能实现自动化喉镜图像识别将极大地节约医疗资源并提高诊断可靠性。基于此现状，四川大学华西医院耳鼻咽喉头颈外科赵宇教授团队与川大电气工程学院郑秀娟教授团队合作研发出的一种基于深度学习的自动化喉镜图像识别系统已于近日发表在喉镜领域的权威杂志《Laryngoscope》上。

图4. 自动化喉镜图像识别系统模式图

方法学

研究对象及各个功能子集的划分

该研究收集了来自2012至2017年间于四川大学华西医院就诊的9231名患者的24,667张高清喉镜图像，基于病理诊断将喉部新生物类图像分别标记为喉部息肉、喉部白斑和喉部恶性肿瘤，基于专家团人工标记将无病理学诊断结果的图像分别标记为正常图像和声带小结，随后将标记好的喉镜图像总集划分为三个图像子集，分别为用于进行模型训练的训练子集（14,340张），用于模型参数校正的校正子集（5,093张）和用于检验模型识别效能的测试子集（5,234张）。此外，研究者还从测试集中随机选取了500张图像用于对比人工智能模型和由12名咽喉领域不同级别专家组成的专家团对喉镜图像的识别准确度。

图5.总研究流程图

图6.五种类型的喉镜图像概览(A) 正常 (B) 声带小结 (C) 声带白斑 (D) 息肉 (E) 恶性肿瘤

图7.图像数据集划分

建立基于卷积神经网络的

人工智能模型

ResNet-101预训练模型与迁移学习

迁移学习是一种机器学习方法，就是把为任务一开发的模型一作为初始点，重新使用在为任务二开发的模型二的过程，通过选取模型一做为预训练模型，在训练模型二时，我们可以不从零开始训练，而是基于在任务一上获得的知识再进行训练，从而大大缩短训练时间并降低对样本数量的要求。本研究选取的预训练模型为微软ResNet-101模型，它是在非迁移学习模式下通过使用含12000000张1000种不同类别图片的数据集反复训练而得到的人工智能模型，具有优异的视觉表示能力和泛化性能。以已具备极佳自然图像识别分类能力的ResNet-101模型为基础，拟建立起专精于喉镜图像识别分类的智能模型。

图8.迁移学习概念图

人工智能喉镜图像自动化识别模型的训练、校正及测试

本研究利用双重Resnet网络的组合构建人工智能模型，14,340张喉镜图像数据总集被用于对Resnet1进行训练，同时总图像数据集中的新生物图像数据子集被用于对Resnet2进行训练，随后将两个网络进行先后组合，Resnet1负责为图像分别打上正常、声带小结、新生物和白斑的标签，其中被标记为新生物的图像被输入Resnet2中进一步辨别良恶性，从而最终输出为五分类结果。Resnet模型的不同卷积层分别用来提取图像不同层次的特征。例如，浅层的卷积层被用来提取图像的浅层特征，比如：角点、纹理、明亮等；深层的卷积层提取的是图像更为抽象的特征，比如：粘膜、皱襞、声带等，而全连接层，用来对已学得的特征进行组合，从而学会了如何分辨新生物、声带小结和白斑等。在训练过程中研究者对图像的亮度、对比度和识别角度等进行了随机调整，加大数据训练难度的同时提高了模型识别的准确度，同时在图像语义分割中使用了加权交叉熵损失函数平衡了每类图像的被学习的像素数，以达到模型对每类图像的平等学习。随后基于校正子集中的喉镜图像进一步对训练完成的人工智能模型进行参数校正，优化性能的同时避免过度拟合。校正完成的人工智能模型将独立地对测试子集中的喉镜图像进行识别分类，研究者将基于测试结果对模型的识别分类能力进行全面的评估。

图9.双重组合Resnet网络示意图

人工智能模型与喉镜领域专家团的识别分类能力的对比

研究者们从测试子集中随机挑选出500张喉镜图像，让人工智能模型和专家团分别对这500张喉镜图像进行独立识别分类，随后对两者的识别分准确度进行评估和对比。

主要成果

人工智能模型的识别分类能力评估

该模型对于喉镜图像识别的总体准确率高达96.24%！！！其中，识别白斑的灵敏度和特异度分别为92.78%和98.95%，ROC曲线下面积为0.9975；识别息肉的灵敏度和特异度分别为97.30%和99.67%，ROC曲线下面积为0.9972；识别恶性肿瘤的灵敏度和特异度分别为88.95%和98.29%，ROC曲线下面积为0.9956；识别白斑的灵敏度和特异度分别为99.02%和99.36%，ROC曲线下面积为0.9991；识别白斑的灵敏度和特异度分别为97.15%和99.09%，ROC曲线下面积为0.9976。该模型对于五种类型图像识别的灵敏度和特异度均超过90%，对正常组织的识别准确率几乎为100%！！！！

图10.人工智能模型识别不同类型喉镜图像的ROC曲线

人工智能模型VS咽喉领域专家团

研究同时在测试子集中随机选取了500张图像组成新的图片数据集对人工智能识别系统和12人专家团进行图像识别准确率的比拼，结果显示人工智能识别系统在所有类别病变的喉镜图像识别上展现出了远超人类专家的准确度和速度（总体准确度94% vs.62%;声带小结98% vs.45%;息肉91% vs.86%;白斑91% vs.65%;恶性肿瘤90% vs.54%）。