利用文本挖掘实现高温合金科技文献数据的自动抽取 | npj Computational Materials

vlambda
2022-02-13

利用文本挖掘实现高温合金科技文献数据的自动抽取 | npj Computational Materials

数据驱动的材料研发正在变革传统的试错法研发模式。材料科学知识以自然语言为载体，通过科学文献进行发布与传承，充分挖掘材料科学文献宝藏并自动抽取潜在有用的信息与知识，可为数据驱动的材料设计和研发提供源头活水。近期，北京科技大学谢建新院士团队和美国Lookman教授联合在npj Computational Materials上发表了他们的研究结果Automated pipeline for superalloy data by text mining，该团队自主研发了一套材料科学文献数据自动挖掘流水线（见图1），自动抽取高温合金成分和性能数据，并实现了数据驱动的高温合金成分设计。该流水线具有优异的泛化能力，在高熵合金等金属结构材料数据抽取任务中成功应用。

图1：科技文献数据自动挖掘流水线原理图。流水线包括文献获取、语料预处理、表格解析、文本分类、命名实体识别、表格与文本实体关系抽取和数据依赖解析，最终形成结构化材料数据库。

该团队提出了适用于小样本科技文献语料限制的材料命名实体识别方法和启发式多关系抽取算法，突破了模型训练语料有限的局限，同时实现了准确率和召回率的大幅提高。在3个小时内，该流水线从14425篇高温合金文献的文本和表格中，自动抽取出2531条同时含有文献DOI、合金名称、化学元素、元素含量、合金性能名称和性能值等信息的结构化数据，合金性能涵盖了γ′相溶解温度、密度、固相线和液相线温度。高温合金命名实体识别F1评分达92.07%，显著超过基于双向长短时记忆神经网络和条件随机场（BiLSTM-CRF）的机器学习模型（F1评分55.54%）。启发式多关系抽取算法不需人工语料标记，在γ′相溶解温度的关系抽取中F1评分达79.37%，高于“Snowball”和改进后的“Snowball”算法（F1评分分别为33.21%和43.28%）。表格解析工具的F1评分达95.23%，可实现基于HTML和XML的文献表格数据自动抽取。为验证自动抽取数据的有效性，该团队基于抽取的2020年以前发表的文献数据，建立γ′相溶解温度机器学习预测模型，以2.27%的相对误差成功预测出2020年以后报道的15个高温合金的γ′相溶解温度。利用该模型预测出γ′相溶解温度高于1250℃的钴基高温合金Co-36Ni-12Al-2Ti-1W-4Ta-4Cr，Co-36Ni-12Al-2Ti-1W-4Ta-6Cr和Co-12Al-4.5Ta-35Ni-2Ti，并经过实验验证，γ′相溶解温度预测值和实验值的相对误差仅为0.81%（见图2）。证明了该文献数据自动挖掘流水线的有效性和抽取数据的准确性，为数据驱动的高温合金的设计与开发提供了数据资源。

图2：γ′相溶解温度预测模型及新型钴基高温合金的预测结果。（a）抽取得到的部分高温合金γ′相溶解温度分布；（b）γ′相溶解温度机器学习模型的选择；（c）模型在训练集、验证集和测试集上的效果；（d）模型对2020年以后新报道的15个高温合金的预测结果；（e-g）基于机器学习模型设计出的三个合金微观结构和DSC曲线

此流水线源代码已开源（https://github.com/MGEdata/SuperalloyDigger），欢迎引用和使用。同时，通过重新生成性能词典和替换命名实体识别规则，修改源代码配置文件信息，即可用于其他领域科技文献数据抽取任务的快速迁移与应用，该团队成功将该流水线用于高熵合金硬度数据的自动抽取（https://github.com/MGEdata/Superalloydigger_HEAs_use_case）。同时，团队还开发了在线Web应用工具（http://SuperalloyDigger.mgedata.cn），有关本工作的源代码、流水线功能和词向量模型等信息，可前往网站进行阅读与体验。

©Nature

npj Computational Materials | doi: 10.1038/s41524-021-00687-2

点击“阅读原文”查看论文原文：

Automated pipeline for superalloy data by text mining

vlambda博客
学习文章列表