资源类型:
收录情况:
◇ 统计源期刊
◇ CSCD-E
◇ 中华系列
文章类型:
机构:
[1]首都医科大学宣武医院信息中心,北京 100053
职能部门
信息中心
首都医科大学宣武医院
[2]北京工业大学信息学部,北京 100124
[3]首都医科大学宣武医院医务处,北京 100053
职能部门
医务处
首都医科大学宣武医院
[4]首都医科大学宣武医院药学部,北京 100053
医技科室
药学部
首都医科大学宣武医院
出处:
ISSN:
关键词:
信息存储和检索
病例报告
数据库
语义检索
关键词检索
深度学习
摘要:
目的:基于《药物不良反应杂志》病例报告数据集,探索语义信息检索(语义检索)的应用价值。方法:本研究所用数据集由《药物不良反应杂志》1999至2022年发表的共计2 597篇病例报告的PDF文件构成。语义检索系统基于百度飞浆(PaddlePaddle)的深度学习框架搭建,代码用Python语言书写,文本编码模型为百度RocketQA模型。采用排名前k位文档的精确率(P@k)、召回率(R@k)、平均排序倒数(MRR)、平均精度均值(MAP)及精确率-召回率(P-R)曲线对语义检索的效果进行评价。本研究通过计算语义检索和关键词匹配检索的召回率,对2种方式的检索效果进行比较。结果:预处理后题目字段作为待检索对象(item)的集合包含2 597个文档;去重整理后检索词(query)的集合包含药品名称1 388条,不良反应/事件1 118条。以药品名称和不良反应/事件为检索词进行语义检索的精确率分别为0.667~1和0.566~1,召回率分别为0.667~0.871和0.566~0.863;采用药品名称和不良反应/事件检索词进行语义检索结果中排名前1、3、5和10文档的P-R曲线显示,随着召回率的升高,排名前1、3的精确率下降趋势较缓,排名前5、10的精确率下降趋势明显。2类检索词的MRR分别为0.854和0.871,MAP分别为0.778和0.773。以不良反应/事件为检索词,语义检索的召回率高于关键词匹配检索;以药品名称为检索词,关键词匹配检索的召回率总体高于语义检索。结论:基于百度飞浆深度学习框架搭建的语义检索系统对于《药物不良反应杂志》病例报告数据集的检索性能良好。语义检索与关键词匹配检索相比,以不良反应/事件为检索词时语义检索的检索效果较好,以药品名称为检索词时关键词匹配检索效果较好。
基金:
国家重点研发计划重点专项(2020YFC2005505,2020YFC2005503)
第一作者:
第一作者机构:
[1]首都医科大学宣武医院信息中心,北京 100053
通讯作者:
推荐引用方式(GB/T 7714):
肖雅艺,雷毅,王欣,等.基于《药物不良反应杂志》病例报告数据集的语义信息检索研究[J].药物不良反应杂志.2024,26(3):170-177.