当前位置: 首页 > 详情页

基于《药物不良反应杂志》病例报告数据集的语义信息检索研究

Semantic information retrieval based on the case report dataset of Adverse Drug Reactions Journal

文献详情

资源类型:

收录情况: ◇ 统计源期刊 ◇ CSCD-E ◇ 中华系列

机构: [1]首都医科大学宣武医院信息中心,北京 100053 [2]北京工业大学信息学部,北京 100124 [3]首都医科大学宣武医院医务处,北京 100053 [4]首都医科大学宣武医院药学部,北京 100053
出处:
ISSN:

关键词: 信息存储和检索 病例报告 数据库 语义检索 关键词检索 深度学习

摘要:
目的:基于《药物不良反应杂志》病例报告数据集,探索语义信息检索(语义检索)的应用价值。方法:本研究所用数据集由《药物不良反应杂志》1999至2022年发表的共计2 597篇病例报告的PDF文件构成。语义检索系统基于百度飞浆(PaddlePaddle)的深度学习框架搭建,代码用Python语言书写,文本编码模型为百度RocketQA模型。采用排名前k位文档的精确率(P@k)、召回率(R@k)、平均排序倒数(MRR)、平均精度均值(MAP)及精确率-召回率(P-R)曲线对语义检索的效果进行评价。本研究通过计算语义检索和关键词匹配检索的召回率,对2种方式的检索效果进行比较。结果:预处理后题目字段作为待检索对象(item)的集合包含2 597个文档;去重整理后检索词(query)的集合包含药品名称1 388条,不良反应/事件1 118条。以药品名称和不良反应/事件为检索词进行语义检索的精确率分别为0.667~1和0.566~1,召回率分别为0.667~0.871和0.566~0.863;采用药品名称和不良反应/事件检索词进行语义检索结果中排名前1、3、5和10文档的P-R曲线显示,随着召回率的升高,排名前1、3的精确率下降趋势较缓,排名前5、10的精确率下降趋势明显。2类检索词的MRR分别为0.854和0.871,MAP分别为0.778和0.773。以不良反应/事件为检索词,语义检索的召回率高于关键词匹配检索;以药品名称为检索词,关键词匹配检索的召回率总体高于语义检索。结论:基于百度飞浆深度学习框架搭建的语义检索系统对于《药物不良反应杂志》病例报告数据集的检索性能良好。语义检索与关键词匹配检索相比,以不良反应/事件为检索词时语义检索的检索效果较好,以药品名称为检索词时关键词匹配检索效果较好。

基金:
语种:
第一作者:
第一作者机构: [1]首都医科大学宣武医院信息中心,北京 100053
通讯作者:
推荐引用方式(GB/T 7714):

资源点击量:16409 今日访问量:0 总访问量:869 更新日期:2025-01-01 建议使用谷歌、火狐浏览器 常见问题

版权所有©2020 首都医科大学宣武医院 技术支持:重庆聚合科技有限公司 地址:北京市西城区长椿街45号宣武医院