资源类型:
收录情况:
◇ 统计源期刊
◇ 北大核心
◇ CSCD-C
◇ 卓越:领军期刊
◇ 中华系列
文章类型:
机构:
[1]首都医科大学宣武医院放射与核医学科 磁共振成像脑信息学北京市重点实验室,北京 100053
医技科室
科技平台
核医学科
磁共振成像脑信息学北京市重点实验室
首都医科大学宣武医院
[2]首都医科大学宣武医院信息中心,北京 100053
职能部门
信息中心
首都医科大学宣武医院
出处:
ISSN:
关键词:
体层摄影术
X线计算机
大语言模型
影像报告
质量控制
自然语言处理
摘要:
目的:利用GPT-4、DeepSeek、文心一言、讯飞星火4种大语言模型(LLM)识别头颈部CT血管成像(CTA)影像报告常见错误,评估利用现有LLM辅助中文影像报告质量控制的可行性。方法:本研究为横断面研究,采用简单随机抽样方法抽取2023年首都医科大学宣武医院1 000份头颈部CTA影像报告(500份初级影像报告,500份完成影像报告)。由2名医师协商检测报告中6类错误,包括描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误,并采用李克特5分量表分析法对报告质量进行整体评分。再利用GPT-4、DeepSeek、文心一言、讯飞星火模型分别检测影像报告中的6类错误,并进行整体评分。以人工审核结果为金标准,计算F1值对模型性能进行评价,采用组内相关系数(
ICC)对人工和4种LLM的整体评分进行一致性评估。
结果:在初级影像报告中,人工检测描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误的比例分别为2.6%(13/500)、0.6%(3/500)、0、6.4%(32/500)、5.2%(26/500)和0;完成影像报告6类错误的比例分别为0.2%(1/500)、0、0、0、0和0.2%(1/500)。在对初级影像报告的检测中,GPT-4检测6类错误类型的F1值分别为0.992、0.997、0.997、0.967、0.980、0.992;DeepSeek分别为0.980、0.955、0.981、0.920、0.995、0.960;文心一言分别为0.982、0.990、1.000、0.956、0.976、0.999;讯飞星火分别为0.985、0.995、1.000、0.961、0.982、1.000。在对完成影像报告的检测中,GPT-4检测6类错误类型的F1值分别为0.994、0.995、0.998、0.973、0.989、0.993;DeepSeek分别为0.968、0.965、0.985、0.971、0.991、0.983;文心一言分别为0.996、0.992、1.000、0.983、0.999、0.997;讯飞星火分别为0.999、0.999、1.000、1.000、1.000、0.999。GPT-4、DeepSeek、讯飞星火模型与人工评分一致性中等,
ICC分别为0.514、0.560、0.515(
P均0.001);文心一言的整体评分与人工评分一致性差,
ICC为0.221(
P0.001)。
结论:LLM在头颈部CTA影像报告错误检出方面具有较高的准确率,对报告质量的整体评分与人工评分一致性中等,对智能化报告质量控制具有一定的可行性。
第一作者:
第一作者机构:
[1]首都医科大学宣武医院放射与核医学科 磁共振成像脑信息学北京市重点实验室,北京 100053
通讯作者:
推荐引用方式(GB/T 7714):
田莉萍,费晓璐,宋丹,等.大语言模型智能化检测头颈部CT血管成像影像报告质量的对比研究[J].中华放射学杂志.2025,59(10):1118-1125.