当前位置: 首页 > 详情页

大语言模型智能化检测头颈部CT血管成像影像报告质量的对比研究

Intelligent head and neck CT angiography report quality detection using large language models

文献详情

资源类型:

收录情况: ◇ 统计源期刊 ◇ 北大核心 ◇ CSCD-C ◇ 卓越:领军期刊 ◇ 中华系列

机构: [1]首都医科大学宣武医院放射与核医学科 磁共振成像脑信息学北京市重点实验室,北京 100053 [2]首都医科大学宣武医院信息中心,北京 100053
出处:
ISSN:

关键词: 体层摄影术 X线计算机 大语言模型 影像报告 质量控制 自然语言处理

摘要:
目的:利用GPT-4、DeepSeek、文心一言、讯飞星火4种大语言模型(LLM)识别头颈部CT血管成像(CTA)影像报告常见错误,评估利用现有LLM辅助中文影像报告质量控制的可行性。方法:本研究为横断面研究,采用简单随机抽样方法抽取2023年首都医科大学宣武医院1 000份头颈部CTA影像报告(500份初级影像报告,500份完成影像报告)。由2名医师协商检测报告中6类错误,包括描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误,并采用李克特5分量表分析法对报告质量进行整体评分。再利用GPT-4、DeepSeek、文心一言、讯飞星火模型分别检测影像报告中的6类错误,并进行整体评分。以人工审核结果为金标准,计算F1值对模型性能进行评价,采用组内相关系数( ICC)对人工和4种LLM的整体评分进行一致性评估。 结果:在初级影像报告中,人工检测描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误的比例分别为2.6%(13/500)、0.6%(3/500)、0、6.4%(32/500)、5.2%(26/500)和0;完成影像报告6类错误的比例分别为0.2%(1/500)、0、0、0、0和0.2%(1/500)。在对初级影像报告的检测中,GPT-4检测6类错误类型的F1值分别为0.992、0.997、0.997、0.967、0.980、0.992;DeepSeek分别为0.980、0.955、0.981、0.920、0.995、0.960;文心一言分别为0.982、0.990、1.000、0.956、0.976、0.999;讯飞星火分别为0.985、0.995、1.000、0.961、0.982、1.000。在对完成影像报告的检测中,GPT-4检测6类错误类型的F1值分别为0.994、0.995、0.998、0.973、0.989、0.993;DeepSeek分别为0.968、0.965、0.985、0.971、0.991、0.983;文心一言分别为0.996、0.992、1.000、0.983、0.999、0.997;讯飞星火分别为0.999、0.999、1.000、1.000、1.000、0.999。GPT-4、DeepSeek、讯飞星火模型与人工评分一致性中等, ICC分别为0.514、0.560、0.515( P均0.001);文心一言的整体评分与人工评分一致性差, ICC为0.221( P0.001)。 结论:LLM在头颈部CTA影像报告错误检出方面具有较高的准确率,对报告质量的整体评分与人工评分一致性中等,对智能化报告质量控制具有一定的可行性。

基金:
语种:
第一作者:
第一作者机构: [1]首都医科大学宣武医院放射与核医学科 磁共振成像脑信息学北京市重点实验室,北京 100053
通讯作者:
推荐引用方式(GB/T 7714):

资源点击量:18243 今日访问量:0 总访问量:1002 更新日期:2025-11-01 建议使用谷歌、火狐浏览器 常见问题

版权所有©2020 首都医科大学宣武医院 技术支持:重庆聚合科技有限公司 地址:北京市西城区长椿街45号宣武医院