详情页 - 首都医科大学宣武医院知识库

当前位置：首页 > 详情页

大语言模型智能化检测头颈部CT血管成像影像报告质量的对比研究

Intelligent head and neck CT angiography report quality detection using large language models

1| 认领 | 导出 | 链接全文 |

文献详情

资源类型：

收录情况： ◇ 统计源期刊 ◇ 北大核心 ◇ CSCD-C ◇ 卓越：领军期刊 ◇ 中华系列

作者：

机构： [1]首都医科大学宣武医院放射与核医学科　磁共振成像脑信息学北京市重点实验室，北京　100053 [2]首都医科大学宣武医院信息中心，北京　100053

出处：

DOI：

ISSN：

关键词： 体层摄影术 X线计算机大语言模型影像报告质量控制自然语言处理

摘要：

目的:利用GPT-4、DeepSeek、文心一言、讯飞星火4种大语言模型（LLM）识别头颈部CT血管成像（CTA）影像报告常见错误，评估利用现有LLM辅助中文影像报告质量控制的可行性。方法:本研究为横断面研究，采用简单随机抽样方法抽取2023年首都医科大学宣武医院1 000份头颈部CTA影像报告（500份初级影像报告，500份完成影像报告）。由2名医师协商检测报告中6类错误，包括描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误，并采用李克特5分量表分析法对报告质量进行整体评分。再利用GPT-4、DeepSeek、文心一言、讯飞星火模型分别检测影像报告中的6类错误，并进行整体评分。以人工审核结果为金标准，计算F1值对模型性能进行评价，采用组内相关系数（ ICC）对人工和4种LLM的整体评分进行一致性评估。结果:在初级影像报告中，人工检测描述错误、书写错误、左右混淆错误、诊断遗漏错误、逻辑语序错误和其他错误的比例分别为2.6%（13/500）、0.6%（3/500）、0、6.4%（32/500）、5.2%（26/500）和0；完成影像报告6类错误的比例分别为0.2%（1/500）、0、0、0、0和0.2%（1/500）。在对初级影像报告的检测中，GPT-4检测6类错误类型的F1值分别为0.992、0.997、0.997、0.967、0.980、0.992；DeepSeek分别为0.980、0.955、0.981、0.920、0.995、0.960；文心一言分别为0.982、0.990、1.000、0.956、0.976、0.999；讯飞星火分别为0.985、0.995、1.000、0.961、0.982、1.000。在对完成影像报告的检测中，GPT-4检测6类错误类型的F1值分别为0.994、0.995、0.998、0.973、0.989、0.993；DeepSeek分别为0.968、0.965、0.985、0.971、0.991、0.983；文心一言分别为0.996、0.992、1.000、0.983、0.999、0.997；讯飞星火分别为0.999、0.999、1.000、1.000、1.000、0.999。GPT-4、DeepSeek、讯飞星火模型与人工评分一致性中等， ICC分别为0.514、0.560、0.515（ P均0.001）；文心一言的整体评分与人工评分一致性差， ICC为0.221（ P0.001）。结论:LLM在头颈部CTA影像报告错误检出方面具有较高的准确率，对报告质量的整体评分与人工评分一致性中等，对智能化报告质量控制具有一定的可行性。

基金：

语种：

第一作者：

第一作者机构： [1]首都医科大学宣武医院放射与核医学科　磁共振成像脑信息学北京市重点实验室，北京　100053

通讯作者：

推荐引用方式(GB/T 7714)：

大语言模型智能化检测头颈部CT血管成像影像报告质量的对比研究

Intelligent head and neck CT angiography report quality detection using large language models

文献详情

相关文献