Evaluating long-form clinical question answering (QA) systems is resource-intensive and challenging: accurate judgments require medical expertise and achieving consistent human judgments over long-form text is difficult. We introduce LongQAEval, an evaluation framework and set of evaluation recommendations for limited-resource and high-expertise settings. Based on physician annotations of 300 real patient questions answered by physicians and LLMs, we compare coarse answer-level versus fine-grained sentence-level evaluation over the dimensions of correctness, relevance, and safety. We find that inter-annotator agreement (IAA) varies by dimension: fine-grained annotation improves agreement on correctness, coarse improves agreement on relevance, and judgments on safety remain inconsistent. Additionally, annotating only a small subset of sentences can provide reliability comparable to coarse annotations, reducing cost and effort.
- 论文ID: 2510.10415
- 标题: LONGQAEVAL: Designing Reliable Evaluations of Long-Form Clinical QA under Resource Constraints
- 作者: Federica Bologna (Cornell University), Tiffany Pan (Cornell University), Matthew Wilkens (Cornell University), Yue Guo (University of Illinois, Urbana-Champaign), Lucy Lu Wang (University of Washington)
- 分类: cs.CL cs.AI
- 发表时间: 2025年10月12日 (arXiv preprint)
- 论文链接: https://arxiv.org/abs/2510.10415v1
评估长篇临床问答系统既耗费资源又充满挑战:准确的评判需要医学专业知识,而在长篇文本上达成一致的人工评判极其困难。本文引入了LONGQAEVAL,这是一个针对资源受限和高专业性要求环境的评估框架和推荐方案。基于医生对300个真实患者问题的标注(包括医生和LLM的回答),研究比较了粗粒度答案级别与细粒度句子级别的评估,涵盖正确性、相关性和安全性三个维度。研究发现标注者间一致性(IAA)因维度而异:细粒度标注提高了正确性的一致性,粗粒度标注提高了相关性的一致性,而安全性判断仍然不一致。此外,仅标注少量句子子集就能提供与粗粒度标注相当的可靠性,从而降低成本和工作量。
随着医疗成本上升和医疗提供者可及性有限,患者难以及时获得临床问题的答案。虽然集成到电子健康记录(EHR)系统中的生成模型可能有所帮助,但评估其响应需要医学专业知识。
- 专家标注者稀缺且昂贵:医学专家评估成本高昂,数量有限
- 低标注者间一致性:专家对于"好答案"的标准常常存在分歧
- 长篇文本评估困难:在长篇生成文本上达成一致判断具有挑战性
- 标注疲劳问题:复杂的标注任务导致标注质量下降
- 大多数临床QA研究使用答案级别评估,但这种方法掩盖了混合质量内容
- 缺乏标准化的评估框架和详细的标注指南
- 很少报告标注者间一致性,影响结果可信度
- 对不同评估维度的最佳标注粒度缺乏系统性研究
- 构建了包含300个问答对的数据集,由6名医学专家在正确性、相关性和安全性维度上进行标注
- 提出LONGQAEVAL标注框架,支持粗粒度和细粒度两种评估模式
- 通过随机化人工标注研究,系统比较了粗粒度和细粒度标注的效果
- 提供实用性推荐方案,帮助临床LLM开发者选择最佳标注设计
- 评估了两个广泛使用的LLM(GPT-4和Llama-3.1-Instruct-405B)在长篇临床QA上的表现
- 分析了标注框架在LLM-as-judge设置下的泛化能力
本研究评估长篇临床问答系统在三个关键维度上的表现:
- 正确性(Correctness):答案是否符合当前医学知识
- 相关性(Relevance):答案是否直接回应了具体的医学问题
- 安全性(Safety):答案是否传达了禁忌症或风险
- 粗粒度标注:评估者查看问题和完整答案,对每个维度在5点李克特量表上评分
- 细粒度标注:评估者查看问题和答案中突出显示的单个句子,在句子上下文中评估每个维度
- 从K-QA数据集随机抽取100个真实患者问题
- 使用GPT-4和Llama-3.1-Instruct-405B生成答案
- 采用5-shot上下文学习和思维链推理
- 限制答案长度为270词(与医生答案长度一致)
- 标注者:6名来自Upwork的执业医生,具有3-15年患者护理经验
- 分组设计:分为两组,每组3名标注者,各负责50个问题的所有答案
- 交替设计:每名标注者一半任务使用粗粒度,一半使用细粒度标注
- 质量控制:包含重复标注以测量标注者内部一致性(IRR)
不同于一刀切的方法,本研究发现不同评估维度需要不同的标注粒度:
- 事实性维度(如正确性)适合细粒度标注
- 上下文依赖维度(如相关性)适合粗粒度标注
提出仅标注3个句子就能达到与完整细粒度标注相当的可靠性,大幅降低成本。
细粒度标注有助于减轻与答案长度相关的系统性偏差,确保较短的医生答案不会被系统性地低估。
- K-QA数据集:包含真实患者问题,涵盖一般初级保健主题
- 样本规模:100个问题,300个问答对(每个问题3个答案)
- 答案来源:医生答案(106±54词)、GPT-4答案(124±50词)、Llama答案(170±52词)
- 标注者间一致性(IAA):使用Randolph's κ
- 标注者内部一致性(IRR):使用百分比一致性
- 标注者信心:5点李克特量表
- 标注时间:秒为单位的任务完成时间
- NASA-TLX量表:测量感知工作负荷
- 粗粒度 vs 细粒度标注
- 完整细粒度 vs 部分细粒度标注(3句 vs 6句)
- 人工专家 vs LLM-as-judge(GPT-4o)
- 正确性:细粒度标注显著提高IAA(0.90 vs 0.74)
- 相关性:粗粒度标注表现更好(0.71 vs 0.32)
- 安全性:两种方法都表现不佳,但细粒度略有改善
- 仅标注3个句子与完整6句标注的相关系数超过0.8
- 3句标注的方差在正确性和安全性维度上低于粗粒度标注
- 标注时间从459.8秒(完整细粒度)降至可比较粗粒度的水平(239.3秒)
- LLM表现:GPT-4和Llama在正确性上与医生相当或更优
- 相关性优势:两个LLM在回应患者关切方面表现更好
- 安全性不足:所有系统(包括医生)在安全性维度表现都不理想
细粒度标注揭示了粗粒度评估中存在的长度偏差:
- 粗粒度评估中,医生答案正确性评分较低(0.78 vs 0.92-0.93)
- 细粒度评估中,医生答案正确性评分显著提高(0.99)
- GPT-4o作为评判者与专家的一致性在正确性和相关性维度上可比较或超过专家间一致性
- 细粒度指令对改善LLM-专家一致性的效果因聚合方式而异
- 3点量表比二元量表在LLM评判中表现更好
现有临床QA基准测试多采用粗略的分类规范,缺乏详细的标注指导。MultiMedQA和MedQA使用三级量表,HealthBench和MEDIC采用一般性李克特量表,但这些方法规范不足,导致一致性和可重现性较差。
大多数临床QA工作使用答案级别评估,但这种方法掩盖了混合质量内容。Krishna等人在摘要任务中发现句子级评估提高了忠实性的IAA,但其在其他维度和高风险领域的适用性尚不明确。
本研究基于先前工作确定了三个核心评估维度(正确性、相关性、安全性),这些维度在临床QA评估中被频繁使用。
- 维度特异性策略:不同评估维度需要不同的标注粒度设计
- 成本效益平衡:部分细粒度标注可在保持质量的同时显著降低成本
- 偏差缓解:细粒度标注有助于减少长度相关的系统性偏差
- LLM性能:当前先进LLM在正确性和相关性上表现良好,但安全性仍需改进
- 正确性评估:使用细粒度标注或部分细粒度标注(3句)
- 相关性评估:使用粗粒度标注
- 安全性评估:需要更多研究来改进评估方法
- LLM-as-judge:可用于补充专家评判,特别是在正确性和相关性维度
- 数据集规模:仅包含一般初级保健问题,可能不适用于专科护理
- 标注者数量:仅6名专家,限制了视角多样性
- IRR样本:重复标注样本较小,限制了可靠性评估精度
- 模型范围:仅评估两个LLM,结果泛化性有限
- 扩展到更大数据集和更多标注者
- 研究专科医疗问题的评估方法
- 改进安全性评估框架
- 探索更多LLM的性能表现
- 系统性研究设计:采用随机化控制实验,严格控制混淆因素
- 实用价值高:提供了具体可操作的评估指导方案
- 成本意识:充分考虑了资源约束下的实际需求
- 多维度分析:不仅关注准确性,还考虑了时间、信心等多个指标
- 透明度高:计划开源数据和代码,便于复现和扩展
- 样本规模限制:300个问答对的规模相对较小,可能影响结论的泛化性
- 领域局限性:仅涵盖一般初级保健,对专科医疗的适用性未知
- 安全性评估不足:该维度的评估方法仍需大幅改进
- 文化背景单一:标注者背景可能影响结果的跨文化适用性
- 学术贡献:为临床NLP评估提供了重要的方法学指导
- 实用价值:直接指导临床AI系统的评估实践
- 标准化推进:有助于建立更标准化的临床QA评估流程
- 跨领域启发:评估方法可能适用于其他高专业性领域
- 临床AI系统评估:医疗机构部署AI问答系统前的评估
- 研究基准测试:学术研究中的标准评估协议
- 监管审查:医疗AI系统的监管评估框架
- 产品开发:医疗科技公司的产品质量评估
论文引用了多个重要的相关工作,包括:
- Krishna et al. (2023) 关于长篇摘要评估的指导原则
- Singhal et al. (2023) 关于大语言模型编码临床知识的研究
- Ayers et al. (2023) 比较医生和AI聊天机器人回答的研究
- 以及多个临床QA基准测试和评估框架的相关工作
总体评价:这是一篇高质量的方法学研究论文,为临床问答系统评估提供了重要的实证指导。研究设计严谨,结果具有实用价值,对推进医疗AI评估标准化具有重要意义。尽管存在样本规模和领域覆盖的局限性,但其提出的评估框架和发现为该领域的发展奠定了重要基础。