《自然》杂志上发表的一篇论文提出了评估大型语言模型 (LLM) 回答医学问题的能力的基准。这项来自 Google Research 的研究还介绍了 Med-PaLM,这是一种专门针对医学领域的法学硕士。然而,作者指出,在法学硕士能够用于临床应用之前,必须克服许多限制。
人工智能 (AI) 模型在医学中具有潜在用途,包括知识检索和临床决策支持。然而,现有模型可能会产生令人信服的医疗错误信息,或包含可能加剧健康差异的偏见。因此,需要评估他们的临床知识。然而,这些评估通常依赖于有限基准的自动评估,例如个人医学测试的分数,这可能无法转化为现实世界的可靠性或价值。
为了评估法学硕士对临床知识的编码程度,Karan Singhal、Shekoofeh Azizi、Tao Tu、Alan Karthikesalingam、Vivek Natarajan 及其同事考虑了这些模型回答医学问题的能力。
作者提出了一个名为 MultiMedQA 的基准,它结合了涵盖专业医学、研究和消费者查询的六个现有问答数据集,以及 HealthSearchQA,这是一个包含 3,173 个常见在线搜索医学问题的新数据集。
然后,作者评估了 PaLM(一个 5400 亿参数的 LLM)及其变体 Flan-PaLM 的性能。他们发现 Flan-PaLM 在多个数据集上实现了最先进的性能。在包含美国医疗执照答案 式问题的 MedQA 数据集上,FLAN-PaLM 超过了之前最先进的法学硕士 17% 以上。然而,虽然 FLAN-PaLM 在多项选择题上表现良好,但人类评估却揭示了其对消费者医疗问题的长式答案中的差距。
为了解决这个问题,作者使用了一种称为指令提示调整的技术来进一步使 Flan-PaLM 适应医学领域。引入指令提示调整作为将通才法学硕士与新专业领域保持一致的有效方法。