随着人工智能技术的不断发展,医疗语言大模型在医疗领域的应用越来越广泛。
由于语言差异和缺乏多语言医疗专业数据,当前的医疗大模型在处理非英语问题时效果不佳。
为了克服这一挑战,上海交通大学和上海人工智能实验室智慧医疗联合团队开展了相关研究。
为了支持多语言医疗大模型的发展,该团队首先构建了包含25.5Billion tokens的多语言医疗语料库MMedC。
该语料库通过搜集全球各地的电子版医疗教科书,使用光学字符识别(OCR)技术转化为文本数据,并从多个国家的许可的医疗相关网站抓取数据,整合已有的小型医疗语料库,以丰富和完善数据集。
为了评估医学领域多语言模型的发展,研究团队设计了一项全新的多语言选择题问答评测标准,命名为MMedBench。
此基准测试的所有问题均直接源自各国的医学考试题库,要求模型不仅要选出正确答案,还需提供合理的解答理由。
这样的设计不仅测试了模型回答选择题的能力,也测试了其理解和解释复杂医疗信息的能力。
基于MMedC语料库和MMedBench评测标准,该团队推出了名为MMed-Llama3的全新基座模型。
该模型以8B的尺寸在多项基准测试中超越了现有的开源模型,更加适合通过医学指令微调,适配到各种医学场景。
所有数据和代码、模型均已开源。
研究团队在MMedC语料库上对所提出的模型进行了测评。
结果显示,经过进一步自回归训练的MMed-Llama3模型的性能得到了显著提升,在英语和其他语言中均表现出较高的准确率。
在MMedBench评测标准上,研究团队对主流医疗语言模型进行了测评。
结果显示,MMed-Llama3在多项选择题答案解释能力方面表现出色,自动评估指标和人类评估结果一致。
为了在英语基准测试上与现有的大型语言模型进行公平比较,研究团队还基于MMed-Llama3基座模型进行英文指令微调。
结果显示,MMed-Llama3在英语基准测试上展示了很好的表现,性能得到了显著提升。
在数据侧的消融实验中,研究团队研究了不同的预训练语料构建过程造成的影响。
结果显示,引入自动收集的高质量和多来源数据有助于进一步提高模型的性能。
区分高质量数据和未指定来源数据对模型的性能也有重要影响。
高质量的语料库可以辅助模型更好地理解问题并提高准确率。
同时发现仅在英语部分进行进一步的自回归训练可能会导致过拟合英语的结果而其他语言中结果较差的问题但将自回归训练扩展到整个多语言医学语料库可以很好地解决这一问题并显著提高最终结果。
六、研究与临床价值本项工作首次引入了医疗领域的多语言大模型对于研究和临床实践都有着重要的影响在研究方面本工作促进了以下研究的发展:更多关于不同语言的医疗实践知识的研究不同语言的医疗术语标准化研究以及基于机器学习的自动化诊断系统的研究等在临床实践中开源的多语言医疗模型能缓解由于语言差异导致的沟通障碍提高临床决策的效率和准确性同时有助于推动全球范围内的医学研究与合作本研究不仅在学术界有着重要的价值也对临床实践产生了积极的影响展示了人工智能技术在医疗领域的巨大潜力七、总结与展望本文介绍了上海交通大学和上海人工智能实验室智慧医疗联合团队在构建多语言医疗语料库开发全面的多语言医疗问答评测标准以及推出全新的基座模型等方面的最新研究成果这些成果为解决当前医疗大模型在处理非英语问题时面临的挑战提供了有效的解决方案同时展示了人工智能技术在医疗领域的巨大潜力未来研究方向包括进一步优化模型的性能提高模型的泛化能力探索更多实际应用场景以及推动人工智能技术与医疗领域的深度融合等通过不断努力人工智能技术将在医疗领域发挥更大的作用为人类健康事业做出更大的贡献
本文地址: https://www.gosl.cn/zxzxwz/c8e5e84eb23e39e894b2.html
上一篇:展现技术之美的独特魅力探索前沿科技...