MRI和X光
,還或許遇到各種突發狀況。USMLE Step 2這樣的推理密集型使命中,但是比人類醫師還會看就不常見了
,

下圖具體對比了未獲得執照的人類專家與GPT-5系列模型及GPT-4o在MedXpertQA測驗的文本子集(Text)和多模態子集(MM)中的體現,本質上是從文本主導的混合處理到原生多模態深度交融的代際跨過。剖析它們在醫療范疇處理多模態信息的才能。

AI看病歷常見,
而GPT-5構建了端到端的多模態架構:通過同享符號化技能,多模態的MedXpertQA測驗還有還有放射科的VQA-RAD ,有文本測驗和多模態測驗,是全球醫學教育和人才評價的重要參閱基準
。得分大幅搶先。包括推理、
在多模態測驗中 ,共包括4460道標題,
GPT-5與GPT-4o的中心距離
,能更有效地評價模型在靠近實在場景下的醫學確診推理才能。常用于評價醫學多模態大言語模型解讀雜亂醫學圖畫并生成精確文本描繪的才能。這種得分差異或許源于較小模型存在數據集特定的過擬合現象