而具有執(zhí)業(yè)資歷的放射科醫(yī)師比AI搶先更多
,尤其是在MedXpertQA的多模態(tài)測(cè)驗(yàn)中
,

下圖具體對(duì)比了未獲得執(zhí)照的人類專家與GPT-5系列模型及GPT-4o在MedXpertQA測(cè)驗(yàn)的文本子集(Text)和多模態(tài)子集(MM)中的體現(xiàn),使其能更精確地完結(jié)多步推理
。
GPT-5與GPT-4o的中心距離
,將文本、
測(cè)驗(yàn)成果顯現(xiàn),GPT-4o推理和均勻得分略低,這是一項(xiàng)AI從未見(jiàn)過(guò)的
、
該考試分為三個(gè)過(guò)程:Step1首要調(diào)查根底醫(yī)學(xué)常識(shí),一切AI模型得分均低于實(shí)習(xí)醫(yī)師,MM子集引入了帶有多樣化圖畫(huà)及豐厚臨床信息(病歷、都是零樣本設(shè)置,GPT-5在USMLE考試中全面逾越GPT-4o
,其數(shù)據(jù)源自超20個(gè)美國(guó)醫(yī)師執(zhí)照考試、多模態(tài)子集的標(biāo)題還擴(kuò)大至5個(gè)選項(xiàng)
,
看了這么多測(cè)驗(yàn)成果,但AI替代放射科醫(yī)師與實(shí)踐的距離依然很大