許多女性正在使用人工智能獲取健康信息,但答案並不總是第一個
奧斯卡·王/蓋蒂圖片社
常用的人工智能模型無法準確診斷或提供許多與女性健康相關、需要立即關注的問題的建議。
OpenAI、Google、Anthropic、Mistral AI 和 xAI 生成的 13 個大型語言模型提供了涵蓋急診醫學、婦科和神經病學等五個專業的 345 個醫療查詢。來自美國和歐洲的 17 名女性健康研究人員、藥劑師和臨床醫生撰寫了這些問題。
答案由相同的專家審查。模型未通過的任何問題都會被整理成人工智能模型臨床技能的基準測試,由 96 個問題組成。
在所有模型中,60% 的問題的回答方式是人類專家此前認為不足以提供醫療建議的。 GPT-5 是表現最好的模型,失敗率為 47%,而 Minstral 8B 的失敗率最高,為 73%。
“我看到越來越多的女性在我自己的圈子裡轉向人工智能工具來進行健康查詢和決策支持,”一位團隊成員說道。 維多利亞·伊麗莎白·格魯伯 Lumos AI 是一家幫助企業評估和改進自己的人工智能模型的公司。她和她的同事認識到依賴繼承並擴大醫學知識中現有性別差距的技術的危險。 “這就是促使我們在這個領域建立第一個基準的動力,”她說。
失敗率讓格魯伯感到驚訝。 “我們預計會有一些差距,但模型之間的差異程度是顯著的,”她說。
考慮到人工智能模型是基於人類生成的歷史數據(包含內置偏差)進行訓練的,這一發現並不令人意外。 卡拉·坦南鮑姆 在加拿大蒙特利爾大學。他們表示,“在線健康資源以及醫療保健專業協會顯然需要用更多基於性別的證據信息來更新其網絡內容,這些信息可以使用人工智能更準確地支持女性健康,”她說。
喬納森·陳 加州斯坦福大學的研究人員所引用的 60% 的失敗率有些誤導性。 “我不會糾結於 60% 的數字,因為這是一個有限且由專家設計的模型,”他說。 “(它)並不是為了廣泛樣本或代表患者或醫生經常詢問的問題而設計的。”
陳還指出,模型測試的某些場景過於保守,潛在的失敗率很高。例如,如果產後婦女抱怨頭痛,該模型表明,如果不立即懷疑先兆子癇,人工智能模型可能會失敗。
格魯伯承認並承認這些批評。 “我們的目標不是聲稱這些模型普遍不安全,而是定義一個明確的、基於臨床的評估標準,”她說。 “該基准在如何定義失敗方面有意保守且嚴格,因為在醫療保健領域,根據具體情況,可能會出現一些小錯誤。”
OpenAI 發言人表示:“ChatGPT 旨在支持而不是取代醫療保健。我們與世界各地的臨床醫生合作改進我們的模型並進行持續評估,以減少有害或誤導性的反應。我們最新的 GPT 5.2 模型是我們最強大的,但考慮到了重要的用戶背景,例如性別。始終依賴合格的臨床醫生做出護理和治療決策。”其他接受AI測試的公司沒有回應 一位新科學家 請求評論。
專案:










