世界微動態丨人工智能又取得大勝?ChatGPT的健康問答結果碾壓人類醫生
最新公布的一項研究表明,聊天機器人ChatGPT在某些方面能表現得比醫生出色。
這項研究周五(4月28日)發表在國際著名醫學期刊《JAMA Internal Medicine》上。結果表明:人工智能助手可能有能力幫助醫生起草對患者問題的回答。
(資料圖片)
作者加州大學圣地亞哥分校約翰·W·艾爾斯(John W. Ayers)博士稱,聊天機器人對患者的回應要普遍優于醫生的回應,并且在回答質量和同理心方面的評分都明顯高得多,“用人工智能改善醫療保健的機會是巨大的。”
具體來看,研究團隊從一個社交論壇上抽取了195個醫學問題,每一個問題都有人類醫生作出過回答。接著將這些問題輸入到ChatGPT中,得到了對應的人工智能的回答。
然后,團隊將人類醫生的回答和聊天機器人的回答交由三名醫療保健專業人員來評估。
這組專業人員需要在三個方面打分:
一、哪個反應得更好?
二、信息的質量如何?
三、回答是否具備同理心?
在評估過程中,醫療保健專業人員并不知道哪一份回答是來自人類的,或是來自ChatGPT的。
結果顯示:在第一個問題上,評估者認為,聊天機器人在78.6%的問題上表現得比人類醫生好;
在質量上,評估者覺得聊天機器人78.5%的回答表現良好或非常好,而人類醫生只有22.1%;
在同理心方面,聊天機器人45.1%的回答被評為有同理心或非常有同理心,而醫生的比例只有4.6%。
研究提供了一個非常典型的例子。一名患者在論壇提出了一個問題:漂白劑濺入眼睛后是否有失明的風險。ChatGPT先是表達關切,隨后針對“不太可能失明”的結果提出了七句建議和鼓勵。
而人類醫生則是回應,“聽起來你會沒事的”,然后貼出了中毒中心的電話號碼。經對比,三位醫療保健專業人員都更喜歡ChatGPT的反應。
但有專家指出,ChatGPT的回復通常要比醫生長得多,可能會影響質量和同理心的分數。愛丁堡大學自然語言處理教授Mirella Lapata稱,如果不控制回答的長度,就很難確定評分者的判斷標準。
本周另有一項研究表明,ChatGPT在一些特定的醫學場合具有獨特的價值和優勢。研究人員要求ChatGPT提供五年級閱讀水平的醫囑,“ChatGPT提供的答案寫得很好、很詳細,有望讓待診患者更早獲得專業信息。”
不過,賓夕法尼亞大學醫學教授David Asch博士強調,ChatGPT應該被視為對醫生的補充。他還警告,人工智能工具還沒有充分準備好,“我擔心錯誤信息會被放大?!?/p>
本文轉自財聯社,作者:趙昊;智通財經編輯:李程
關鍵詞: