最火的幾個(gè)大語(yǔ)言模型都愛(ài)“胡說(shuō)八道”,誰(shuí)的“幻覺(jué)”問(wèn)題最糟?
總部位于紐約的人工智能初創(chuàng )公司和機器學(xué)習監控平臺Arthur AI于8月17日周四發(fā)布最新研報,比較了微軟支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic,以及英偉達支持的生成式AI獨角獸Cohere等公司大語(yǔ)言模型(LLM)“產(chǎn)生幻覺(jué)”(AKA胡說(shuō)八道)的能力。
(資料圖)
Arthur AI會(huì )定期更新上述被稱(chēng)為“生成式AI測試評估”的研究計劃,對行業(yè)領(lǐng)導者及其他開(kāi)源LLM模型的優(yōu)缺點(diǎn)進(jìn)行排名。
最新測試選取了來(lái)自OpenAI 的GPT-3.5(包含1750億個(gè)參數)和GPT-4(1.76萬(wàn)億參數)、來(lái)自Anthropic的Claude-2(參數未知)、來(lái)自Meta的Llama-2(700億參數),以及來(lái)自Cohere的Command(500億參數),并從定量和定性研究上對這些頂級LLM模型提出具有挑戰性的問(wèn)題。
在“人工智能模型幻覺(jué)測試”中,研究人員用組合數學(xué)、美國總統和摩洛哥政治領(lǐng)導人等不同類(lèi)別的問(wèn)題考察不同LLM模型給出的答案,“旨在包含導致LLM犯錯的關(guān)鍵因素,即它們需要對信息進(jìn)行多個(gè)推理步驟?!?/p>
研究發(fā)現,整體而言,OpenAI的GPT-4在所有測試的模型中表現最好,產(chǎn)生的“幻覺(jué)”問(wèn)題比之前版本GPT-3.5要少,例如在數學(xué)問(wèn)題類(lèi)別上的幻覺(jué)減少了33%到50%。
同時(shí),Meta的Llama-2在受測五個(gè)模型中整體表現居中,Anthropic的Claude-2表現排名第二,僅次于GPT-4。而Cohere的LLM模型最能“胡說(shuō)八道”,而“非常自信地給出錯誤答案”。
具體來(lái)看,在復雜數學(xué)問(wèn)題中,GPT-4表現位居第一,緊隨其后的是Claude-2;在美國總統問(wèn)題中,Claude-2的準確性排名第一,GPT-4位列第二;在摩洛哥政治問(wèn)題中,GPT-4重歸榜首,Claude-2和Llama 2幾乎完全選擇不回答此類(lèi)問(wèn)題。
研究人員還測試了人工智能模型會(huì )在多大程度上用不相關(guān)的警告短語(yǔ)來(lái)“對沖”它們的答案,以求避免風(fēng)險,常見(jiàn)短語(yǔ)包括“作為一個(gè)人工智能模型,我無(wú)法提供意見(jiàn)”。
GPT-4比GPT-3.5的對沖警告語(yǔ)相對增加了50%,報告稱(chēng),這“量化了用戶(hù)們所提到GPT-4使用起來(lái)更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個(gè)問(wèn)題中完全沒(méi)有提供對沖。
相比之下,Anthropic的Claude-2在“自我意識”方面最可靠,即能夠準確地衡量自己知道什么、不知道什么,并且只回答有訓練數據支持的問(wèn)題。
Arthur ?AI的聯(lián)合創(chuàng )始人兼首席執行官Adam Wenchel指出,這是業(yè)內首份“全面了解人工智能模型幻覺(jué)發(fā)生率的報告”,并非僅僅提供單一數據來(lái)說(shuō)明不同LLM的排名先后:
“這種測試對用戶(hù)和企業(yè)來(lái)說(shuō),最重要的收獲是可以測試確切工作負載,了解LLM如何執行你想要完成的任務(wù)至關(guān)重要。此前許多基于LLM的衡量標準并不是實(shí)際生活中它們被使用的方式?!?/p>
在上述研報發(fā)表同日,Arthur公司還推出了開(kāi)源的AI模型評估工具Arthur Bench,可用于評估和比較多種LLM的性能和準確性,企業(yè)可以添加定制標準來(lái)滿(mǎn)足各自的商業(yè)需求,目標是幫助企業(yè)在采用人工智能時(shí)做出明智的決策。
“AI幻覺(jué)”(hallucinations)指的是聊天機器人完全捏造信息,并表現成滔滔不絕講述事實(shí)的樣子來(lái)回應用戶(hù)的提示語(yǔ)問(wèn)題。
谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中,對詹姆斯·韋伯太空望遠鏡做出了不真實(shí)的陳述。今年6月,ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例,提交該文件的涉案律師可能面臨制裁。
OpenAI研究人員曾在6月初發(fā)布報告稱(chēng)找到了解決“AI幻覺(jué)的辦法”,即訓練AI模型在推理出答案的每個(gè)正確步驟上給予自我獎勵,而不僅僅是等到推理出正確的最終結論時(shí)才給予獎勵。這種“過(guò)程監督”的策略將鼓勵AI模型按照更類(lèi)似人類(lèi)的“思考”方式進(jìn)行推理。
OpenAI在報告中承認:
“即使是最先進(jìn)的AI模型也容易生成謊言,它們在不確定的時(shí)刻會(huì )表現出捏造事實(shí)的傾向。這些幻覺(jué)在需要多步驟推理的領(lǐng)域尤其是個(gè)問(wèn)題,因為一個(gè)邏輯錯誤就足以破壞一個(gè)更大的解決方案?!?/p>
投資大鱷索羅斯也曾在6月發(fā)表專(zhuān)欄文章稱(chēng),人工智能在當下最能加重世界面臨的多重危機(Polycrisis),理由之一便是AI幻覺(jué)的嚴重后果:
“人工智能摧毀了這個(gè)簡(jiǎn)單的模式(華爾街見(jiàn)聞注:即利用事實(shí)來(lái)明辨是非),因為它與現實(shí)完全無(wú)關(guān)。人工智能創(chuàng )造了自己的現實(shí),當人造現實(shí)無(wú)法與現實(shí)世界相對應時(shí)(這種情況經(jīng)常發(fā)生),就產(chǎn)生了AI幻覺(jué)。
這讓我幾乎本能地反對人工智能,并且我完全同意專(zhuān)家們指出的人工智能需要受到監管。但AI法規必須在全球范圍內強制執行,因為作弊的動(dòng)機太大,那些逃避法規的人將獲得不公平的優(yōu)勢。不幸的是,全球監管是無(wú)法實(shí)現的。
人工智能的發(fā)展速度非???,普通人類(lèi)智能不可能完全理解它。沒(méi)有人能預測它將把我們帶向何方?!@就是為什么我本能地反對AI,但我不知道如何才能阻止它。
美國將于2024年舉行總統大選,英國也很可能舉行大選,人工智能無(wú)疑將發(fā)揮重要作用,而除了危險之外,不會(huì )產(chǎn)生任何其他作用。
人工智能非常擅長(cháng)制造虛假信息和深度造假,并且會(huì )有很多惡意行為者。對此我們能做些什么呢? 我沒(méi)有答案?!?/p>
此前,被視為“人工智能教父”且從谷歌離職的杰弗里·辛頓(Geoffrey Hinton)多次公開(kāi)批評AI帶來(lái)的風(fēng)險,甚至可能摧毀人類(lèi)文明,并預言“人工智能僅需5到20年就能超越人類(lèi)智能”。
風(fēng)險提示及免責條款 市場(chǎng)有風(fēng)險,投資需謹慎。本文不構成個(gè)人投資建議,也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資,責任自負。關(guān)鍵詞: