玉林实硕医疗科技有限公司

<td id="sh8is"><nobr id="sh8is"></nobr></td>

<input id="sh8is"><small id="sh8is"></small></input>

<tfoot id="sh8is"></tfoot>

<tfoot id="sh8is"><pre id="sh8is"></pre></tfoot>

您的位置：首頁(yè) > 產(chǎn)經(jīng) >

最火的幾個(gè)大語(yǔ)言模型都愛(ài)“胡說(shuō)八道”，誰(shuí)的“幻覺(jué)”問(wèn)題最糟？

來(lái)源：華爾街見(jiàn)聞 ? 2023-08-18 06:13:36

總部位于紐約的人工智能初創(chuàng )公司和機器學(xué)習監控平臺Arthur AI于8月17日周四發(fā)布最新研報，比較了微軟支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic，以及英偉達支持的生成式AI獨角獸Cohere等公司大語(yǔ)言模型（LLM）“產(chǎn)生幻覺(jué)”（AKA胡說(shuō)八道）的能力。

(資料圖)

Arthur AI會(huì )定期更新上述被稱(chēng)為“生成式AI測試評估”的研究計劃，對行業(yè)領(lǐng)導者及其他開(kāi)源LLM模型的優(yōu)缺點(diǎn)進(jìn)行排名。

最新測試選取了來(lái)自OpenAI 的GPT-3.5（包含1750億個(gè)參數）和GPT-4（1.76萬(wàn)億參數）、來(lái)自Anthropic的Claude-2（參數未知）、來(lái)自Meta的Llama-2（700億參數），以及來(lái)自Cohere的Command（500億參數），并從定量和定性研究上對這些頂級LLM模型提出具有挑戰性的問(wèn)題。

在“人工智能模型幻覺(jué)測試”中，研究人員用組合數學(xué)、美國總統和摩洛哥政治領(lǐng)導人等不同類(lèi)別的問(wèn)題考察不同LLM模型給出的答案，“旨在包含導致LLM犯錯的關(guān)鍵因素，即它們需要對信息進(jìn)行多個(gè)推理步驟?！?/p>

研究發(fā)現，整體而言，OpenAI的GPT-4在所有測試的模型中表現最好，產(chǎn)生的“幻覺(jué)”問(wèn)題比之前版本GPT-3.5要少，例如在數學(xué)問(wèn)題類(lèi)別上的幻覺(jué)減少了33%到50%。

同時(shí)，Meta的Llama-2在受測五個(gè)模型中整體表現居中，Anthropic的Claude-2表現排名第二，僅次于GPT-4。而Cohere的LLM模型最能“胡說(shuō)八道”，而“非常自信地給出錯誤答案”。

具體來(lái)看，在復雜數學(xué)問(wèn)題中，GPT-4表現位居第一，緊隨其后的是Claude-2；在美國總統問(wèn)題中，Claude-2的準確性排名第一，GPT-4位列第二；在摩洛哥政治問(wèn)題中，GPT-4重歸榜首，Claude-2和Llama 2幾乎完全選擇不回答此類(lèi)問(wèn)題。

研究人員還測試了人工智能模型會(huì )在多大程度上用不相關(guān)的警告短語(yǔ)來(lái)“對沖”它們的答案，以求避免風(fēng)險，常見(jiàn)短語(yǔ)包括“作為一個(gè)人工智能模型，我無(wú)法提供意見(jiàn)”。

GPT-4比GPT-3.5的對沖警告語(yǔ)相對增加了50%，報告稱(chēng)，這“量化了用戶(hù)們所提到GPT-4使用起來(lái)更令人沮喪的體驗”。而Cohere的人工智能模型在上述三個(gè)問(wèn)題中完全沒(méi)有提供對沖。

相比之下，Anthropic的Claude-2在“自我意識”方面最可靠，即能夠準確地衡量自己知道什么、不知道什么，并且只回答有訓練數據支持的問(wèn)題。

Arthur ?AI的聯(lián)合創(chuàng )始人兼首席執行官Adam Wenchel指出，這是業(yè)內首份“全面了解人工智能模型幻覺(jué)發(fā)生率的報告”，并非僅僅提供單一數據來(lái)說(shuō)明不同LLM的排名先后：

“這種測試對用戶(hù)和企業(yè)來(lái)說(shuō)，最重要的收獲是可以測試確切工作負載，了解LLM如何執行你想要完成的任務(wù)至關(guān)重要。此前許多基于LLM的衡量標準并不是實(shí)際生活中它們被使用的方式?！?/p>

在上述研報發(fā)表同日，Arthur公司還推出了開(kāi)源的AI模型評估工具Arthur Bench，可用于評估和比較多種LLM的性能和準確性，企業(yè)可以添加定制標準來(lái)滿(mǎn)足各自的商業(yè)需求，目標是幫助企業(yè)在采用人工智能時(shí)做出明智的決策。

“AI幻覺(jué)”（hallucinations）指的是聊天機器人完全捏造信息，并表現成滔滔不絕講述事實(shí)的樣子來(lái)回應用戶(hù)的提示語(yǔ)問(wèn)題。

谷歌在今年2月為其生成式AI聊天機器人Bard拍攝的宣傳視頻中，對詹姆斯·韋伯太空望遠鏡做出了不真實(shí)的陳述。今年6月，ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例，提交該文件的涉案律師可能面臨制裁。

OpenAI研究人員曾在6月初發(fā)布報告稱(chēng)找到了解決“AI幻覺(jué)的辦法”，即訓練AI模型在推理出答案的每個(gè)正確步驟上給予自我獎勵，而不僅僅是等到推理出正確的最終結論時(shí)才給予獎勵。這種“過(guò)程監督”的策略將鼓勵AI模型按照更類(lèi)似人類(lèi)的“思考”方式進(jìn)行推理。

OpenAI在報告中承認：

“即使是最先進(jìn)的AI模型也容易生成謊言，它們在不確定的時(shí)刻會(huì )表現出捏造事實(shí)的傾向。這些幻覺(jué)在需要多步驟推理的領(lǐng)域尤其是個(gè)問(wèn)題，因為一個(gè)邏輯錯誤就足以破壞一個(gè)更大的解決方案?！?/p>

投資大鱷索羅斯也曾在6月發(fā)表專(zhuān)欄文章稱(chēng)，人工智能在當下最能加重世界面臨的多重危機（Polycrisis），理由之一便是AI幻覺(jué)的嚴重后果：

“人工智能摧毀了這個(gè)簡(jiǎn)單的模式（華爾街見(jiàn)聞注：即利用事實(shí)來(lái)明辨是非），因為它與現實(shí)完全無(wú)關(guān)。人工智能創(chuàng )造了自己的現實(shí)，當人造現實(shí)無(wú)法與現實(shí)世界相對應時(shí)（這種情況經(jīng)常發(fā)生），就產(chǎn)生了AI幻覺(jué)。
這讓我幾乎本能地反對人工智能，并且我完全同意專(zhuān)家們指出的人工智能需要受到監管。但AI法規必須在全球范圍內強制執行，因為作弊的動(dòng)機太大，那些逃避法規的人將獲得不公平的優(yōu)勢。不幸的是，全球監管是無(wú)法實(shí)現的。
人工智能的發(fā)展速度非?？?，普通人類(lèi)智能不可能完全理解它。沒(méi)有人能預測它將把我們帶向何方?！@就是為什么我本能地反對AI，但我不知道如何才能阻止它。
美國將于2024年舉行總統大選，英國也很可能舉行大選，人工智能無(wú)疑將發(fā)揮重要作用，而除了危險之外，不會(huì )產(chǎn)生任何其他作用。
人工智能非常擅長(cháng)制造虛假信息和深度造假，并且會(huì )有很多惡意行為者。對此我們能做些什么呢？我沒(méi)有答案?！?/p>

此前，被視為“人工智能教父”且從谷歌離職的杰弗里·辛頓（Geoffrey Hinton）多次公開(kāi)批評AI帶來(lái)的風(fēng)險，甚至可能摧毀人類(lèi)文明，并預言“人工智能僅需5到20年就能超越人類(lèi)智能”。

風(fēng)險提示及免責條款市場(chǎng)有風(fēng)險，投資需謹慎。本文不構成個(gè)人投資建議，也未考慮到個(gè)別用戶(hù)特殊的投資目標、財務(wù)狀況或需要。用戶(hù)應考慮本文中的任何意見(jiàn)、觀(guān)點(diǎn)或結論是否符合其特定狀況。據此投資，責任自負。

關(guān)鍵詞：

<mark id="c0ncd"><thead id="c0ncd"></thead></mark>

<ol id="c0ncd"><track id="c0ncd"></track></ol>

<tfoot id="c0ncd"></tfoot>