无码aⅴ在线观看,国产精品天干天干,最近中文字幕免费mv视频7

就在剛剛，UC伯克利主導的「LLM排位賽」迎來了首次重磅更新！這次，團隊不僅在排行榜中加入了更多模型（目前已達到28個），而且還增加了2個全新的評價標準。

與此同時，團隊還發布了更新的Vicuna-v1.3系列模型，參數量為70億、130億和330億，且權重已公開。

在全新的評價系統下，GPT-4依然穩居第一，而GPT-3.5則成功奪回了第二的寶座。Anthropic的兩款Claude模型緊隨其后，排在了第三和第四的位置上。UC伯克利最新發布的330億參數Vicuna進軍第五，小幅領先微軟華人團隊開源的300億參數WizardLM模型。

(相關資料圖)

增強版LLM排行榜

不難看出，GPT-3.5、Claude-v1和Claude-instant-v1這三個模型之間實際難分伯仲。不僅在MT-bench得分上咬得很緊，而且在諸如Elo和MMLU得分上還有后者還有反超。和這些專有模型相比，開源模型們則有著明顯的差距，即便是作為開源第一的Vicuna-33B也是如此。當然，事情總有例外。比如谷歌的PaLM2，就落后于一眾開源模型。

全新評價機制：MT-bench

雖然，現在已經有了不少用來評估大語言模型（LLM）性能的基準測試，比如MMLU、HellaSwag和HumanEval等。但是，在評估LLM的人類偏好時，這些基準測試存在著明顯的不足。舉個例子，傳統的基準測試通常是在封閉式問題（例如，多項選擇題）上對LLM進行測試，并提供一些簡潔的輸出作為評價。

用戶與LLaMA-13B和Vicuna-13B之間的多輪對話，開始是MMLU基準中的問題和后續指令，然后將GPT-4與上下文一起呈現，比較誰的答案更好

顯然，大部分人在實踐中并不是這么用聊天機器人的……為了填補這一空白，來自UC伯克利的團隊在這次排行榜更新中，除了Chatbot Arena Elo系統之外，還增加了一個新的基準測試：MT-bench。MT-Bench可以作為對聊天機器人競技場的質量控制補充。

目前，競技場的具體評價機制如下：1. Chatbot Arena Elo，基于Chatbot Arena收到的42,000個匿名投票，并使用Elo評級系統進行評分。2. MT-Bench得分，基于一個具有挑戰性的多輪基準測試和GPT-4評分，其方法在「Judging LLM-as-a-judge」論文中提出，并已經過驗證。3. MMLU，一項廣泛采用的基準測試。

為什么選擇MT-Bench？

具體來說，MT-Bench是一個經過精心設計的基準測試，包含80個高質量的多輪問題。這些問題可以評估模型在多輪對話中的對話流程和指令遵循能力，其中包含了常見的使用情景，以及富有挑戰性的指令。通過對過去2個月運營聊天機器人競技場以及對收集的一部分用戶數據的分析，團隊確定了8個主要的類別：寫作、角色扮演、提取、推理、數學、編程、知識I（科學技術工程數學）和知識II（人文社科）。其中，每個類別有10個多輪問題，總共160個問題。

MT-Bench中的問題示例

用LLM評判LLM

那么問題來了，我們應該如何對聊天機器人的答案進行評分呢？盡管在針對LLM的評估中，人類的偏好可以說是「黃金標準」，但收集人類偏好的這一過程，卻非常耗時，而且成本極高。相比之下，UC伯克利主導的團隊在一開始便探索出了一種基于GPT-4的自動化評估管線。而這種方法也隨后在幾個工作中，得到了廣泛的采用。?

此外，團隊還在最新的論文「Judging LLM-as-a-judge」中進行了一項系統研究——揭示了LLM評判者的可靠性問題。結果顯示，像GPT-4這樣強大的LLM評判者，可以與專家組和眾包組的人類裁判的偏好非常好地對齊，一致性均超過了80%。這種一致性水平，已經可以和兩個人類評判者之間的一致性相媲美。而基于GPT-4的單個答案評分，也可以有效地對模型進行排名，并與人類偏好很好地匹配。因此，如果使用得當，LLM評判者完全可以作為人類偏好的可擴展、可解釋的近似值。

不過，當LLM作為評判者時，依然會存在一些潛在限制：1. 位置偏差，即LLM評判者可能偏向于在成對比較中選擇第一個答案。2. 冗長偏差，即LLM評判者可能偏向于更長的回答，而不考慮其質量。3. 自我增強偏差，即LLM評判者可能偏向于自己的回答。4. 推理能力有限，即LLM評判者在給數學和推理問題打分時，會存在一些缺陷。

不同LLM評判者的立場偏見

其中，所謂的「一致性」是指評判者在LLM順序交換時，給出一致性結果的案例百分比對于這些限制，團隊探討了如何利用少樣本評判、思維鏈評判、基于參考的評判和微調評判來進行緩解。

結果分析

MT-Bench有效地區分了LLM之間的性能差異

在這次的「排位賽」中，團隊針對28個模型進行了全面評估。結果顯示，不同能力的LLM之間存在明顯的區別，而它們的得分與Chatbot Arena Elo評分呈高度的相關性。特別是MT-Bench的引入，非常鮮明地顯示出：GPT-4與GPT-3.5/Claude之間，以及開源和專有模型之間，有著明顯的性能差距。為了更深入地了解LLM之間的差距，團隊選擇了幾個有代表性的LLM，并分析了它們在每個類別下的表現。結果顯示，與GPT-3.5/Claude相比，GPT-4在編碼和推理方面表現出更高的性能，而Vicuna-13B在幾個特定的類別中（包括提取、編碼和數學）明顯落后。這表明，開源模型仍有很大的改進空間。

比較6個模型的8種能力：寫作、角色扮演、推理、數學、編碼、信息提取、自然科學、人文科學

多輪對話能力的評估

團隊接下來分析了所選模型在多輪對話中的得分。開源模型在第一輪和第二輪之間的性能顯著下降（如Vicuna-7B，WizardLM-13B），而強大的專有模型卻始終保持著一致性。另外，基于LLaMA的模型和更寬松的模型之間（如MPT-7B、Falcon-40B和調整后的Open-LLaMA），也存在明顯的性能差距。

模型在第一輪和第二輪對話中的MT-bench得分，滿分為10分

LLM評判者的可解釋性

用LLM進行評判的另一個優勢在于，它們能夠提供可解釋的評估結果。下圖展示了GPT-4對一個MT-bench問題的判斷，其中包括了來自alpaca-13b和gpt-3.5-turbo的回答?？梢钥吹?，對于自己給出的判斷，GPT-4提供了詳細全面、邏輯清晰的反饋。而UC伯克利的研究也認為，這種評價有利于指導人類做出更明智的決策。

MT-bench在評估LLM的人類偏好方面提供了更多的可解釋性

總之，MT-Bench可以有效地區分不同的聊天機器人。不過在使用時，仍然應該謹慎。因為它還是有出錯的可能，尤其是在數學/推理問題打分時。