為何同一個中文大模型,不同評測標準打分差異大?|見智研究_快看
5月9日中文通用大模型綜合性評測基準SuperCLUE正式發布。經過一天時間的發酵,論壇上對該評測標準質疑的聲音越發多了,這是為什么?大模型評測標準設立的難度又在哪里?
(資料圖片)
中文評測標準為何重要?
科大訊飛董事長劉慶峰認為:如果要努力追趕OpenAI的進度,需要一套科學系統的評測體系;用這一套科學系統,來判定技術迭代到底到了什么程度,還有哪些任務是不達標的。
市場看重中文大模型評測標準主要基于三方面考慮因素。
第一、數據集的差異性。中文和英文的文本數據集在種類、規模、質量等方面存在很大的差異,需要針對中文特點開發相應的數據集,以確保評測結果的準確性和公正性。
第二、語言結構和語法的差異。例如中文是一種“主謂賓”結構的語言,而英文則是“主語動詞賓語”結構的語言。這些差異導致了中英文之間在語言處理任務上存在很大的區別,需要不同的評測標準和方法。
第三、中文詞匯量和歧義性。中文的詞匯量非常大,而且存在很多歧義性,需要更復雜的處理方法和技術,如分詞、詞性標注、命名實體識別等。
華爾街見聞·見智研究認為:中文大模型評測標準的重要性在于它可以幫助廠商相對客觀地評估模型的質量和性能,比較不同模型的性能和差異。更重要的是標準化的評估方法和數據集能夠為開發者提供很好的方向,促進模型迭代速度。
此前,IDC發布的大模型評測標準,從三個維度(產品能力、應用能力和生態能力)、6個一級指標和11個二級指標來評估中國大模型的能力。
并且給出結論:文心大模型在產品力和生態能力上都超過平均分水平。但是由于評測方法沒有完全公開,貌似并沒有被市場所完全認可。
所以,在大模型層出不窮的當下,市場上非常需要對模型的評估方法和一致性標準。
但從當下來看,這貌似又是一個在短期內非常難以兌現的預期。
中文大模型評測標準化很難,SuperCLUE被吐槽選擇題方式單一
剛剛發布的文通用大模型基準(SuperCLUE),是針對中文可用的通用大模型的一個測評基準。它主要回答的問題是:在當前通用大模型大力發展的情況下,中文大模型的效果情況。
SuperCLUE從三個不同的維度評價模型的能力:基礎能力、專業能力和中文特性能力。
基礎能力:包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色模擬、代碼、生成與創作等10項能力。
專業能力:包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力。
中文特性能力:針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。
以SuperCLUE測試結果來看,文心一言的評測結果遠不如星火大模型;
而以另一種比較火的評測標準是JioNLP,該評測是由中國科學院計算技術研究所自然語言處理與社會人文計算實驗室(簡稱“計算所NLP”)開發和維護的。
JioNLP評測還提供了多種評測指標和計算工具,以幫助研究者和開發者客觀地評估模型的性能和效果,并比較不同模型的優缺點和適用范圍。
JioNLP評測方式目前的總下載量達到2.4萬次,近三十天下載量為1634次。
通過JioNLP評測,研究者和開發者可以獲取實時的評測結果和排名,以及相應的源代碼和技術報告,為中文自然語言處理的研究和應用提供參考和支持。
從JioNLP評測的結果來看:文心一言的得分卻又高于星火大模型。
這背后的原因是兩種評測的方法的設置有很大的差異性。
SuperCLUE是只通過選擇題對模型能力進行測試,而JioNLP采用的是客觀選擇題+主觀題(生成題、翻譯題和聊天題)進行測試。
但相同的是,在官網留言區對于兩個測試標準都出現很多質疑聲音。
如:對SuperCLUE評測方法如何限定測試題目數量,生成和創作類評測用選擇題測試是否合理,以及建議SuperCLUE像中文Alpaca一樣適度公開評測說明和標準。JioNLP也同樣存在測試精度、樣本量小等問題。
見智研究認為:當下對大模型的評估方法和指標還沒有形成共識、更沒有統一的標準出現,特別是對于不同場景和任務可能有不同的評價體系和需求出現。
常用的機器學習模型評估標準有7個比較重要的方向:
包括準確度(針對分類能力)、精確度和召回率(模型正確預測的內容占該樣本的比例)、對抗攻擊魯棒性(模型在受到輸入干擾時保持穩定的能力)、計算效率、均方誤差、R方值以及數據隱私。
從當下來看,SuperCLUE的評測方式單一性確實存在一定的弊端,但是該模型采用的人工評價的精度也曾被市場認可確實在精度和靈活度上面高于系統的自動評價方法。
總的來說,大模型測試標準化是行業所需要的,但同樣也是非常難實現的。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: