玉林实硕医疗科技有限公司

您的位置：首頁 > 產經 >

世界熱訊:規模性能雙殺OpenAI，Meta語音達LLaMA級里程碑！開源MMS模型可識別1100+語言

來源：華爾街見聞 ? 2023-05-23 20:12:14

在語音方面，Meta又達到了另一個LLaMA級的里程碑。

今天，Meta推出了一個名為MMS的大規模多語言語音項目，它將徹底改變語音技術。

MMS支持1000多種語言，用圣經訓練，錯誤率僅為Whisper數據集的一半。

(資料圖)

只憑一個模型，Meta就建起了一座巴別塔。

并且，Meta選擇將所有模型和代碼開源，希望為保護世界語種的多樣性做出貢獻。

在此之前的模型可以覆蓋大約100種語言，而這次，MMS直接把這個數字增加了10-40倍！

具體來說，Meta開放了1100多種語言的多語種語音識別/合成模型，以及4000多種語言的語音識別模型。

與OpenAI Whisper相比，多語言ASR模型支持11倍以上的語言，但在54種語言上的平均錯誤率還不到FLEURS的一半。

而且，將ASR擴展到如此多語言之后，只造成了非常小的性能下降。

論文地址：https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

保護消失語種，MMS把語音識別增加40倍

讓機器具備識別和產生語音的能力，可以讓更多人獲得信息。

然而，為這些任務生成高質量的機器學習模型，就需要大量的標記數據，比如數千小時的音頻以及轉錄——對于大多數語言來說，這種數據根本就不存在。

現有的語音識別模型，只涵蓋了大約100種語言，在地球上的7000多種已知語言中，這只占很小一部分。令人擔憂的是，在我們有生之年，這些語言中有一半都面臨著消失的危險。

在Massively Multilingual Speech（MMS）項目中，研究者通過結合wav2vec 2.0（Meta在自監督學習方面的開創性工作）和一個新的數據集來克服了一些挑戰。

這個數據集提供了超過1100種語言的標記數據，和近4000種語言的未標記數據。

通過跨語言訓練，wav2vec 2.0學習了多種語言中使用的語音單元

其中一些語言，如Tatuyo語，只有幾百個使用者，而數據集中的大多數語言，以前根本就不存在語音技術。

而結果顯示，MMS模型的性能優于現有的模型，覆蓋語言的數量是現有模型的10倍。

Meta一向專注于多語言工作：在文本上，Meta的NLLB項目將多語言翻譯擴展到了200種語言，而MMS項目，則將語音技術擴展到更多語言。

MMS支持1,107種語言的語音轉文本和文本轉語音，支持4,000多種語言的識別

圣經解決語音數據集難題

收集數千種語言的音頻數據并不是一件簡單的事情，這也是Meta的研究人員面臨的第一個挑戰。

要知道，現有的最大語音數據集最多也只涵蓋了100種語言。為了克服這個問題，研究人員轉向了宗教文本，如《圣經》。

這類文本已經被翻譯成許多不同的語言，被用于廣泛的研究，還有各種公開的錄音。

為此，Meta的研究者專門創建了一個超過1100種語言的《新約》閱讀數據集，平均每種語言提供32小時的數據。

再加上其他各種宗教讀物的無標簽錄音，研究者將可用的語言數量增加到了4000多種。

在MMS數據上訓練的自動語音識別模型，在FLEURS基準測試中，對男性和女性說話者具有相似的錯誤率

這些數據通常是由男性朗讀的，但模型對男性和女性的聲音表現得同樣好。

并且，雖然錄音的內容是宗教性的，但這并沒有使模型過度偏向于產生更多的宗教語言。

研究人員分析認為，這是因為他們使用了連接主義時間分類方法，與用于語音識別的大語言模型或序列對序列模型相比，它的約束性要大得多。

模型越大，越能打？

研究人員首先對數據進行了預處理，以提高數據的質量，并使其能被機器學習算法所利用。

為此，研究人員在100多種語言的現有數據上訓練了一個對齊模型，并將這個模型與一個高效的強制對齊算法一起使用，而該算法可以處理大約20分鐘或更長時間的錄音。

研究人員多次重復了這個過程，并根據模型的準確性進行了最后的交叉驗證過濾步驟，為的是去除潛在的錯誤對齊數據。

為了使其他研究人員能夠創建新的語音數據集，研究人員將對齊算法添加到了PyTorch中并發布了對齊模型。

目前，每種語言都有32小時的數據，但這并不足以訓練傳統的監督式語音識別模型。

這也就是為什么研究人員在wav2vec 2.0上訓練模型，這樣可以大大減少訓練一個模型所需的標注數據量。

具體來說，研究人員在超過1400種語言的約50萬小時的語音數據上訓練了自監督模型——這個量比過去多了近5倍。

然后針對特定的語音任務，如多語言語音識別或語言識別，研究人員再對模型進行微調即可。

為了更好地了解在大規模多語言語音數據上訓練的模型的表現，研究人員在現有的基準數據集上對它們進行了評估。

研究人員使用一個1B參數的wav2vec 2.0模型對超過1100種語言進行多語言語音識別模型的訓練。

隨著語言數量的增加，性能確實有所下降，但這種下降比較輕微——從61種語言到1107種語言，字符錯誤率只增加了約0.4%，但語言覆蓋率卻增加了18倍以上。

將每個系統支持的語言數量從61增加到1,107 時，使用MMS數據訓練的多語言識別系統的61種FLEURS語言的錯誤率。錯誤率越高表示性能越低

在與OpenAI的Whisper進行同類比較時，研究人員發現，在Massively Multilingual Speech數據上訓練的模型有將近一半的單詞錯誤率，但Massively Multilingual Speech涵蓋的語言是Whisper的11倍。

從數據中我們可以看出，與目前最好的語音模型相比，Meta的模型表現的真的非常不錯。

OpenAI Whisper與Massively Multilingual Speech在54種FLEURS語言上的單詞錯誤率對比

接下來，研究人員使用自己的以及現有的數據集，如FLEURS和CommonVoice，為超過4000種語言訓練了一個語言識別（LID）模型，并在FLEURS LID任務上對其進行了評估。

事實證明，哪怕支持了將近40倍的語言數量，性能依然很能打。

在現有工作的VoxLingua-107基準上的語言識別準確性，支持的語言剛剛超過100種，而MMS則支持超過4000種語言

研究人員還為超過1100種語言建立了文本轉語音的系統。

大規模多語種語音數據有一個局限性，那就是對于許多語言來說，它包含的不同說話者數量相對較少，通常只有一個說話者。

然而，這個特點對于建立文本到語音系統來說是一個優勢，因此研究人員為超過1100種語言訓練了類似系統。

結果表明，這些系統產生的語音質量還算不錯。

未來屬于單一模型

Meta的研究人員對這個結果感到很滿意，但與所有新興的AI技術一樣，Meta目前的模型并不算完美。

比方說，語音到文本模型可能會誤寫選定的單詞或短語，可能會導致冒犯性的或者不準確的輸出結果。

同時，Meta認為，AI巨頭的合作對于負責任的AI技術的發展至關重要。

世界上的許多語言都有消失的危險，而目前語音識別和語音生成技術的局限性只會加速這一趨勢。

研究人員設想一個技術產生相反效果的世界，鼓勵人們保持其語言的活力，因為他們可以通過說自己喜歡的語言來獲取信息和使用技術。

大規模多語言語音項目是朝著這個方向邁出的重要一步。

在未來，研究人員希望進一步增加語言的覆蓋面，支持更多的語言，甚至還會想辦法搞定方言。要知道，方言對現有的語音技術來說可不簡單。

Meta的最終目標是讓人們能更容易地用自己喜歡的語言獲取信息、使用設備。

最后，Meta的研究人員還設想了這樣一個未來場景——靠一個單一的模型就可以解決所有語言的幾個語音任務。

目前雖然Meta為語音識別、語音合成和語言識別訓練了單獨的模型，但研究人員相信，在未來，只需一個模型就能完成所有這些任務，甚至不止。

本文來源：新智元，原文標題：《規模性能雙殺OpenAI，Meta語音達LLaMA級里程碑！開源MMS模型可識別1100+語言》

風險提示及免責條款市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

關鍵詞：

<menu id="q3llw"><font id="q3llw"><strong id="q3llw"></strong></font></menu>