全球聚焦:賽道Hyper | 加速數實融合:訊飛開放平臺2.0戰略突進
科大訊飛在業內獨樹一幟的AI技術和產業標桿之源,來自訊飛開放平臺戰略。
(相關資料圖)
2021年10月25日,這項戰略迭代到2.0。到今年11月,科大訊飛開放平臺2.0戰略取得了哪些進展?是否更進一步夯實了AI技術和產業優勢?
此前,科大訊飛推動AI技術落地,主要從“平臺+賽道”戰略和“算法和數據”技術兩個方面推動,取得面向C端、B端和G端AI領域的技術應用優勢,那么現如今,這些細項有無迭代或升級?這種變化的技術優勢包括什么?
2022年是科大訊飛開放平臺2.0戰略落地推進的首年,也是“科大訊飛1024開發者節”舉辦的第六年。11月18日,科大訊飛董事長劉慶峰和科大訊飛總裁吳曉如在合肥對這些問題一一做了披露。
訊飛開放平臺2.0這一年
人工智能(AI)是引領科技革命和產業變革的戰略型技術,具有溢出帶動性很強的“頭雁”效應。
國內AI技術標桿和商業落地巨頭科大訊飛,通過訊飛開放平臺戰略推動AI落地。2022年是訊飛這項戰略進入深水區的第一年。
從框架結構看,訊飛2.0以“科大訊飛+行業龍頭+開發者”三個維度,通過訊飛開放技術平臺和工具,結合行業特性和數據,形成數字底座,再通過開發者將數字底座與特定的軟硬件環境做匹配,最終形成完整的行業AI數字解決方案。
在過去的一年,科大訊飛堅持在源頭技術上創新,實現了單項技術的持續突破:比如在語音、圖像和認知的國際高水平技術評測中,訊飛獲得12項比賽冠軍。與此同時,訊飛超腦2030計劃在多模感知、多維表達、交互大腦和應用智能層面實現多技術深度融合。
其中,多模感知,解決的問題是商場、醫院和地鐵等開放場景使用語音識別、面臨各種噪聲或同方向人聲干擾時,可通過訊飛提出的多模感知技術,將人臉部的唇形、表情等和語音輸入結合,將這類復雜場景下語音識別的錯誤率從30%降低至10%,讓機器更準確地感知世界。
交互大腦系統具備深度理解能力。通過機器學習,形成深度知識圖譜和自身理解體系,從而解析不同行業的知識。比如,實現醫療知識更好地服務醫生、能使工業聽診器有能力發現各種機器噪聲故障等。
所謂多維表達,即通過少量有監督數據,訓練得到語義人設與音色空間的映射關系,實現語義可控的聲音創造。把語音、形象和感情結合起來,實現機器和人的情感互動。
在運動智能方面,通俗說起來,就是既要讓人工智能有一顆強大的大腦,也要讓人工智能有一個靈巧的身體。用智能化強化學習模型改進經典算法,科大訊飛實現了機器運動能力的提升和持續進化。
在訊飛開放平臺技術框架的“行業龍頭”維度,據科大訊飛總裁吳曉如透露,開放平臺2.0戰略已在14個行業落地,與數十家行業龍頭達成戰略合作,超1600家第三方合作伙伴加入共創,形成良好的生態帶動效應。
科大訊飛設置了“教育、醫療、智慧城市、農業、環保、汽車、酒類和旅游”等18個主要賽道。其中,工業、教育和金融是三個重點行業。
開發者數量,一直以來,都是各技術巨頭公司建立繁榮生態圈的核心指標。
在過去一年,訊飛開放平臺2.0聚合的開發者團隊從265萬增長至370萬。在此基礎上的AI能力數,也從441項增長至513項;同時,在虛擬人交互平臺上,科大訊飛合作468家設計廠商,形成700多項虛擬資產,累計服務1000多家客戶。
對于訊飛AI開放平臺未來的能力演進方向,吳曉如稱,人工智能開放平臺有四個關鍵點需要持續提升:一是為實體和虛擬經濟提供更強大的AI能力,二是場景智能需要有更高效的運用行業知識,三是人機協同需要人能更高效的使用AI工具,四是AI使用會具備便捷性、隱私保護和數據安全。
2.0戰略做了哪些技術升級
基于訊飛AI開放平臺四項未來技術演進能力,圍繞訊飛超腦2030,科大訊飛在開放平臺2.0的基礎上做了進一步升級,為百萬開發者和生態合作伙伴提供更強AI核心能力的人工智能開放平臺。
這些升級內容包括依托AILAB模型云,實現用更少的數據量訓練多場景模型;通過AIRPA超自動化,讓開發者更便捷地用拖拉拽模式制作智能化應用;基于AIBOT機器人超腦,讓機器人行業能從感知認知到運動智能的各個方面都能快速得到一體化解決方案。
其中,依托AILAB模型云,在事實上成為訊飛多場景AI服務的必選項。因為多場景數據量增速極快,由此形成AILAB模型云的堅實基礎。
據科大訊飛消費者事業群總裁于繼棟透露,2022年,訊飛AI服務在線調用年增長率達36%。
在社交場景,近一年輸入法語音調用量同比增長45%,超過平臺AI調用增速。其中,Z世代群體對語音輸入更為偏愛,女性使用語音的比例是男性的1.4倍。語音輸入已成為日常交流中人機交互的重要方式。
當人們身處家庭場景,電視助手語音調用量過去3年間,增長515%。全年齡段用戶都已形成語音交互習慣,其中14歲以下的少年兒童群體和60歲以上的中老年群體,比成年用戶更偏愛語音交互。
出行時,車載語音調用量增長翻倍。在過去一年全國出口的200萬輛汽車中,預制訊飛多語種語音交互系統的車輛已超71%。合作車企在科大訊飛的助力下,已將13個語種推廣到全球20個國家。
過去一年內,教育相關的AI調用呈現出902%的增長(學習場景);錄音筆平均每天為每個用戶節省1.32小時(辦公場景)。
隨著社交、家庭、出行、學習和辦公等越來越多AI場景的廣泛應用,人工智能在人機交互階段已走進千行百業。人工智能與生活結合的如此緊密,就技術應用的深度看,相當于當前正在快速進入人機協同階段。
為滿足人機交互需求,訊飛開放平臺做了多方面技術能力的升級:在感知智能、認知智能和運動智能的技術底座上,圍繞能力云、交互云、模型云、資產平臺、超自動化和機器人超腦,以API、低代碼、軟硬件一體和解決方案的方式,面向實體機器人和數字機器人建設N種場景化機器人。
在此基礎上,科大訊飛發布機器人超腦平臺AIBOT,以承接這個產業階段帶來的新商業價值。
于繼棟表示,融入多模交互、深度理解、運動控制和硬件模組等核心能力的機器人超腦平臺,能為實體機器人提供高性能的算力支撐、高效率的地圖導航以及高精度的定位功能,研制出軟硬一體的智能化機器人。
華爾街見聞在“科大訊飛1024開發者節”會議上獲悉,“軟硬一體智能化機器人”已有實際應用案例。
比如能說會跑的狗:來自宇數科技的四足機器狗在訊飛機器人超腦平臺的加持下,已實現自適應地形、全局定位搜索、地圖快速構建和更精細的運動控制四種能力。因此,機器狗能跑會跳,能看會說,可應用于戶外巡邏、工業巡檢等多元化場景。
“超腦2030計劃”階段成果
虛擬人交互技術,也是在過去一年,科大訊飛開放式AI平臺單兵突進的一個技術方向。
“支撐‘訊飛超腦2030計劃’的發展,有兩個關鍵算法亟待突破:無監督學習和知識推理。”科大訊飛AI研究院副院長高建清說,“前者要做到實用化、場景化的預訓練技術,后者要構建基于知識檢索、決策以及融合的推理系統。”
科大訊飛設計了基于無監督學習的預訓練框架,并使用了少量有監督數據做優化,大幅提升訓練效率。
針對多模語音識別、情感識別等多模態任務,新的預訓練框架對音頻、人臉等不同模態的輸入一視同仁,利用其中內容、表情及身份等信息的關聯性做融合,可設計出不同的訓練目標。
訊飛用少量有監督數據構建碼本,使訓練機時下降八成,實現了實用化預訓練。
在無監督學習的預訓練算法框架下,訊飛開放了輕量化的中文語音、中英文多模態預訓練模型。高建清說,“預訓練模型支持語音識別、聲紋識別、情感識別、多模態語音識別等多個任務,參數量遠遠少于業界公開的模型,但效果卻達到了業界相對最優。”
在知識推理方面,以回答“包在低溫下會馬上發霉嗎”為例,機器要理解“低溫變質慢”等常識,在引入海量知識的基礎上,要用預訓練模型進行知識重要性排序,也要融合知識與問題進行推理,才能與人暢聊“面包變質的二三事”。
同時,也提出了知識與問題融合的Across attention model,實現問題和知識之間的充分交互,從而實現更有效的知識推理。
此外,科大訊飛還探索將神經網絡與符號推理相結合,實現了推理過程的可解釋性。應用于小學平面幾何題上,這個推理系統讓AI答題的正確率從完全不可用,提升到了90%的水平,顯著優于傳統推理系統。
值得一提的是,科大訊飛基于多模態交互以及醫療認知技術,研發了一套抑郁癥定量篩查系統。這可模擬心理醫生的問診思路做交互設計,用戶通過與機器聊天的方式,即可初步實現病情的定量評估,篩查效果達到91.2%(北京安定醫院實測數據)。
目前,這一系統已在北京安定醫院等醫療機構做試點應用?!拔磥?,基于定量篩查基礎能力,我們將研發抑郁癥篩查平臺,向更多學校推廣,助力青少年心理成長?!备呓ㄇ灞硎?。
作為“訊飛超腦2030計劃”的階段性成果,今年科大訊飛構建了多款專業虛擬人,分別用于客服、助理、招聘、財務和法務等行業的工作,這些都具有一個共同特點:豐富的專業知識。
通過深入學習行業知識,訊飛定制研發了多行業交互大腦,目前已為金融、電信、媒體等多行業提供專業虛擬人解決方案,為“數字經濟”服務。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。