AI一周見聞:微軟win11啟動AI變革;英偉達助力辦公軟件降本23%;視頻訓練成為機器人重要學習路徑 | 見智研究
見智視角
本周AI的重要風向在win操作系統、辦公軟件應用和大模型私有化部署所展現出巨大的市場潛力。微軟的操作系統變革將為用戶帶來更智能、高效的體驗,辦公軟件應用的AI技術將提高圖像處理能力,而大模型私有化部署的發展將使AI在to B應用上更加安全可控,這些趨勢將對相關行業和公司的發展產生重要影響,為AI的廣泛應用提供更多機遇。
本周要點
AI應用:
(資料圖片)
Copilot"落戶"Windows11,操作系統的AI變革時刻已來金山辦公引入英偉達推理服務器和GPU,圖像任務能降本23%Midjourney 5.2又更新,這次AI生圖開始卷向表情包十秒剪視頻,Whisper模型讓每個人都能成為“剪輯師”機器人看YouTube學會做家務,大規模視頻訓練機器人成為重要路徑Unity推出AI Hub平臺,股價飆漲 15%,AI革命游戲的進程在加速大模型:
谷歌 DeepMind花數千萬美元打造ChatGPT的競品,多模態視頻訓練將成為特色PrivateGPT 開源模型可實現不連網提問;本地部署未來空間大恒生電子發布金融行業大模型LightGPT,金融大模型場景多樣化,需求確定性強智譜AI為大模型應用更近一步!成為法律專用大模型底座融資風向:AI安全成為資本的下一個風口,CalypsoAI融資2300萬美元
AI應用
1、Copilot"落戶"Windows11,操作系統的AI變革時刻已來
微軟官宣向開發者頻道中的 Windows Insiders 提供 Windows Copilot 的早期預覽。
第一個預覽版重點關注集成 UI 體驗,Windows Copilot 將顯示為停靠在右側的側欄,不會與桌面內容重疊,并且將在打開的應用程序窗口旁邊無障礙運行,可以隨時與 Windows Copilot 進行交互。 ?
在window11?Copilot 的預覽版本中,用戶可以提出以下種類問題:
內容涉及:個性化系統設置、截圖、文生文和文生圖的功能;
此外,Win11更新還包括本機支持讀取其他存檔文件格式 ;如常見.rar\ .7z等壓縮文件;
見智點評:
微軟兌現了在 5 月份的 Build 大會上的承諾,本次Copilot 的預覽版本落地win11,成為操作系統邁入AI時代的重要一步,之后win11會成為第一代AI系統的大規模商用版本;此外,微軟也表示在25年會停止win10的服務,包括專業版和家庭版,意味著那時起操作系統將會全面進入AI 時代。這將為用戶提供更智能、高效的操作體驗,并為微軟帶來新的商業機會。
2、 金山辦公引入英偉達推理服務器和GPU,圖像任務能降本23%
金山辦公官宣與NVIDIA 團隊合作,為解決圖像識別和理解任務耗時過長和成本的問題,
引入 ?NVIDIA T4 Tensor Core GPU 進行推理、NVIDIA TensorRT 8.2.4 進行模型加速、NVIDIA Triton 推理服務器 22.04 在 K8S 上進行模型部署與編排。
通過 GPU 推理和 TensorRT 加速,成功將耗時從15秒降低到了 2.4 秒左右;部署成本節省了 23% 。
見智點評:
英偉達推理服務器的部署,成功優化了GPU的利用率,提高了辦公軟件對圖像文檔識別和推理的效率,能夠實現辦公軟件業務降本增效的預期。這一合作為WPS AI的落地應用提供了更高效的解決方案,這部分 AI 新能力集中在閱讀理解、問答、人機交互等方面。
WPS AI 已經開始內測階段,啟動大規模商用后,對國內辦公軟件使用體驗將帶來全面升級。這一合作將提升金山辦公的圖像處理能力,并為其在辦公軟件市場中的競爭力帶來優勢。
3、Midjourney 5.2又更新,這次AI生圖開始卷向表情包
Midjourney 5.2更新「weird」新功能,可自定義詭異等級。根據官網顯示通過調節weird參數的大小即能夠控制生成照片的詭異風格,參數越大照片越奇怪;但是該功能還只限于付費用戶使用;
此外,還更新了「turbo」模式:該功能是能夠以四倍速加速圖片生成;不過相較于傳統快速作業模式仍舊是需要消耗2倍的GPU;
見智點評:
圖片生成在AI的影響下正在從傳統模式進入一種新范式,weird模式增加了圖片超越常規認知的可能性創作,這種模式具備更多娛樂屬性,如果免費開放應用,那么大概率會在社交圈引爆。這一更新將進一步推動表情包制作的自動化和智能化,為用戶提供更多創意和娛樂選擇。
4、十秒剪視頻,Whisper模型讓每個人都能成為“剪輯師”
荷蘭開發者Matthijs Hollemans在HuggingFace上基于Whisper開發了視頻剪輯新功能,現在剪視頻能夠精準到每個字。
在平臺上可以對上傳的視頻內容進行同步文字轉化,只需要選擇留下的文字,然后就可以直接生成所需的片段。使用過程非常簡單,可累比相機界的“傻瓜相機”。
見智點評:
AI應用層出不窮,此前主要是AI生成圖片內卷非常嚴重,幾乎是每周都有重要更新,現在這個迭代速度已經開始向視頻領域蔓延,這個小白剪視頻的功能讓剪視頻門檻大大降低,同時節省了很多制作時間,效率優化超過90%,對于視頻創作行業來說具有重大影響。這將進一步推動用戶在社交媒體上的創作和分享活動,對于Whisper模型的開發商來說,商業機會也將隨之增加。
5、機器人看YouTube學會做家務,大規模視頻訓練機器人成為重要路徑
CMU機器人研究所助理教授Deepak Pathak展示了一種視覺機器人橋方法(VRB);通過讓機器觀看人類行為方式的視頻完成行為模擬,并驗證了該方法的有效性。機器人觀看了幾個人類開抽屜的視頻后,可以效仿人類行為做出打開抽屜的動作。
見智點評:
這種方法的關鍵在于利用大規模的視頻數據來訓練機器人,并從中學習人類行為和操作。這為機器人的應用提供了更廣泛的可能性,可以通過觀察互聯網和YouTube等視頻來獲取更多的訓練數據。這種方法可以改進機器人的操作能力,并為機器人在日常生活中的應用提供更多的機會。
視頻訓練將成為機器人學習的重要路徑,進一步推動機器人技術在家庭和服務領域的應用和發展。
6、Unity推出AI Hub平臺,股價飆漲 15%,AI革命游戲的進程在加速
全球領先的3D內容平臺Unity宣布推出AI Hub平臺,允許 AI 軟件開發者通過 AI Hub 向游戲研發商直接供應開發軟件,并通過 Unity 的 Asset Store 收費;
同時推出了10個經驗證的解決方案,還在Unity Asset Store中推出兩款新的AI產品“Unity Sentis“及“Unity Muse”并正式啟動內測,預計將賦能AI驅動的游戲開發效率提升以及玩法升級。
見智點評:
AI將以非常迅速的節奏改變游戲制作方式以及降低成本,這已經成為游戲行業不可逆轉的路徑。游戲行業的格局或許也會因為生成式AI帶來巨變,AI革命游戲行業的進程在加速。
新AI平臺的推出印證了目前開發人員對于AI工具的巨大需求存在,而Unity似乎已經找到了新的盈利模式,AI Hub平臺很快將成為開發者和游戲公司最受歡迎的資源聚合平臺,看起來Unity將會在這場全新變革中賺的盆滿缽滿
大模型
1、谷歌 DeepMind花數千萬美元打造ChatGPT的競品,多模態視頻訓練將成為特色
谷歌DeepMind CEO Hassabis近日對外媒Wired表示,Gemini還在開發中,還需要幾個月,而谷歌DeepMind已經準備砸進數千萬美元,甚至數億。
The Information最近的一篇報道表述:谷歌的研究人員一直在使用YouTube來開發Gemini。
人工智能從業者表示:這可能是谷歌DeepMind的一個優勢,因為它可以“比抓取視頻的競爭對手更完整地訪問視頻數據”。
見智點評:
Google或是受到上一代聊天機器人Bard發布會重大失誤的刺激,目前對Gemini給予了厚望,希望不僅僅是對標ChatGPT,更想要超越,所以在訓練下一代聊天機器人時候,更側重多模態訓練,特別是視頻數據投喂,這點目前是ChatGPT所做不到的,也是Google想要的差異化市場競爭,大廠對大模型的爭奪仍在繼續。
2、PrivateGPT 開源模型可實現不連網提問;本地部署未來空間大
開發者Iván Martínez Toro發布了PrivateGPT開源模型,該模型允許用戶在無需互聯網連接的情況下,通過提供自己的文檔來向模型提問。
PrivateGPT可以在家用設備上進行本地運行,使用前需要下載名為"gpt4all"的開源大語言模型(LLM)。用戶需要將所有相關文件放入一個目錄中,以供模型引入所有數據。完成LLM的訓練后,用戶可以向模型提出任何問題,它將使用提供的文檔作為上下文來回答。PrivateGPT能夠處理超過58000個單詞,目前需要大量本地計算資源(推薦使用高端CPU)進行設置。
Toro表示,當前PrivateGPT處于概念驗證(PoC)階段,它至少證明了可以在本地創建類似于ChatGPT的大模型??梢灶A見,一旦這種PoC轉變為實際產品,PrivateGPT將具備讓公司獲得個性化、安全和私密的ChatGPT來提高生產力的潛力。
見智點評:
PrivateGPT開啟行業對本地化部署的重視程度,這對于那些關注數據隱私和安全的行業和個人非常重要。通過本地化部署,用戶可以更好地控制和保護他們的數據,減少了數據泄露和侵犯隱私的風險;開源模型和本地化部署將在未來產生積極的影響。
3、恒生電子發布金融行業大模型LightGPT,金融大模型場景多樣化,需求確定性強
LightGPT可以為投顧、客服、投研、運營、風控、合規、研發等金融業務場景提供底層AI能服務,支持超過80+金融專屬任務指令微調。具備金融專業問答、邏輯推理、超長文本處理能力、多模態交互能力、代碼處理等能力;
模型使用了超4000億tokens的金融領域數據(包括資訊、公告、研報、結構化數據等)和超過400億tokens的語種強化數據(包括金融教材、金融百科、政府報告、法規條例等),并以之作為大模型的二次預訓練語料。
LightGPT擁有更為豐富、輕量化的部署方式,支持私有化/云部署以及靈活API調用,推理端僅需一機2卡部署。
見智點評:
一方面基于數據安全,一方面基于應用場景多樣化,金融大模型的需求確定性很強。
此前彭博已推出金融行業大語言模型BloombergGPT;騰訊云也正在攜手神州信息開展金融大模型合作;此前我們也作過多次金融大模型發展的動態點評,很多券商、銀行和基金公司都在進行AI研發投入,以及AI產品的推出;恒生電子基于此前金融行業多年的IT服務經驗,本次推出LightGPT大模型具有重要意義,之后我們也會繼續跟進LightGPT開放測試之后的體驗反饋。
4、智譜AI為大模型應用更近一步!成為法律專用大模型底座
冪律聯合智譜AI發布基于中文千億大模型的法律垂直大模型——PowerLawGLM,聚焦于法律細分領域,針對中文法律場景的應用效果具有獨特優勢,具備豐富的法律知識和法律語言理解能力。
基于PowerLawGLM大模型的能力,冪律還打造了法律對話產品ChatMe,現已正式上線,首批開放50個內測名額
PowerLawGLM是基于智譜的ChatGLM 130B通用千億對話大模型進行聯合研發,經過多輪多次高質量法律文本數據(裁判文書、法律法規、法律知識問答等)清洗及模型增量訓練,得到法律版基座大模型LawGLM 130B。在100個問題的評測結果上來看:PowerLawGLM可實現70%左右的最優答案。
見智點評:
大模型如果直接應用在法律領域,會存在輸出結果與需求很嚴重不匹配程度很高的問題。因為大模型的數據結果是基于數據訓練來生成的,但是不同國家的法律規則是完全不同的,具有很強的專業性和區域限制,所以采用全球通用大模型很難得到滿意的內容。
中文千億大模型的法律垂直大模型PowerLawGLM就能夠很好的適配我國的案例情況。中文法律大模型僅僅是一個開始,未來很多行業都會陸續推出專業領域的大模型,同時會基于垂直大模型打造人工智能對話產品。智譜AI做為最底層模型,對于開發專業領域大模型具有重要意義;之前還開源過一個更小容量的ChatGLM-6B模型,特別適合學習和輕量開發;另外最值得關注的是大模型訓練中如何平衡訓練穩定性和效率。
AI融資
AI安全成為資本的下一個風口,CalypsoAI融資2300萬美元
CalypsoAI的產品可對標360安全管家,主要發布一些ChatGPT等大語言模型提供安全護欄的產品,包括惡意代碼檢測、越獄預防等特色防護功能。要解決數據隱私、安全防護、輸出非法信息等難點,以加快金融、醫療、法律等行業對ChatGPT等生成式AI產品的場景化落地。
CalypsoAI在官網宣布,獲得2300萬美元(約1.6億元)A-1輪融資。本次由Paladin Capital Group 領投,洛克希德·馬丁風險投資、Hakluyt Capital等跟投。
見智點評:
資本的關注焦點已經不局限于大模型、AI應用、現在已經開始下注AI安全產品。畢竟大模型做為底層工具,一旦被污染或遭受攻擊,輸出的內容則會完全偏離預期,無疑是對算力資源的浪費,同時還會產生公司數據泄露等安全問題。所以AI安全產品也必然會成為未來市場需求的一個重要領域。
下周關注:人工智能大會
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: