性夜影院午夜看片,国产亚洲中文日本不卡二区

玉林实硕医疗科技有限公司

今日要點：

1、蘋果在 iOS17 中加入transformer語言模型，用于提高文字和語音轉文字時的準確性。

(資料圖片僅供參考)

2、蘋果開發人員：Vision Pro里用了“腦機接口”，通過檢測眼睛等準確預測用戶下一步要做什么

3、MetaVL: 將上下文學習能力從語言模型遷移到視覺，開啟下一個多模態時代

4、Runway獲得1億美元D輪融資，谷歌領投

見聞視角

海外AI

1、蘋果在ios17中加入transformer語言模型，用于提高文字和語音轉文字時的準確性。

蘋果在今日更新的ios系統介紹中，闡述了使用transformer語言模型，用于提高文字和語音轉文字時的準確性，通過用于單詞預測——提高了用戶每次鍵入時的體驗和準確性。而這個模型如同蘋果一直以來強調對用戶的隱私保護一樣，是在手機端的模型。

見智研究認為，蘋果使用transformer模型用于一些基礎應用符合蘋果一直以來的務實精神，蘋果從不強調某項技術是否先進，而是要在用戶體驗上做到極致。這也是蘋果一直強調技術落地到應用的體現。

見智研究相信蘋果設備在明年將會擁有自己的llm模型，而這個模型按照蘋果一貫的隱私保護模式，應為純本地化的模型。

2、蘋果開發人員：Vision Pro里用了“腦機”，通過檢測眼睛準確預測用戶下一步要做什么

一位在AR/VR領域工作十年、擔任蘋果AR神經技術研究員的網友Sterling Crispin發推文，介紹了蘋果AR的神經技術研發

根據Crispin的介紹和蘋果的專利說明，蘋果的神經技術可以做到預測用戶行為、根據用戶狀態調整虛擬環境。

最酷的結果是在用戶實際點擊之前預測他們會點擊什么，人們的瞳孔在點擊之前往往有反應，原因是人們會期望在點擊之后會發生什么。

這時可以通過監測用戶的眼睛行為來創造生物反饋，并實時重新設計用戶界面，以創造更多預期的瞳孔反應。這是一個通過眼睛實現的粗略“腦機接口”，用戶不用接受侵入性的腦部外科手術。

推斷認知狀態的其他技術，包括以用戶可能無法察覺的方式向他們快速閃現視覺或聲音，然后測量他們的反應。

見智研究認為，蘋果通過全新的神經技術對人的行為進行預測，從而大幅減小了vision產品整個UI操作的延遲，大幅提升用戶體驗。從無數細節中可以看到，蘋果在用搬山能力處理每一個細節，這個軟硬整合能力，不是誰能可以隨便模仿的，它所體現的每一個細節，都看出蘋果花費巨大的功夫在解決交互體驗。這也是蘋果之所以偉大的地方。

3、MetaVL: 將上下文學習能力從語言模型遷移到視覺，開啟下一個多模態時代

動機：研究如何在視覺-語言領域實現上下文學習，將單模態的元學習知識轉移到多模態中，以提高大規模預訓練視覺-語言(VL)模型的能力。方法：首先在自然語言處理(NLP)任務上元訓練一個語言模型，實現上下文學習，然后通過連接一個視覺編碼器將該模型轉移到視覺-語言任務上，以實現跨模態的上下文學習能力的轉移。優勢：實驗證明，跨模態的上下文學習能力可以轉移，該模型顯著提高了視覺-語言任務上的上下文學習能力，并且在模型大小方面能夠有顯著的優化，例如在VQA、OK-VQA和GQA上，所提出方法在參數數量減少約20倍的情況下超過了基準模型。

見智研究一句話總結:

M Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了將元學習的上下文學習能力從單模態遷移到多模態的可能性，證明了在視覺-語言任務中通過遷移可以顯著提升上下文學習能力，甚至在模型大小方面實現優化。

這意味著多模態情況下的對話能力將得到加強，對于現有的文生圖來說可能會帶來新的變化，生成模式對用戶將更友好。