AI見聞日報:見智實測“超級網紅”Runway Gen2,一鍵文生視頻,比Midjourney更易用 | 見智研究
今日要點:
1、谷歌大手筆投資的Runway正式發布Gen2,文字生成視頻成真,內附見智實測;
2、360智腦通過中國信通院可信AIGC大語言模型功能評估,為國內首家;
(資料圖)
3、阿里達摩院開源Video-LLaMA,幫大語言模型加上“眼睛”、“耳朵”;
4、AI生成二維碼—將快速應用于廣告市場;
每日AI
1、谷歌大手筆投資的Runway正式發布Gen2,文字生成視頻成真,內附見智實測
今天,真正的文本一鍵生成視頻出現了。Stable Diffusion和《瞬息全宇宙》背后技術公司Runway,出品的text?to?video的AI視頻編輯工具Gen2,今日開放用戶使用。Gen2,也在內測階段就被網友稱贊“視頻界的Midjourney”。
見智今天使用runway的app版本做了一個貓的視頻;Prompt:?A golden gradient cat is jumping in the grass,同時又給了一張小貓咪的圖作為模板。
目前來看runway已經能夠按照指令生成相應的視頻,但是精細程度和對prompt的理解程度相對圖片生成平臺Midjourney還是明顯要弱一些的。但是隨著用戶大規模的使用改進,相信Runway的Gen2很快可以風靡小視頻創作領域。
見智點評:隨著多模態模型的發展,從文字-圖片-視頻之間的相互生成將改變整個用戶生態。對于產業界來說,只成為素材生產者還遠遠不夠,能夠將生成素材進一步便捷讓用戶生成最終形態應用將是AI應用發展更重要的一步。
2、360智腦通過中國信通院可信AIGC大語言模型功能評估,為國內首家
360智腦的360GPT-S2-V8型號產品獲得了中國信息通信研究院“可信AIGC大語言模型基礎能力”評估報告,報告顯示必選項目評估內容均通過。據悉,360智腦是國內首個通過中國信通院該項權威評估的大模型產品。
見智點評:360智腦成為首家通過中國信通院權威認證,一方面說明了通用大模型的基礎能力得到認可,重要的是數據集的安全性有了國家的背書,更有助于之后大范圍的商用應用推廣。同時關注明天的360智腦發布會。
3、阿里達摩院開源Video-LLaMA,幫大語言模型加上“眼睛”、“耳朵”
阿里達摩院的研究人員提出了 Video-LLaMA,一個具有綜合視聽能力大模型。Video-LLaMA 能夠感知和理解視頻中的視頻和音頻信號, ?并能理解用戶輸入的指令,完成一系列基于音視頻的復雜任務,例如音 / 視頻描述,寫作,問答等。目前論文,代碼,交互 demo 都已開放。另外,在 Video-LLaMA 的項目主頁中,該研究團隊還提供了中文版本的模型,讓中文用戶的體驗更絲滑。
見智點評:阿里達摩院讓Video-LLaMA開源,進一步推動國內多模態大模型的發展進程。視聽綜合大模型非常適用于辦公、學習領域的應用。另外,Video-LLaMA大模型對于靜態圖像也有比較強的理解能力,能夠完成圖片描述和問答。
4、AI生成二維碼—將快速應用于廣告市場
擺脫單調的黑白,使用 ControlNet 的 AI 生成的二維碼將更具特色和商業價值。
具體來看一個應用顯示:識別二維碼推薦的是QRBTF -就是一款能夠制作漂亮有趣二維碼的免費開源在線工具;
見智點評:ControlNet是基于Stable_Diffusion進行AI生成的一種訓練方式,它的特點是計算方法更高效,因為訓練不需要在原始編碼器上進行,所以更節省GPU內存,訓練速度也更快。最值得關注的是,ControlNet這種有控制的生成AI圖像更能夠得到我們想要的圖片結果,同時操作方式簡單能夠在PC端運行。
從應用層面來看,我們看到這種創意形 AI 生成的二維碼更能夠具有品牌專屬特性且方便進行品牌或者網站等任何產品的推廣應用。在不久的將來,這將在廣告中越來越普遍。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: