今日訊!【直播紀要】AIGC有哪些新看點?| 見智研究
特邀嘉賓:凌云光技術股份有限公司董事/副總經理【楊藝】、凌云光技術股份有限公司BU總經理【熊偉】
(資料圖片僅供參考)
摘要:
1、AIGC為什么火了?
AIGC是從文字、聲音、還有圖畫等二維層面的應用陸續發展起來。目前人們更關心AIGC在三維世界中能做什么?首先要將技術數字化,自動化,最后達到智能化。AIGC能夠通過虛擬數字人得到一次重大的發展。
2、數字人上用到AIGC技術僅有一成
虛擬人的主要制作過程包括:建模、驅動,渲染。目前AI能占10%的輔助作用。非常期待AI的參與能力能夠達到90%,這樣就能提高節目制作效率。還需要幾次技術的質變才能達到從10%到90%的利用率提升。
3、數字人制作成本在快速下降
之前制作一個15分鐘渲染的沉浸體驗式節目,需要700w元的制作成本?,F在基本上可以實現每分鐘10w元。未來希望能夠實現每分鐘1w元,甚至每分鐘幾千元的價格。
4、產業鏈的核心環節是什么?
虛擬內容制作中,大量的成本是在資產創作環節。比如說數字人三維模型以及基礎動畫的創建,是最重要的資產內容。
正文:
見智研究:
AIGC為什么在當下突然火了,還掀起了全民熱潮?
楊藝:
在互聯網上原來是有UGC、PGC,現在很開心看到大家把AIGC也放在里面。AIGC首先是分成兩段,先是AI,然后才是GC,也就是用AI來generate content。
現在虛擬現實和元宇宙等更多指向三維世界的創造是大家非常關心的話題,然而AIGC其實在過去是從文字、聲音、還有圖畫、和平等二維世界陸續發展起來。
最近一段時間,二維世界中的AIGC也有了非常好的技術進步甚至能達到以假亂真的個程度。
我們現在更關心在三維世界里,AI到底能為我們做什么?
現在的AIGC在三維世界中能承擔的角色還比較少。所有的技術首先要將它數字化,再自動化,最后達到智能化。
而現在的AI技術在三維世界里處理點云,再轉換到自動化的內容,整個制作的過程我們還沒有掌握出很好的規律,所以AI暫時是幫不上什么大忙,更多是在信息采集及處理時候的一些輔助作用。
所以AIGC目前在三維世界里的作用還比較有限,但比較可喜的事就是出現了虛擬數字人。
虛擬數字人就相等于做出了三維的形象,并且能放在虛擬世界里。聲音與文字又作為載體讓AIGC在三維空間中釋放出活力。所以我們非常期待AIGC能夠通過虛擬數字人得到一次重大的發展。
見智研究:
AIGC目前用在了數字人制作的哪些方面?
楊藝:
首先要進行建模,建模了之后要驅動,驅動之后要基于各種環境進行渲染。在用光場技術獲取點云的時候還會經常出現一些干擾。
當需要進行修補工作的時候,AI技術可以很好地加速修補這樣的自動化工作。在驅動過程中,從動作采集到自動驅動甚至智能化驅動,AI技術也能比較好地發揮它的作用。
另外我們都知道渲染是需要很多適應光的照明條件,目前AI只能占到建模渲染驅動上10%的輔助作用。
我們非常期待它的參與能力能夠達到90%,這樣就能大幅的加快節目制作的效率。我們還在不斷地打磨,還需要幾次技術的質變才能達到從10%到90%的利用率的提升。
進行渲染的工具是比較復雜的。首先在裝備上需要做的穩定可靠,獲得的信息要完整,而且它還要軟件結合,和軟件也結合在一起,這是一個工具基礎建設裝備的過程。所以在這十年中,我們有了這些基礎,就有幸參與到了整個虛擬數字人的成長階段。
在世界 VR 大會上發布了對虛擬數字人的定義:
第一個 level 就是三維建模,首先,先獲得一個數字人的形象,基本上是用來做平面宣傳,相對偏靜態的;
第二個 level就是我們跟動作已經綁定在一起了,所以他需要采集和動作合在一起;
第三個level就開始要形成很好的實時渲染能力,能夠實時表演;
第四個 level是要有 AI 的能力,比如說像冬奧手語,數字人之類直接來進行回答你的問題;
第五個 level我們定義為是需要智能,不僅能夠有 AI 的知識,還能夠進行交互,而且在交互的時候你能懂得他的表情,他也能夠懂得一些你的語氣語義所帶來的這種含義。
目前,虛擬數字人制作起來超級貴,甚至達到千萬級別,我們基本上做一些名人的數字人,比如說去制造鄧麗君,梅蘭芳大師等,制作過程非常精細,甚至需要帶著一定的微表情,基本上都要手動去每幀去調整,然后每個面片每個面片去綁定,所以成本就是非常昂貴。
當然,不同的 level 的追求和費用是不一樣的,而且它背后牽扯到的技術還沒有達到全自動,這個效率又決定了費用的提高。
目前我們開發這么多的裝備和軟件以及算法,就是為了讓工作效率提升,未來用 10 萬級的成本就能夠實現現在百萬級的數字人效果。這是未來一年到兩年的時間我們的主要的奮斗目標。
見智研究:
未來要實現這種級別的跨越,可能會涉及到哪些軟硬件升級?
楊藝:
首先在數據采集這個層面上,最初都是用3D的照明,相當于數字人的采集系統。
它是用復雜的散斑照明系統,來模擬各種環境光的照明,甚至還增加偏振,讓各種色彩維度的信息的能夠模擬,包括人臉上的皮膚發質等等在不同的環境下能夠被很好地適應。
在今年年底,在研的last stage 的產品就能夠比較好地服務于我們的應用,整個后面的渲染工作就可以從原來完全無法自動化向自動化推進一些。
另外,我們希望動作捕捉系統能夠有更高的精度,同時在算法軟件上,也就是運用一些 AI 的技術,把我們大量采集到的數據中獲得的一些噪聲和干擾能夠比較充分的剔除掉。
這樣獲得的數據能夠比較好的推動自動驅動和自動綁定技術,所以算法工作,還有的硬件裝備的提升,對整個工作的自動化的提高,會產生很大的推進效果。
而且的話我覺得我們比較有幸能看到,在渲染引擎上,無論是國內還是國際,尤其是國際的UE ,從 UE 4 到現在的UE 5確實是在數字人這個層面上的后期升層過程中已經是非常友好,都高了很多,所以這些話合在一起的話,能夠讓數字人更加逼真性和寫實。
見智研究:
數字人距離大規模的商用還有多遠呢?
熊偉:
虛擬人在音樂主播、線上表演、電商直播、教育、銀行客服等方面都已經在展開。但是制作成本相對來講比較高的。
隨著這兩年AI的制作技術的大幅提升以后,數字人無論在形象上,還是解決問題的能力上會越來越滿足大規模商業化的需求,未來兩到三年的這個時間之內可以實現的。
之前湖南博物館的項目經驗,制作一個 15 分鐘的一個深度沉浸體驗式的節目,需要700w元的成本。
現在我們基本上可以做到每分鐘達到 10 w元。但我們的目標是希望未來能夠實現每分鐘1 萬,甚至每分鐘可以幾千元。這樣的話,會迎來比較規?;纳虡I到來。
見智研究:
數字人產業鏈是如何劃分的?
熊偉:
從創造數字內容或者是我們沉浸式角度來講的話,大概可以分為四個層級。
那基礎的層級就是通信,運算, GPU 運算、 CPU 運算,云計算、區塊鏈等底層技術。
在上一層是交互體驗終端,像是XR、3D顯示。
然后再上一層就是創作內容,包括內容制作工具,內容制作的團隊,創造 IP的團隊。
頂層,就是應用以及運營分發平臺了。
見智研究:
這個行業的核心的競爭力是什么?
熊偉:
未來其實整個數字人的平臺的制作,它其實是一個多環節組成的,就是我們剛剛前面說的這種關鍵技術,是里面一個很重要的核心點。
當然整個數字 IP 打造是另外一個核心點,就是說最后我們要創造這種普通的真人藝人一樣。那你數字人怎么讓一個藝人成名怎么有價值,這也是非常重要的事情。
最后就是我們也要讓他有真正的一些商業的鏈接去做。
當然前期我們覺得目前真正卡住數字人以及這種虛擬現實產業往前發展的地方還是在技術環節。
因為這么多年,原來我們創作內容還是位于那種影視游戲這種離線內容創作來用的。但是到了元宇宙虛擬現實環節,我們的內容大量是要實時交互的,它要一個更加高效的創造內容的情況,才能讓我們的產業大面積商業化。
這部分就是我們剛剛說到了還有很多要走的路,它能夠讓它變成未來像我們今天看到的短視頻這種媒體大面產生的狀況,這個是我們要去突破的地方。
見智研究:
創作數字人過程中,哪一個環節的技術迭代是最重要的?
熊偉:
我覺得有多個技術環節都很重要。但是我覺得就是像底層那些渲染這些引擎,游戲。
但是本身數字人的資產創建環節,這是里面最核心的,其實我們整個虛擬內容產生的里面大量的成本是在資產創作的環節,就比如說我們數字人三維模型以及它的一些基礎動畫的創建環節,這是它的最重要的資產內容。
好在是我們現在就是有這樣的光場重建技術,它是相當于能夠把我們現實世界當中所有的物體反射出來的光線信息全部收集起來的技術。
然后這樣計算出它人體或者物體表現的這種特性的信息以后,然后把它輸入給引擎,我們渲染引擎就可以完全 1 比 1 的還原出我們的所有物體。
但是這種之前都是靠人工一點點的去靠他自己理解去做出來的,這種效率就很低,真實度也很難保障。
而有了這種光場呈樣技術,未來就可以大量存在。而且在現在的光場成像技術以后,還有了未來升級的空間,就是用 AI 去生成光場,原來我們光場是靠光學技術去還原去計算得到的,這個對于整個光學系統要求很高很精密。
但是我們通過積累大量的高精度光場數據,采集數據庫以后,我們用 AI 學習,將來可以更加輕量化的去產生我們大量內容,這讓我們的數字生產能夠更加高效、更加低成本的產生。
楊藝:
光場采集系統可能對很多聽眾來說都很陌生的詞。
可以這樣去理解,就是說我們是過去拍照片,那整體上都是從一個角度來對大家進行拍照。
但事實上我們真正活在這個世界里面的光是從各個維度來去,就是照到我們每個物體,每個人,都是這樣。而且光所帶來的信息不僅僅是強度、顏色,還有非常多的光譜信息、偏正態的信息,還有很多時序層面上的信息。
其實光本身實際上是里面有很多的高維度的信息,然后我們用光場采集系統,就是把這些高維度的信息也要把它模擬出來。實際上這就是我們為什么在現實生活中,我們人的眼睛看到的世界其實還是蠻豐富多彩的,還蠻細膩的。
但是我們單純用我們原來的相機成像傳感器,實際上拍到的信息是達不到那樣的效果的。這就是需要要把人眼睛所能感知到的高維度的信息,也能用數學和裝備的方式把它解算出來??赡軐砭褪乾F在學光學的年輕人已經越來越知道,計算成像已經不再是陌生的詞了。我們當時讀大學的時候,這都還不是我們學習的知識內容。光場是把立體的事物數字化的,實際上相當于是信息采集的靈魂。
所以我們這個地方是可能今天先理解一下這個詞的存在,然后光場技術的進步,還有它的解算能力是里面一個信息采集的源頭,一定是好的 information 再經過處理就能得到好的結果。所以就信息的源頭的豐富性是清晰處理的關鍵。
見智研究:
未來隨著數字人滲透率的提高,我們還會在哪些領域看到數字人的應用?
熊偉:
數字人早期偏娛樂應用,現在我們發現它可以從事非體力勞動,就是我們用腦力勞動的地方都可以用上數字人,它可以代替我們大量的人去做回答問題的重復性工作。
比如電商領域介紹商品,金融推薦產品,醫療領域、交通領域做簡單的問答,這都可以大量的去代替真人從事服務勞動。
隨著 AI 進一步提升,將來可以代替個人去進行陪護、交流以及更多表現力的工作。
見智研究:
可以分享一個數字人的制作案例嗎?
熊偉:
手語數字人的創立過程其實非常有意思。我們最早想的可能只是做一個能夠動起來的這個動畫,可能很多條件都是標準的固定詞匯,我們覺得可能還比一般的 AI簡單一點。但是后來發現它比一般的 AI動畫數字人難度更高。因為手語數字人對準確性要求非常高。
一般 AI 的數字人其實只要表達出大體的情態、情緒是對的就行。但是手語數字人要傳達信息的每一個動作,每一個表情都要非常精準,而且要連成一段故事,是一段段完整的句子,這樣聾啞人才能看得懂。特別是我們還拿它來做新聞播報,準確性要求就會更高。
所以我們做了大量的工作,才最終達到了我們真正在電視臺上面看到的這種冬奧手語數字人的自動播出。
這里面有我們前期大量的錄制的手語老師的標準動作,也有我們用 AI 的方式,去適應聾啞人的這種語序語調。
它的整個句子的語法跟正常的口頭表達還不太一樣。在新聞播報的時候,由于手語是靠動作去表達,而不是說出來,語速要比我們真人的說話語速要慢很多。要做到同步翻譯,還要對每一句話的信息縮減,提取關鍵詞才能夠趕上實時翻譯的速度。
這里面有很多的挑戰,從我們的動作準確性也好,從我們的 AI智能分解也好,都比往常提出了更高的要求。
通過不斷的修改,我們最后也達到了90% 以上的可懂度。在安全播出的過程中我們也有了很多實踐的驗證,會有專門的手語老師進行這個新聞播出之前的審核,然后去確保所有手語動作的準確性。最開始手語老師還擔心以后被替代,但后來我們發現手語數字人其實是緩解手語老師工作量的技術。原來一位手語老師可能參與30分鐘的節目播出就會滿頭大汗,這是一種體能的消耗?,F在可以連續審核幾個小時以上,甚至可以同時審核多檔節目,大大提高了工作效率。
見智研究:
不同類型數字人的創作的過程和技術支持有什么差異?
熊偉:
數字人直播帶貨的時候,其實是在數字人基礎上增加一個虛實融合的播出內容。
現在純虛擬數字人跟真人的交互雖然讓大家有新鮮感,但同時又產生一些距離感和不真實的感覺。所以我們在創作的時候,比較多的會是去采用數字人和真人結合的一起播出的形式,更好地去跟觀眾進行互動。在做這種節目的時候,需要在現場做出一種趨勢融合的直播系統。
通過專業的光學追蹤設備識別真人在什么位置,虛擬人在什么位置,虛擬場景在什么位置,最后把他們拍攝在一起。同時我們在虛擬主播的時候還需要解決在播出之后無人值守的問題。所以我們要產生相應的一定的 AI 數字能力來實現數字人在真人主播下線的時候,還能夠代替真人主播的過程,做到24 小時不停播的效果。
見智研究:
數字人應用最快落地可能是哪幾個領域?
熊偉:
數字人的應用其實是一個從娛樂向產業的轉化過程。
目前來講主要還是應用在娛樂的主播,我們的文旅,包括教育這些領域。主要是因為我們可以用真人驅動,就可以進行表演進行互動,就可以產生內容的這種場景。而且可以更好的替代真人的形象,讓大家能產生親和力,生成的內容也更加豐富度多樣化。
隨著我們給AI 的賦能變得越來越多,它也會被應用到金融、醫療等更多的領域,但也賴于我們 AI 技術的一個成熟的發展的一個過程。我們相信隨著數字人越來越多,大家為數字人創造的數據庫、數據資產越來越多,我們AI 的進步也會很快的。我相信在更多產業的應用到來,也不會太久。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。