大模型的下一次躍進:私有化 | 見智研究
華爾街見聞·見智研究特邀瀾碼科技創始人&CEO【周健】來為大家帶來最核心的解讀:AI浪潮的下一個重要賽道,如何突破企業應用,找到盈利秘籍??
【資料圖】
核心觀點
1、大模型應用側關注重點有所不同:ToC端的用戶更關注情感訴求,而ToB端的用戶更關注效率需求。
2、企業如何結合自身業務應用大模型,存在應用的預期差:企業在應用大模型上面臨很多困難,當前可選大模型很多評估標準多樣化,找到適合企業自身業務的模型不容易,會存在應用的預期差。
3、通用大模型的劣勢:不足以滿足各行各業的對口業務,無法解決特定領域的專業問題。
4. 私域數據價值高:企業私有化AI部署需求潛力巨大,特別是有保護敏感數據需求的企業,比如金融、通信、政務等領域。
5、大模型應用將改變軟件行業的范式:開放式的接口的服務能夠加速企業AI應用的開發進度,AI軟件中臺的出現能夠幫助垂類企業避免重復開發和重復造輪子,從而節省開發時間和成本。
正文
見智研究:國內大模型市場格局情況如何?
周?。?/strong>
從去年11月30號開始,大語言模型被視為重要的基礎設施。目前市場上主要有三類玩家。
一類是原來就在這個賽道的,例如智譜AI和MiniMax,他們在研發方面已經有了兩到三年或更長的時間。GPT 3從2020年就出來,所以他們有足夠的時間沉淀數據,準備算力,現在可能略微領先。
第二類是大廠,如百度、阿里、騰訊、字節跳動,他們資源多,可能只需要在原有研發方向上稍微調整一下,他們還有大量的應用場景,所以他們是另一類重要的玩家。
第三類是新生代,如王慧文的光年之外、王小川的百川智能,他們因為本身自帶光環,也非常值得期待。如最近王小川的公司新發布了一個baichuan-7B模型。
這三類玩家,他們的資源、當前狀況和適用場景各不相同,都非常有趣。
見智研究:?大模型對?ToB和?ToC 端的用戶所關注的重點有何不同?
周健:
首先,大語言模型帶來的變化是,過去是圖形界面,現在可能會用自然語言作為界面,從另一個角度來說,很多應用可能會被合并,未來我們可能不再需要有100個應用。
但在ToB和ToC這兩個方向上,關注點其實很不一樣。ToB這邊,由于往往涉及專業場景和多人協同工作,所以他們可能更關注協同辦公場景和數據的私有性。而ToC端,由于涉及多種設備和場景,比如電視、手機、筆記本電腦,甚至家中的物聯網設備等,他們的需求更加分散,可能需要更具體的場景設計。
例如,電視是一個被動性的場景,用戶可能在觀看時并不會主動做太多操作;而手機是一個個人的場景,用戶可能會主動進行各種操作。這種區別會影響到最后哪些應用會被合并,以及底層的大語言模型是否需要進行不同的設計。
另外,從需求上來看,ToC端的用戶可能更關注情感訴求,而ToB端的用戶可能更關注效率需求。所以從原始點開始,ToB和ToC的需求就已經存在很大的區別。這就是我認為ToB和ToC在大模型關注重心上的主要差異。
見智研究:企業如何將大模型與自身業務相結合,會遇到哪些問題?
周?。?/strong>
當前企業在將大模型與自身業務結合時,首要問題是如何選擇模型。在國外,大部分企業可能會直接選擇OpenAI,但在國內,選擇更為豐富。然而,目前學術界對于如何評估通用大語言模型還沒有達成共識,企業在這個問題上尤其困難,因為他們往往缺乏一個基本的數據集來決定在其特定場景下應選擇哪種大模型。
另外一個問題來自AI的實際應用,有時候實際的落地效果與期望有很大的差距。例如,在AI 1.0時代,我們通常會以人臉識別為例,但其實際應用過程中,會存在很大的差異。
當前的大語言模型在客戶端的直接體驗上有一定的優勢,但在穩定性、質量和安全性方面,還存在很大的差距。我們可以預期未來大語言模型的水平會逐步提高,但這個提升速度在企業內部是不一致的。因此,如何評估在哪里先進行落地,哪里可能是最難落地的,這是一個需要考慮的問題。
此外,企業還需要考慮自身的基礎設施建設。大語言模型只是一個通用基礎設施,其訓練語料主要是通用的公開數據。然而,企業內部一定會有自己的私有數據,這些數據的規整性也非常關鍵,因為AI,包括大語言模型,都需要大量規整的數據進行訓練。
我們是AI原生的企業,因此對于垂直企業內部專有模型的構建和fine-tuning有著高要求,特別是在企業內部數據基礎設施的條件下。
在與許多客戶會面時,我們注意到他們都感到焦慮,因為很難確定從何處開始。試驗是他們的一種選擇,但往往只能得出戰術層面的結果。對于大型語言模型的能力,他們可能無法得出結論,可能很快就會因為在朋友圈發的文章而被質疑。
在戰略層面上,變革組織是大家的共識,但最困難的是從哪里開始,誰應該先來嘗試。這需要對事物的認知,以幫助作出決策。在戰術層面上,他們不斷被打臉,而戰略層面上的問題則無法解決。因此,這是一個混亂的過程。
對于他們來說,這是當前最大的難題,即使我們專注于這一領域,變化仍然是日新月異的,可能每天都有微小變化,每周都有重大變化,甚至每個月都可能面臨重大變革。對于那些核心業務不在這方面的企業來說,這是一個巨大的困難。
見智研究:企業需要怎樣的模型?
周健:
定制企業的私有化大模型需要從以下幾個方面考慮。
從現有的技術手段來看,定制化的成本是很高的。其次,基本上只有在類似于智能客服或者文本到SQL等確定性場景中進行微調或定制模型才是劃算的。比如,像Bloomberg這樣擁有大量規整化金融數據的企業,定制模型的性價比較高。
其中客服領域沉淀了大量的人機對話數據,通用性模型不適合。定制企業私有化模型是最適合的選擇。然而,在其他領域選擇定制化還存在許多問題。比如選擇開源模型還是閉源模型進行共建,采用多少參數的模型,選擇何種架構等。
這些選擇都帶來了成本,微調的成本可能在百萬級別,甚至可能要上升到千萬級別,特別是在希望做出有壁壘的企業定制模型的情況下。
此外,在當前階段,大家都在談論提示工程師的使用。但是,很多現實情況下,還并沒有充分發揮提示工程師的潛力,而選擇了更昂貴的方式。
因此,只有在明確能產生價值的場景下,如智能客服和文本到SQL等,花費高成本可能是劃算的。而其他領域可能只能讓研發獲得一些經驗,而企業其實是無法得到有價值的回報的。
見智研究:如何看待百萬成本微調的垂直行業大模型和低成本建立企業專屬知識庫這兩種方案之間的差異性和真實有效性?
周?。?/strong>
在當前的項目中,我們探索了如何基于大語言模型開發新一代的軟件,以實現更智能的程序模式。舉個簡單的例子,大語言模型只是對數據的壓縮,而fine-tuning則是在該模型上添加特定的數據集,并對某些層進行參數修改。然而,它仍然無法擺脫對數據的壓縮,因此在某種程度上它是昂貴的。
從客戶和供應商的角度來看,它可能能說服客戶愿意為高價值的項目付費。然而,從實際效果來看,比如對于法律場景,大語言模型無法處理大陸法系和英美法系的差異,因為它們有不同的法律邏輯和哲學基礎。
同樣的100個案例和10份法律文檔,在英美法系和大陸法系的視角下,得出的結論可能不同。因此,從這個角度來看,純粹使用大語言模型可能無法實現這一目標。我們應該在頂層由律師建立一個知識庫來回答這些問題。
因此,通過使用這些領域的知識,我們可以通過代碼更快地回答這些專業問題。如果我們使用fine-tuning的方法,即使將所有法律和審判判例放在一起,我們也無法預測ChatGPT這樣的智能體會如何回答。
因此,在解決企業應用場景問題時,我們不能僅僅依賴大語言模型,fine-tuning只是對大語言模型的一種改變,沒有從端到端的視角來看待問題。
見智研究:什么類型的企業需要私有化AI?如何看待這個領域的需求?
周健:
企業需要定制化或私有化AI,因為它們擁有特別敏感且價值高的數據。
例如,我們曾遇到過一家從事工程報價軟件的公司,他們絕對不愿意將報價信息提供給公有的大模型。同樣的情況也適用于半導體等公司,以及涉及醫療領域中的隱私數據,如病例數據,以及整車廠擁有大量汽車零配件BOM數據。這些企業都不愿意將這些高價值的數據提供給公有的大型模型,因此它們需要建立企業私有的模型。
剛才提到的這些行業都是大型行業,市場潛力巨大,雖然難以準確判斷市場規模是千億還是萬億,但我認為它是一個極大的市場。
在許多領域中,僅僅依賴通用大型模型可能無法實現落地推進,特別是在企業的安全和金融、政務等方面。
見智研究:為什么寫好?Prompt 很難?如何實現復雜問題智能化解決?
周?。?/strong>
生成模型只是試圖預測下一個要說的單詞,這是它的工作原理。從技術實現的角度來看,它也有類似于人類短時記憶的限制。我們知道人類最多可以記住7個單詞,對于大型模型來說存在成本問題,所以它也有一些限制。
因此,如何與生成模型進行對話變得非常重要。雖然今天已經存在技術上的突破,但當前的大語言模型還沒有達到具備數據庫那樣穩定可靠的程度,人們還不知道如何正確使用它,才會出現prompt工程師這樣的職位。
比如,在微軟的評估中提到了這樣一個案例,即使是像GPT-4這樣強大的模型,如果你直接讓它計算150到250之間有多少個質數,它可能會算錯。但如果你讓它計算150到250之間的質數,并逐個列出并統計它們的數量,它就能做對。
這相當于人類在面對問題時會決定是心算還是拿筆寫下來。因為它的大腦記憶能力是有限的,所以它可能還沒有學會如何處理這種情況,因為目前還沒有給它配備數據庫。未來大模型背后若有一個數據庫,可能會開發出新的算法。
此外,今天也有很多人在討論,說它在處理數學方面不太擅長,所以包括OpenAI自己也在探索如何將一些簡單的工具,如計算器功能整合進去,以便更好地回答這類問題。
如今整個行業都在探索挖掘大模型的潛力,對于Prompt的理解可能需要更深入一些。像編程很多時候是復雜的,有架構、面向對象、類設計、函數設計等。未來,Prompt也可能如此。
舉個例子,在瀾碼科技的探索中,當我們的軟件回答用戶問題時,會將其分解成復雜的工作流程。一開始可能是提示a,扮演產品經理的角色,然后將用戶需求拆分成幾個部分。
在向大語言模型提問后,根據其回答,我們決定是將其第一段作為提示b輸入,還是作為提示c的輸入,或者第二段作為提示d的輸入。
因此,就像30年前我們只有程序員,而現在有前端程序員、后端程序員、數據庫管理員等。未來,Prompt也可能細分為許多不同的工種,可能還會有?Prompt Architecture、?Prompt ?Designer。
見智研究:如何看待大模型對軟件行業帶來的影響?可能會出現哪些行業發展機會?
周健:
大型模型實際上代表了技術的平等,它讓自然語言處理的能力“平民化”。對于像瀾碼這樣的初創公司來說,我們就可以像OpenAI一樣,將300人的自然語言處理團隊視為公司內部的資源,直接利用。它所帶來的一個變化是,在軟件的邊界上變得更加靈活,可以使用自然語言進行交互。
舉個例子,我們內部開發了一個行程安排助手,以前,我的行程安排可能在微信、郵件上有往來?,F在,我可以簡單地要求我的軟件助手,分析我的郵件、微信聊天記錄,給出我下周的行程安排。
以前也可以做到這一點,但成本很高,可能需要花費幾十萬甚至上百萬。而今天,我們只需要一些prompt,就可以實現這個功能,成本只是在每次軟件使用時支付給OpenAI 1000個token 0.2美分。以前你不會愿意把NLP工程師浪費在這上面,而現在完全成為可能。
這是軟件范式上的一種改變,手機上原來有100個應用,這100個應用彼此之間無法互通的,為什么呢?因為這100個應用原來只能通過API對接,不同的軟件不斷迭代。有100個軟件就得進行1萬次對接,一次升級就白接了,然后重新開始。
其實今天所有的系統,它其實都是一個記錄系統,是為了負責去記錄整個物理世界的一些事情的。比如ERP、CRM,HR 系統,財務系統,它其實都是對于物理世界的一些事情的一些事件的記錄,然后現在突然新出來了一類,叫做?system of model 就是大語言模型,他們其實負責思考。
我覺得還有第三類系統叫做?system of action,?就是像瀾碼做的事情,好比是神經中樞的功能。
這個過去是需要程序員負責去做,成本很高,但現在有了自然語言,這個就變得容易多了。這可能是今天一個很大的范式轉變。
見智研究:瀾碼科技為什么看準自動化平臺、AI 應用賽道?
周健:
自動化是一個古老的賽道,起源于工業自動化的生產線。隨著信息系統和信息化的發展,物理世界的數據被記錄到虛擬世界中,信息化逐漸成熟。下一步的關鍵是如何在信息化中實現自動化。在各行各業中,甚至包括餐飲業,信息化已經成為現實,例如通過美團等企業的信息化實踐。
自動化的目標是解放人們,使人們從重復性的勞動中解放出來。它的本質是提升人類工作的層次,避免人們成為數據的搬運工或系統的奴隸。人類不應該為機器服務,而是機器應該為人類服務。這是自動化的初衷,讓人們能夠從繁瑣的工作中解放出來,擔負起更高級的工作任務,實現人機協作的最佳效果。
從現在的應用場景上來看,今天有大量的煙囪式的系統在那邊,其實有大量的人被浪費在了里邊,我們實際上是可以幫他解放出來。其實這里已經有第一層的價值了。
第二層的價值是說當達到了部分自動化之后,實際上有一個很大的附帶效應,它把很多的專家的那些數據其實是拿到了。比如說過去假設是一個高級的招聘專家,他可能對于很多簡歷、很多東西的一些判斷,比如說他整了一個表格,一個word 文檔,他可能發了一些郵件,然后他的經驗被沉淀下來了。
但是今天我們已有的BI軟件、數據倉庫、?AI應用能用到這些數據嗎?
用不到,因為這些數據可能分散在了各個應用當中,可能在微信、騰訊會議、視頻以及郵件里,但沒有被關聯起來。但是當我們幫它做好智能化之后,會有一個大腦負責分配。
在這個過程當中,其實是機器人去收集各種各樣的數據,最后把結果呈現在面前。
系統可以提供觀點和反饋信息,幫助人們完成任務,例如編寫職位描述和審核簡歷。智能化系統還能記錄專家的見解和洞察,并將其用于培訓新手。此外,通過自動化和推薦算法的結合,系統能夠提供前所未有的決策支持,例如告知在特定情境下專家通常采取的行動。這些這些特點使得智能化系統具備巨大的潛力和價值。
見智研究:基于大語言模型的新一代自動化平臺能夠幫助企業解決哪些核心問題??
周?。?/strong>
雖然人們對于人工智能可能替代白領工作感到焦慮,但實際上這種替代可能是有先后順序的。目前大語言模型主要應用于純文本類的工作,解決一些基礎任務和重復性工作,比如簡歷審核、法務合同比對等。這些工作本身并不受歡迎,但它們的關鍵信息是可以通過算法進行提取和處理的。
對企業來說,可以帶來兩個方面的變化。首先,在企業內部的組織結構上,可能從金字塔型變為鉆石型,即減少低端員工的數量。其次,可以提高工作質量,例如在簡歷審核中,可以根據設定的屬性和規則進行篩選,加速招聘流程。類似地,在財務報表整理方面,可以減少錯誤和漏洞,并揭示隱藏的問題。
因此,基于大語言模型的新一代自動化不僅僅是簡單替代低端工作,它可以通過增加計算力來免費提高頻率和工作量。對于企業來說,這意味著可以用不同的視角來管理團隊和控制質量,從而帶來全新的機會和挑戰。
見智研究:海內外這部分市場空間是否還處于空白時期??
周健:
在硅谷,有一些公司在人工智能領域具有領先優勢。例如,Adapt.ai是由OpenAI的前工程副總裁和Google Transformer論文的第一作者和第三作者共同創立的一家公司。他們開發了獨特的基準模型,并創建了一個瀏覽器插件,用于收集Salesforce用戶的自然語言需求,例如訂機票和訂酒店。他們還將鍵盤和鼠標的輸入信息作為多模態輸入進行訓練,挑戰傳統多模態的概念,以圖超越OpenAI。
另一個公司是Fixie.ai,由哈佛大學的計算機系教授創建,他們在谷歌和蘋果擔任過高級研發職位。他們正在建立一個基于大型語言模型的企業平臺,可以構建基于人工智能的代理(Agent)系統。
在國內,SOFA已經是一個開源項目,并且已有約6000個用戶在使用。然而,硅谷在人工智能領域具有細分工的優勢,他們專門開發了中間層的空間,用于構建原生的人工智能應用。國內的目標是構建一個類似的中間平臺,但需要找到適合的場景并確保能夠落地實施。
再有就是瀾碼科技。瀾碼是數據飛輪公司,基于底層的大語言模型,通過提供自動化平臺,在效率場景下學習人們在PC/手機/會議等場景下的技能,從而建構出自己獨特的多模態基礎大模型。
見智研究:如何看待?AI 智能助手未來市場的空間和競爭格局?公司在這方面做了哪些準備?
周?。?/strong>
在智能助手領域,眾多企業都希望搶占這一入口,如蘋果的Siri。
從2008年開始,人們就一直在思考智能助手的問題。在企業端,像釘釘、飛書和企業微信等已經具備了大量用戶,因此它們開發企業協同助手是非常自然的事情。在消費者端,微信無疑是一個很好的入口。
此外,不同設備上也存在智能助手的應用場景,比如電視,例如百度的小度和科大訊飛的不同設備。這些公司都會利用自己的優勢去開發智能助手。
在技術方面,大語言模型仍在不斷演進,尚未達到技術天花板。因此,在當前的互聯網環境下,仍然以流量為王的思路可能并不適用。在移動互聯網發展的早期階段,開發一個手機相冊應用就能輕松獲得上千萬的流量,可以同時開發100個應用,然后通過數據分析決定哪個應用更成功。但現在情況已經有所改變,盡管在兩三年內仍可能存在這種情況。
然而,從5到10年的時間尺度來看,大語言模型甚至可能改變ToB(企業對企業)和ToC(企業對消費者)的邊界。它可能變成與人交互和與人工智能交互的兩個端口,即與人接近或與人工智能接近。接近人意味著可以獲得人的數據,就像習慣使用個人秘書一樣,人們肯定不愿意隨意更換。因此,智能助手的智能程度是非常重要的。
從這個角度來看,在技術尚未成熟的情況下,即使在消費者端搶占了市場,做出了現象級產品,如果沒有深度技術支持,很容易被大公司通過運營手段超越。
因此,我認為在 ToB領域更為合適。另外,OpenAI的CEO也提到過未來人工智能的應用分為三種:大語言模型、數據循環和人工智能應用。
對于消費者端來說很難說,之前提到的設備可能具有一定的數據意義。而對于企業端來說,核心有價值的數據是非常重要的,比如人、財務和物流等。如果我能搶占到一個人,例如獲得全中國所有白領的簡歷數據以及其薪資和績效數據,甚至更重要的是共享的數據,即招聘專員在使用我的助手時的數據,這些數據具有價值。
這些數據可以幫助我們進一步錘煉技術能力。當技術能力達到更高水平時,例如通過與智能助手聊天生成的代碼行數作為衡量智能程度的指標,比其他公司高一個量級或兩個量級,那么就能輕易奪取市場份額。
因此,在戰略上,我會選擇首先在專業場景下開發助手,然后等待技術的進一步發展。當技術達到明顯的天花板效應時,可能會出現新的范式。無法預測未來是否會變得更加快速,像AlphaGo到現在只相隔7年,再過3年可能會出現一個新的范式,讓大家都驚訝。但假設不會發生這種情況,那么在那個時間點上,重新爭奪市場是有機會的。
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: