AI競賽再度升級!一文速覽4月初10個最具代表性的AI代理與31個新產品
本期我們為大家帶來的內容有:
10 個 AI 代理 -?隨著 Auto-GPT、Baby AGI 以及斯坦福大學關于 AI Agents 的社會實驗的出現,AI 代理/智能代理(Intelligent Agents)瞬間成為了?AI 領域的全球熱點,除了?Auto-GPT、Baby AGI 兩個產品本身,在文中我們也從?Web 端、長期記憶、垂直領域服務與反面案例四個角度,整理了截止目前最具代表性的其他 8 個 AI 代理產品;
(資料圖片僅供參考)
12?個大公司的新產品 -?巨頭的 AI 軍備賽還在繼續,亞馬遜正式加入戰斗,微軟推出了以 LLM 為核心決策者的新系統,Meta 也推出了新的視覺模型;明星公司們繼續迭代更新模型與產品,垂直領域的初創公司們也絲毫不敢松懈,在各自的垂直領域推出「更好用」的 AI 工具;
3 個 ChatGPT?Plugins?-??3 個有趣的插件分享給大家;
16 個常規產品 -?9 個有用的、3 個好玩的和 4 個華人開發者的新產品!?
AI Agents|AI?代理
Auto-GPT
某種意義上講,作為首批獨立運行的 GPT-4?實例之一,Auto-GPT?重新定義了?AI?技術的邊界。這個開源的應用程序由游戲開發者 Toran Bruce Richards(aka Significant Gravitas) 開發,旨在執行需要長期規劃、多個步驟的任務,并根據實時反饋進行自主改進——首先解決的是向?Richards?本人發送每日?AI?新聞的問題。
如上文所述,Auto-GPT 是基于?OpenAI API?開發的,它的核心在于基于最少的人工輸入/提示,利用?GPT-4?的推理能力解決更廣泛、更復雜的問題。在具體的執行上,程序會訪問互聯網搜索和收集信息,使用?GPT-4?生成文本和代碼,使用?GPT-3.5?存儲和匯總文件。???? https://github.com/Significant-Gravitas/Auto-GPT
Baby AGI
Auto-GPT 并不是唯一一個關于自動化代理的嘗試。受?AGI?的定義啟發,Untapped Capital?的合伙人,同樣也是一位開發者的?Yohei Nakajima?搭建了一個名為?Baby AGI?的「任務驅動的自動化代理(task-driven autonomous agent)」。與?Auto-GPT?不同,Baby AGI?基于?GPT-4、Pinecone?和?LangChain?搭建,具體來說:
-使用?OpenAI?的?NLP?功能進行任務創建;
-使用?Pinecone?和?LangChain?讓代理擁有實現結果儲存和信息檢索的「長期記憶」;
-通過無限循環,執行列表中的任務,得出逐漸豐富完善的結果,并根據初始目標和之前的結果重新確定任務的優先級,從而實現以初始目標為中心高效處理復雜任務。
Web Version|Web 端版本?
AgentGPT?
功能最基礎的網頁版 AutoGPT,界面清爽,易于使用,可一鍵存儲/復制所生成的結果,也可選擇使用自己的?API key。
Godmode?
需要人為添加任務并確認每個步驟的網頁版?AutoGPT,可人為控制變量,有意思!?
Cognosys?
目前最火的 Web 端 Auto GPT,由?Homam Tradeit?與?Sully Omarr 共同開發。與 AgentGPT 類似,輸入項目名稱,設定目標,輸入或自動生成三項任務,即可讓代理自動完成目標——相比 AgentGPT,Cognosys 的優點在于處理任務更具條理性,缺點在于無法便捷地存儲或復制結果。?
產品于 4 月 11 日上線,最初僅支持 GPT-3.5,但完全免費且無需 API key。?
4 月 15 日,由于用戶量激增,為控制成本,開發者們開始將 API key 作為可選項之一。
而 4 月 16 日,隨著用戶量接近?7 萬人次,總訪問量接近 25 萬人次,開發者不得不開始強制用戶使用自己的 key。
Long-Term Memory|長期記憶
MemoryGPT?
簡單講,MemoryGPT 是記憶力更長久的 ChatGPT,這個特點讓它可以解決更復雜更具體的問題,同時也可以更個性化。
長期記憶為什么重要?一個簡單的例子,假設一年后的你想要繼續今天與 ChatGPT 討論的某個話題,怎樣做是最有效的?另一個例子,昂貴的 GPT-4 目前多可支持 32k token,這大約相當于 50 頁英文文本,那么如何與處理一篇長達數百頁的文檔呢?除此之外,也許你還想要有個性鮮明且穩定的 AI 小助手,了解你的喜好、習慣以及思維方式。這些都需要系統可以長時間記憶以往的聊天記錄——在處理長上下文所需的計算成本越來越高的情況下,我們也許需要賦予語言模型額外的記憶系統,盡可能多地將用戶輸入和新知識與語言模型的廣泛預訓練知識相結合。
雖然開發人員表示,他們「有一百種方法」解決這個問題,但專注于解決 AI 長期記憶問題的矢量數據庫 Pinecone 已經付諸實踐,MemoryGPT 即是基于此搭建的——當然考慮到隱私保護問題,其數據部分儲存在 Pinecone,部分存儲在自有數據庫。?
Teenage AGI
在了解了擁有長期記憶的代理后,讓我們看一看真正與 Baby AGI 結合的 Teenage AGI——一個真正擁有長期記憶,記住初始目標并自動規劃完成復雜任務的 AI?agent——開發者,也是圖像 prompting 產品?DSNR 的聯合創始人的@sean_pixel,在大學宿舍完成了這個產品的開發,他個人還開發了一系列其他的有趣 agents,諸如高道德水平的分散決策 AI 裁判 council-of-ai,試試看!
More Professional Service|更專業的服務?
Coding Assistant by Mckay?Wrigley?
Mckay 是我在 Twitter 上最喜歡的 Hacker 之一,他每天會花一小時解鎖生成式 AI 的新玩法,繼大火的通過 Apple Watch 語音寫程序后,這次他通過 AI agents 進一步實現了「與經過身份驗證的用戶搭建應用程序」,當前 Mckay 的編程小助手可以:?
- 構建和設計 Web 應用程序
- 創建具有工作數據庫的后端
- 處理身份驗證
- 將代碼上傳到 GitHub
- 部署到 Vercel?
e2b (english2bits)?
基于開發文檔,利用 AI agents 自動搭建軟件。目前云托管版本還在開發,使用還需本地部署。以下是一個使用?Stripe 自動結算的案例,左邊為技術文檔,右邊為 AI 的搭建步驟及所使用的工具。
Bad cases tigger|反面案例
ChaosGPT?一個對人類充滿敵意并且想要統治世界的 Auto-GPT——雖然產品本身展現的意圖是負面的,但我很高興能看到這樣的嘗試,讓大家可以更直觀地了解到 AI 的威脅性并(也許可以)提前做好應對準備。?
成熟公司的新產品?| From Big
Amazon?
隨著 Bedrock 的推出,亞馬遜正式加入了這場生成式 AI 軍備賽。值得注意的是,亞馬遜并不完全自己構建 AI 模型,他們也招募第三方在 Amazon Web Services (AWS) 上托管模型——作為 AWS?的?API,Bedrock 允許開發人員使用并自定義生成文本或圖像的 AI 工具,可以將其是做面向企業和開發人員的,基于云、可配置的 OpenAI ChatGPT 和 DALL-E 2 的替代方案。
AWS 用戶可以基于文本 prompt,用 Bedrock 編寫文本、構建聊天機器人、總結文本、分類圖像等。Bedrock 為用戶提供了亞馬遜的基礎模型?Titan Foundation Model (FM)?以及幾家初創公司的模型,包括 Anthropic 的 Claude、AI21 的 Jurassic-2(一款擅長西班牙語、法語、德語、葡萄牙語、意大利語和荷蘭語的語言模型)以及 Stable Diffusion。
此外,企業和開發人員可以通過 prompt 自定義模型的工作方式——亞馬遜表示,這些 prompt 不會被用于訓練模型,這理論上應該解決了關于企業敏感數據的關鍵隱私問題——但截至目前,亞馬遜尚未對此服務定價.
與此同時,亞馬遜也宣布將 AI 驅動的代碼生成服務產品 CodeWhisperer 免費提供給開發人員,不設置任何使用限制。CodeWhisperer 于 2022 年 6 月底與?AWS IDE Toolkit 和 AWS Toolkit IDE extension 共同推出,一定程度上對標?GitHub Copilot。
CodeWhisperer 是在數十億行公開可用的開源代碼、亞馬遜自身的代碼庫以及公共論壇上的文檔和代碼的基礎上訓練的,可以僅根據一條注釋或幾次點擊完成 Java、JavaScript 和 Python 等語言的自動編程,現在又額外支持了?Go、Rust、PHP、Ruby、Kotlin、C、C++、Shell 腳本、SQL 和 Scala。與此前一樣,它會突出顯示與其訓練數據中找到的代碼片段相似的函數所關聯的許可證,開發人員可以選擇過濾,這是為了避免 GitHub?Copilot 在此問題上面臨的法律挑戰,但是否成功還需要時間驗證。但免費開放的舉動也許表明,自去年?6 月推出以來,CodeWhisper 并未獲得公司預期的市場認可。
在爭議較小的領域,亞馬遜也宣布全面推出彈性云計算 Elastic Cloud Compute(EC2)Inf2 實例,這些實例由公司的 AWS Inferentia2 芯片提供支持,旨在提高整體推理性能。
此外,亞馬遜還宣布,由亞馬遜定制設計的?AI?訓練芯片?AWS Trainium 提供支持的?Amazon EC2 Trn1n 實例也向客戶全面開放。亞馬遜表示,這些實例提供高達 1600 Gbps 的網絡帶寬,在訓練大型、網絡密集型模型時,性能比?Trn1 提升?20%。
事實上,雖然沒有公開的大動作,亞馬遜在生成式 AI 領域的布局從未停止。
Bedrock 的亮相某種程度上也展示了 AWS 在過去的幾個月里與生成式 AI 初創公司逐步創建的合作關系。去年 11 月,Stability AI 選擇 AWS 作為其首選云服務提供商,3 月份,Hugging Face 與 AWS 合作,并將文本生成模型引入 AWS 平臺。
此外,AWS 還在構建生成式 AI 應用所需的技術方面不斷增加投資。最近,AWS 推出了一個生成式 AI 初創加速器,并表示將與 Nvidia 合作構建用于訓練AI模型的「下一代」基礎設施。
JARVIS?by Microsoft w/t Huggingface?
微軟新開發了一個名為 JARVIS 的有趣協作系統,可以被視作此前大熱的論文 HuggingGPT 的產品化,即用多個人工智能模型來完成給定的任務,這其中,LLM(這里是 ChatGPT)在其中扮演核心控制者的角色。?
JARVIS 的工作原理與 OpenAI 所展示的多模態?GPT-4 運行方式類似,但在此基礎上又更進一步,集成了 20 多種開源的圖像、視頻、音頻等模型,最重要的是還可以連接互聯網和訪問本地文件。
具體到使用,用戶可以單次添加多項任務,而 ChatGPT 的執行過程可以被分解為以下三個步驟:
- 分析請求并計劃任務;
- 選擇正確的模型(托管在 Huggingface 上)來完成任務,所選模型完成任務并將結果返回;
- 使用來自所有模型的推理結果生成響應。?
例如,下圖所展示的「生成外星人入侵的圖像并寫下有關它的詩歌」
Segment Anything Model by Meta AI?
Meta 是這樣介紹 Segment Anything Model(SAM)的:第一個致力于圖像分割的基礎模型??梢栽诓恍枰罅繕俗⒌那闆r下,對圖像中的任何物體進行分割,理論上來講,這種方法可以幫助 CV 領域的研究人員和開發者更輕松地訓練模型——聽聽這些描述:新數據集、新范式、強零樣本泛化能力,是不是很耳熟?沒錯,Jim Fan 稱其為「視覺模型領域的 GPT-3 時刻」。
當然,這個模型并不完美,相信試用過后,大家會發現基礎的問題也有不少,我的好朋友,視覺領域科學家@王乃巖也提出了他關于「SAM 為什么不能類比 GPT-3」的意見:?
Stable Diffusion XL by Stability AI?
最近視覺模型領域的更新有不少,例如這個:面向企業用戶,強調寫實感的圖像生成模型,可以通過更短的提示詞生成更清晰、細節更豐富的圖像——這就是當前 Stability AI 所發布的最強大的視覺模型 Stable Diffusion XL(SDXL)了,在 DreamStudio 內可用的基礎上,最近正式開放了 API——依然沒有完全解決人像中手部的生成問題。?
也許你會問,SDXL?與?Midjourney v5?有什么區別?除了文生圖,SDXL 還可以實現以圖生圖、局部生成/修復以及圖像延展等功能——確實是這家快速發展的公司的大更新了!?
Aperture v3?by Lexica?
與 Stability AI 一樣,Lexica 也推出了自己更理解提示詞,細節渲染更佳的,采用了自主開發的全新架構的第三代模型 Aperture v3,一只英倫風的鼠貓紳士??瓷先?,效果還不錯!?
Discord Bot by Scenario
專注于游戲資產生成的公司 Scenario 推出了作為 Midjourney 創始人 David Holz 的超級粉絲,Scenario 的創始人?Emmanuel de Maistre?在設計產品時極大程度上參考了偶像的思路——從選擇在 Discord 中呈現最終產品到 UI 設計,一以貫之。?
Perplexity AI 的全面升級?
Perplexity 對產品進行了全面升級,推出了登錄、討論串(Thread,與 Twitter Thread 類似)、重點搜索、改進格式等功能,其中值得重點一提的是:
- 在搜索功能層面,重點搜索讓用戶可以篩選自己關注的信息源,例如 Youtube、Reddit、特定新聞網站等,而學術領域目前也開放了基于?SemanticScholar、Arxiv 和 NIH 的深度搜索;
- 在問題解決能力上,Perplexity 重點改進了編程、表格生成與數學能力;
- 在生成內容管理上,新增的「討論串」功能可以讓用戶以某個話題為中心,整理所得到的結果。
對于我來說,還有一個有趣的地方在于,Perplexity 將用戶定義為「作者(author)」,也許,生成式 AI 讓互聯網真正進入了「每個人都是高水平創作者」的時代!
AI Assist?by Ironclad?
在更垂直的應用場景中,法律科技獨角獸 Ironclad 也推出了自己的 AI 產品——基于 GPT-4 的合同撰寫 AI 助手 AI Assist。這個產品面向的是合同生命周期的全過程,從條款建議、內容撰寫、數據提取、合同審查、經營數據對比分析對比到未來合同優化起草,高效解決全流程!?
effy 的 AI 模塊
一句話簡介:集成了生成式 AI 的績效管理產品。?
Willy?by Triple Whale?
專注服務 Shopify?商家的電商智能數據平臺?Triple Whale 在 AI 領域的嘗試從未間斷過,這次,他們推出了基于 GPT-3.5 和 GPT-4 的聊天機器人?Willy,可用于電商銷售及其他業務數據分析,或者就是簡單的聊天——品牌營銷負責人 Ethan Shust 稱之為「電商領域 AI 聊天機器人瑞士軍刀」。?
有用的 |?For Money
Imagica?AI by?Brain AI?
脫離 AI agents,Brain AI 也開發了一款無代碼應用程序搭建產品 Imagica。用戶可以在不編寫任何代碼的情況下創建 AI App。?
Apollo
搭載于耳機中的基于 GPT 的實時搜索引擎(開發者稱之為實時知識應用程序)——是來自我非常喜歡的另一位 AI Hacker Aaron Ng 的新產品。
「讓耳機成為搜索引擎」,聽上去也許很奇怪,但作為一個隨身攜帶耳機的人,有一個可以隨時用語音喚醒、接受提問、提供及時語音回復并以文字進行記錄的 AI Assistant 還是一件頗有吸引力的事,最直接的影響——不再做低頭族!
Hume
人類情感分析,捕捉文本、音頻、圖像與視頻中的人類情緒(即便他們是隱晦的——Hume 的優勢在于數據集的收集與分析,創始人 Alan?Cowen 是 Google AI 情感計算研究團隊的創始成員之一,也是語義空間理論的提出者,這是一個基于數學的情感理論,將情感視為復雜、多維空間的維度。Hume 正是部分建立在他的研究上,致力于讓 AI 更理解人類的情感,比如,讓日漸流行的 AI Assistant 們可以根據人類的心理狀態做出更精確的反應。
Rask
一款本地化的視頻編輯工具,一鍵將本地視頻翻譯為 60 名種語言,還可以利用文字生成語音及語音克隆技術為視頻添加話外音(需要注意的是,當前語音克隆僅支持英文)!?
Dexa.ai
簡單說,Dexa 是一個更準確的播客整理工具。之前介紹過類似 Summarize.tech 的播客整理,但受 GPT 等模型處理長文本能力較弱問題的限制,它們所生成的內容雖然看似有道理,可實則與原內容毫無關系——Dexa 更好地解決了這個問題,為長播客(典型的是 Lex Fridman 的播客)轉錄字幕、添加時間戳——是像我一樣喜歡閱讀文字多過聽訪談的人的福音!
Tabby
自托管 AI 編程助手,Github Copilot 的開源與本地化替代方案,優勢有以下幾點:
-?獨立存在,無需?DBMS 或云服務
- 可用作可視化、配置模型和?MLOps 的 WebUI
-?采用 OpenAI API,易于與現有基礎架構,如 Cloud IDE 集成
-?支持消費級 GPU
Graph?Maker?
上傳本地表格,通過自然語言指令生成圖表——雖然實測非常不好用,但是這是在本就困難的「LLM 表格處理」的任務的基礎上更進一步的嘗試,值得關注!
Upscaly?
一鍵提升圖片畫質,效果看圖
Fina
簡潔易用的個人財務數據追蹤分析工具,無需上傳任何數據表,直接從合作的 12,000 家金融機構中實時獲取數據并進行分析,用戶還可以自定義財務分析規則、追蹤類別等,試試看!
ChatGPT Plugins
Stability?GPT
相信已經有非常多小伙伴已經嘗試過讓 ChatGPT 寫文生圖 prompt,再復制到相關工具中進行圖片生成,那么,何不一步到位?來自?Brex 的 AI Chef & Design Lead Pietro Schirano 的作品。
LlamaIndex?
來自華人開發者 Jerry Liu,實現 ChatGPT 與外部數據集的鏈接,但 LlamaIndex 要做的事絕不僅限于 ChatGPT 檢索插件。
BabyAgiGPT
又是 Pietro Schirano!他開發了這個 Baby AGI 插件,并用其寫了一本 250 頁的科幻小說——wow!
好玩的 |?For Fun
實時 Samantha
擁有一位可以實時與之對話,向其下達指令的聰明助手 Samantha 是不是一件有吸引力的事呢?在這個有趣嘗試中,作者用了以下幾個 API:
-?Speech to?Text -?OpenAI Whisper
-?Text to Text (Prompt)?- OpenAI GPT-3.5-turbo
- Text to Speech - Eleven Labs?
Negotiation Simulator
基于 GPT 的小游戲——你與這位兇殘的 AI 銀行搶劫犯的一分鐘談判成果,決定了被挾持人質的生死。
Card Against ChatGPT
反對 ChatGPT 的一萬個理由——ChatGPT 的不良案例與缺點收集器。值得注意的是,與 ChaosGPT 一樣,本產品的作者也不是 AI 反對者,相反正是因為喜歡 AI 以及對與 AI 可持續發展的關注才促使他搭建了這個產品,意在讓更多人關注到 AI 安全與人與 AI 共生的解決方案。
華人開發者 | Chinese Developer
Magic Copy
來自華人開發者 @kevmo314,一款可以在瀏覽器中直接對圖片進行摳圖的工具,支持 Chrome、Firefox,使用了 Meta AI 近期發布的 Segment Anything Model (SAM) AI 模型,可以在任何圖像中一鍵摳出你想要的部分——摳圖功能不稀奇,但在瀏覽器里對著圖片右鍵菜單選擇 Magic Copy 就能摳圖實在是太方便了!
氣
一個看似荒謬的想法——讓 AI 指導人類進行冥想,舒緩壓力,是很新奇的嘗試!來自開發者@chris。
另外,Chris 是一個有許多有趣想法、善于動手的開發者,他還開發了一款游戲搭建工具 Prestige,用戶可用簡單的自然語言自行設置游戲角色與情節,讓 GPT 自動生成可玩的對話式冒險游戲,還有一款自然語言轉圖表工具?Autodiagram,功能簡單,但清晰好用!
病嬌 AI 女友?Yandere AI
來自華人開發者@大谷,一款基于 ChatGPT 的簡單好玩的小游戲,目的只有一個:如何說服你的病嬌女友把你放出門?
正如?ChatGPT 生成的答案一樣,說服這位病嬌暴力女友的方式也隨機得讓人摸不著頭腦,但也像 ChatGPT 一樣令人上頭——目前?Youtube 各位主播的測評播放量已有數千萬。
Aski AI
做 API 封裝的工具有很多,但 Aski 作為中文工具,封裝的功能簡單實用:有基于 GPT-3 的聊天機器人、文字內容生產與優化工具和中文提示下的 Midjourney 風格的圖像生成——中文世界也確實需要這樣的簡單工具做為生成式 AI 傳播者,Aski 可以在 web 端、移動端及微信公眾號/小程序使用!
禪修時刻?·?StackLlama
一份端到端的利用 RLHF 和偏好數據集訓練 Llama 的教程!
本文來源:真格基金,原文標題:《AI競賽再度升級!一文速覽4月初10個最具代表性的AI代理與31個新產品》
風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。關鍵詞: