玉林实硕医疗科技有限公司

天天快訊:華人團隊迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務器已被擠爆

GPT-4識圖功能遲遲不開放,終于有人忍不住自己動手做了一個。


(資料圖片僅供參考)

MiniGPT-4來了,Demo開放在線可玩。

傳一張海鮮大餐照片上去,就能直接獲得菜譜。

傳一張商品效果圖,就可以讓AI寫一篇帶貨文案。

手繪一個網頁,可以給出對應的HTML代碼:

除了生產力拉滿,也支持根據常識推理圖上內容是否合理、解釋表情包為什么好笑,以及看截圖找電影等娛樂玩法。

可以說,GPT-4發布時展示過的功能,MiniGPT-4基本也都有了。

這下網友直接把Demo服務器擠爆,開發團隊連開4臺備用服務器,都有幾十人在排隊。

不等OpenAI了,現在就能玩

除了研究團隊給出的示例,網友也用MiniGPT-4玩出了各種花樣

有人上傳自己畫的畫,讓AI評價評價。

有人上傳一張從車道拍攝的飛機墜毀瞬間,讓MiniGPT-4盡可能詳細地描述,并思考自動駕駛AI能不能理解這個場面。

做到這么好的效果,MiniGPT-4實現起來卻并不復雜。

把圖像編碼器與開源語言模型Vicuna(小羊駝)整合起來,并且凍結了兩者的大部分參數,只需要訓練很少一部分。

傳統預訓練階段,使用4張A100在10個小時內就可完成,此時訓練出來的Vicuna已能夠理解圖像,但生成能力受到很大影響。

為解決這個問題,團隊讓MiniGPT-4與ChatGPT合作創建了3500個圖像文本的高質量數據集,也一并開源。?

用新的數據集微調可以顯著提高模型的生成可靠性和整體可用性,而且計算效率很高,使用單個A100只需要7分鐘。

并且團隊正在準備一個更輕量級的版本,部署起來只需要23GB顯存。

也就是消費級顯卡中擁有24GB顯存的3090或4090就可以本地運行了。

MiniGPT-4開發團隊來自KAUST(沙特阿卜杜拉國王科技大學),包括4位華人成員和他們的導師 Mohamed Elhoseiny。

兩位正在讀博的共同一作還在GitHub頁面上特別標注正在找工作

有意向的公司要抓緊搶人了~

在線Demo:https://minigpt-4.github.io

開源代碼:https://github.com/Vision-CAIR/MiniGPT-4

論文:https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

本文作者:夢晨,來源:量子位,原文標題:《華人團隊迷你GPT-4搶跑看圖聊天:OpenAI有的它都有,服務器已被擠爆》

風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。

關鍵詞: