ICC訊 被ChatGPT壓制整整一年之后,谷歌展開了最強反擊戰。12月7日凌晨,谷歌CEO桑達爾·皮查伊(Sundar Pichai)和Deepmind CEO戴密斯·哈薩比斯(Demis Hassabis)在谷歌官網聯名發文稱,其最新大模型Gemini 1.0(雙子星)版本正式上線。在他們看來,Gemini的發布僅僅是一個開始,更大的技術迭代、產品應用和生態構建宏圖即將展開。
從測試數據來看,Gemini大模型在知識儲備、專業能力和多模態等方面均超越GPT-4,而且部分核心能力首次超越了人類專家,這不僅對OpenAI構成了強有力的沖擊和挑戰,也標志著AI大模型浪潮進入一個新的階段。但即使Gemini“效果驚人”,谷歌似乎并沒有十足底氣,包括沒有公布Gemini頂尖大模型的性能數據,不免被質疑吹噓過度和測試標準偏頗。
首超人類專家,多維領先GPT-4
作為籌備一年之久的GPT-4強力競品,Gemini 1.0是目前谷歌能拿出手的功能最為強悍、適配最為靈活的大模型,分別包括Gemini Ultra、Gemini Pro和Gemini Nano三種不同套件。其中Ultra是谷歌最大、最強模型,適用于高度復雜的任務;Pro能力稍弱,是一個可擴展至多任務的模型;Nano則是一款適用于端側設備運行的模型。
不過,谷歌方面并沒有透露Gemini Ultra和Gemini Pro的具體參數大小,只是明確稱規模最小的Gemini Nano的參數分別為18億(Nano-1)和32.5億(Nano-2)。但有傳言稱,Gemini Ultra的參數規模達到萬億級別,訓練動用的算力是GPT-4的5倍以上。
Gemini發布后,外界尤其關注其對GPT-4的挑戰。谷歌DeepMind產品副總裁伊萊·柯林斯(Eli Collins)表示,團隊一直在對Gemini進行嚴格的測試并評估其在各種任務中的性能。從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型(LLM)研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平。
據MMLU(大規模多任務語言理解數據集)的測試結果,Gemini Ultra的得分率為90%,這款MMLU數據集包含數學、物理、歷史、法律、醫學和倫理等57個科目,專門用于測試大模型的知識儲備和解決問題能力。作為對比,人類專家的得分率為89.8%,GPT4得分率為86.4%。這說明Gemini Ultra是第一個在MMLU測試中超過人類專家的模型。
在多模態方面,Gemini Ultra在權威MMMU基準測試中也獲得了59.4%的SOTA分數,高于GPT-4V的56.8%。這項基準測試是由跨不同領域的多模式任務組成,需要大模型進行深思熟慮的推理過程,而谷歌Gemini大模型多模態背后的技術原理也引發業界關注。對此,谷歌DeepMind首席科學家杰夫·迪恩(Jeff Dean)團隊撰寫了60頁技術報告來闡述。
以往,多模態大模型是將純文本、純視覺和純音頻模型拼接在一起,例如OpenAI的GPT-4、DALL·E和Whisper等,但這并不是最優解。據戴密斯·哈薩比斯透露,Deepmind團隊將Gemini設計為原生多模態,從一開始就在不同模態上進行預訓練。然后,利用額外的多模態數據對其進行微調,以進一步提高其有效性。這有助于Gemini從最初階段就能對輸入的各種內容順暢地進行理解和推理,并優于現有的多模態模型。
谷歌方面稱,Gemini將通過其系列產品推向數十億用戶,其中谷歌聊天機器人Bard由Gemini Pro微調版本驅動,在170多個國家和地區提供英語服務并持續擴展,這是Bard自推出后的最大升級。而谷歌的Pixel 8 Pro將成為首款搭載Gemini Nano的智能手機,明年年初將推出Bard Advanced,提供Gemini Ultra模型的最佳性能。此外,值得注意的是,在Gemini亮相同時谷歌還推出了專為大模型設計的新一代TPU——Cloud TPU v5p。
“復仇者聯盟”坐鎮,競爭行業王座
一定程度上,谷歌發布Gemini多少讓外界有些意外。在今年5月谷歌的開發者大會上,谷歌便高調對外宣布下一代大語言模型Gemini,按照原計劃將在12月份對外正式發布。但近期傳出谷歌將發布Gemini推遲至明年1月,谷歌方面給出的理由是“在某些非英語任務方面的表現不佳”,這曾引發了外界猜測谷歌在Gemini研發方面遇到了困難和挑戰。
過去一年來,全世界的AI公司掀起“對標”GPT熱潮,其中谷歌被視為當仁不讓的最強大對手,但在與OpenAI的競爭中,回應卻總步履蹣跚?;蛟S是迫于外界預期壓力以及加速追趕OpenAI,谷歌最終按原計劃對外發布了Gemini。無論如何,Gemini的正式登場不僅形成了對OpenAI的有力反擊,也意味著AI大模型浪潮進入到一個全新階段。
從如今公布的Gemini參數和使用效果來看,谷歌的“AI家底”自然不菲。例如在官方技術報告中,谷歌提到是使用TPUv5e和TPUv4對Gemini進行大規模訓練,旨在將其打造成可靠、可擴展的訓練模型和最高效的服務模型。在TPU上,Gemini的運行速度明顯快于其早期規模較小、能力較弱的模型,如被曝參數規模為3400億的PaLM-2。而最新的TPU v5p一旦納入運營,將進一步減少谷歌訓練Gemini大模型相關的時間投入等。
此外,為了強化技術班底,谷歌曾在今年4月直接把谷歌大腦(Google Brain)和DeepMind合并在一起,其中Google Brain曾經締造了Tensorflow與Transformer架構,DeepMind則曾憑借AlphaGo掀起上一輪AI熱潮、創造了AlphaFold預測蛋白質折疊。由于此前在行業競爭中失利,這一團隊也被外界調侃是“AI復仇者聯盟”。而正是基于匯合兩個頂尖實驗室力量的緊密攻關,Gemini才得以在多項指標上實現了對GPT-4的絕地反擊。
前不久,OpenAI經歷了全球矚目的戲劇性“董事會內亂”,其CEO山姆·阿爾特曼(Sam Altman)突遭董事會罷免,但最終迅速回歸。此后,OpenAI的未來發展增添許多新的不確定性,包括推出的GPT高級版無限期暫停等,這也給了谷歌等公司更多追趕的時間和機會。
目前來看,雖然OpenAI占有先機,通過ChatGPT獲得了大量訓練數據反饋,但谷歌也依然有著自身的技術和生態優勢。據外媒此前報道稱,Gemini至少在一個重要方面比GPT-4強,即除了來自網絡的公共信息之外,Gemini還利用了來自谷歌旗下產品的大量專有數據。因此,在理解用戶特定查詢的意圖時更準確,而且錯誤答案(即幻覺)也似乎更少。
在Gemini正式亮相后,業界不乏對其肯定和追捧,其中英偉達AI科學家范麟熙(Jim Fan)表示,遲到總比不做好,OpenAI王座終于有了強力競爭者。但對于Gemini“效果驚人”,也有分析稱,谷歌有些吹噓過度以及測試標準有失偏頗等,包括即便是通過Gemini Ultra對比,但很多項也都僅是略高于GPT-4和GPT-4V等模型。不過,艾倫人工智能研究所前CEO奧倫·埃齊奧尼(Oren Etzioni)則稱,“沒有理由懷疑Gemini在這些基準上比GPT-4更好,但沒準GPT-5會比Gemini做得更好?!?