太平洋時間本周二 11:01,谷歌在官網中宣布在 180 多個國家 / 地區通過 Gemini API 提供 Gemini 1.5 Pro 的公開預覽版,這是它目前功能最強大的生成式 AI 模型。谷歌本以為能在網際網路上掀起一番聲勢浩大的讨論,不料短短 40 分鐘後,OpenAI 就出來搶風頭了:它釋出了非預覽版的 GPT-4 Turbo,将之前獨立的 GPT-4 Vision 直接內建到模型中。這還沒完,下午 6:20,Mistral 在 X 上直接了當地甩出一條磁鍊,強勢開源 Mixtral 8x22B 這個超大模型。
谷歌剛拔劍出鞘,OpenAI 和 Mistral 立馬摩拳擦掌加入戰鬥,科技界“三強争霸賽”一觸即發。不過,到底是虛張聲勢還是确實“有點東西”,讓我們一探究竟。
Gemini 1.5 Pro :“聽”懂掌聲
Gemini 1.5 Pro 目前已在谷歌面向企業的 AI 開發平台 Vertex AI 上提供公共預覽版。它能處理的上下文從 12.8 萬個 token 增加到 100 萬個 token,相當于大約 70 萬個單詞,或者大約 3 萬行代碼。這大緻是 Anthropic 旗下模型 Claude 3 最大上下文量的四倍,OpenAI 旗下模型 GPT-4 Turbo 最大上下文量的八倍。
Gemini 1.5 Pro 版本擴充了輸入模态,首次提供了本地音頻(語音)了解功能和全新的檔案 API,使檔案處理變得更加簡單。此外,Gemini 1.5 Pro 現在能夠對上傳到谷歌 AI Studio 中的視訊進行圖像(幀)和音頻(語音)推理,谷歌也期待盡快為此添加 API 支援。
您可以上傳講座的錄音,Gemini 1.5 Pro 可以将其變成小測驗,并附有答案。
不過,Gemini 1.5 Pro 對于沒有通路 Vertex AI 和 AI Studio 權限的人來說是不可用的。目前,大多數人隻能通過 Gemini 聊天機器人來接觸 Gemini 語言模型。雖然它功能強大,也能了解長指令,但它的速度不如 Gemini 1.5 Pro。
GPT-4 Turbo:不如不“看”?
OpenAI 宣布 GPT-4 Turbo with Vision 模型已經通過 OpenAI API 向開發人員開放。該模型延續了 GPT-4 Turbo 系列 128,000 個 token 的視窗大小,以及截止至 2023 年 12 月的知識庫,最大的革新之處在于其新增的視覺了解能力,可處理和分析多媒體輸入資訊。
OpenAI 稱這些變化有助于簡化開發人員的工作流程并打造更高效的應用程式,因為“過去,開發者需要調用不同的模型來處理文本和圖像資訊,但現在,隻需一次 API 調用,該模型就可以分析圖像并應用推理。”
OpenAI 還提到此次更新是“ Majorly improved(重大改進)”,不過網友則對這個“小修小補”表示不感興趣:“如果不是 GPT-5 的話,還是别發了。”
延伸閱讀:OpenAI 重磅釋出的 GPT-4 Turbo with Vision,是編碼的倒退
Mixtral 8x22B :強勢開源
今年 1 月,Mistral AI 公布了 Mixtral 8x7B 的技術細節,該模型以 47B 左右的參數總量,展現了不錯的性能——在人類評估基準上明顯超過了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B 聊天模型。
短短 3 個月後,Mistral AI 開源了 Mistral 8X22B 模型,再一次為開源社群注入了新鮮血液。Mistral AI 提供的磁鍊大小為 281 GB,下載下傳後可以看到模型檔案大小約為 262 GB,比之前的 Mixtral 8x7B 大得多,鑒于 Mixtral 8x7B 優秀的表現,網友們表示很看好 Mistral 8X22B,不過目前還沒有看到有人運作它。
晶片大戰
除了軟體的較量,另一邊,硬體領域中的晶片也是八仙過海。
對于提升訓練 AI 模型所需的算力來說,CPU 至關重要。而衆所周知,購買 AI 晶片的成本驚人,英偉達的 Backwell 晶片,預計售價在 3 萬美元到 4 萬美元之間。為了在 AI 軍備競賽中節省開支,微軟和亞馬遜均在自研處理器方面發力,谷歌自然不甘落後。本周二的 Cloud Next 2024 大會上,谷歌還正式宣布,将自研首款基于 Arm 的 CPU。據稱這款 CPU 處理器 Axion,将提供比英特爾 CPU 更好的性能和能源的效率,其中性能提高 50%,能源效率提高 60%,比起目前基于 Arm 的最快通用晶片,Axion 的性能還要高出 30%。
GPU 方面,當地時間 4 月 9 日,英特爾舉辦了面向客戶和合作夥伴的英特爾 on 産業創新大會。這場大會上,英特爾首次介紹了他們的 GPU 産品 Gaudi 3,對标英偉達早前的主力産品 H100。據介紹,英特爾 Gaudi 3 将帶來 4 倍的 BF16 AI 計算能力提升,采用 128GB HBMe2 記憶體,支援 1.5 倍的記憶體帶寬提升,采用 5nm 制程制造。此外,這顆晶片能夠支援多種的大模型,包括 Llama、文生圖的 Stable Diffusion、語音識别的 Whisper 等等。
短短幾天,科技圈的大事層出不窮,不得不祭出這張 meme 了。
作為這場科技革命千千萬萬的見證者之一,我時刻期待着。
參考來源:
https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
https://platform.openai.com/docs/models/continuous-model-upgrades
https://twitter.com/OpenAI/status/1777772582680301665
https://twitter.com/MistralAI/status/1777869263778291896