精選聯盟

位元組釋出視覺基礎模型ViTamin,多項任務實作SOTA,入選CVPR2024

作者:量子位

允中 發自 凹非寺

量子位 | 公衆号 QbitAI

視覺語言模型屢屢出現新突破,但ViT仍是圖像編碼器的首選網絡結構。

位元組提出新基礎模型——ViTamin,專為視覺語言時代設計。

位元組釋出視覺基礎模型ViTamin,多項任務實作SOTA,入選CVPR2024

在使用相同的資料集和訓練方案時,ViTamin在ImageNet零樣本準确率上比ViT提高了2.0%。

此外在分類、檢索、開放詞彙檢測和分割、多模态大語言模型等60個不同基準上都表現出了良好的結果。

當進一步擴充參數規模時,ViTamin-XL僅有436M參數,卻達到了82.9%的ImageNet零樣本準确率,超過了擁有十倍參數(4.4B)的EVA-E。

最終這一成果,入選計算機視覺頂會CVPR2024。

視覺語言時代新基準

在視覺語言時代下,如何設計一個更好可擴充的視覺模型?

在ImageNet時代,新的視覺模型在ImageNet資料集得以驗證,也造就了不斷有新的視覺模型湧現。但在視覺語言時代,新的視覺模型鮮為人見。

此外,基于現有常見視覺模型,在面對比ImageNet資料規模還大的情況下表現又是如何?研究團隊們測試了幾種常見模型,包括純Transformer的ViT,純卷積網絡的ConvNeXt,以及混合卷積和Transformer的CoAtNet。

最終在一個公開的資料集上進行了系統性的訓練和比較,得出了一些關鍵發現:

  • 第一,模型的擴充性:由于可擴充的自注意力機制,ViT能最好地适應不同規模的任務。
  • 第二,資料的擴充性:随着訓練資料的增加,所有模型的性能都有所提升。
  • 第三,特征的分辨率:在訓練過程中,模型需要了解更廣泛的資訊,而不僅僅是簡單的類别标簽。是以,提取的特征的分辨率對模型的預測能力有很大影響。
  • 第四,混合架構:在一般情況下,CoAtNet表現優于其他模型,但将其擴充到處理數十億資料可能會有一些挑戰。

基于這些發現,研究人員設計了ViTamin模型。

它采用了三個階段的混合架構。前兩個階段使用了輕量級的MBConv Blocks,第三個階段包含了可擴充的Transformer Blocks。

位元組釋出視覺基礎模型ViTamin,多項任務實作SOTA,入選CVPR2024

具體來說,一張圖檔首先經過卷積stem處理,得到2倍降采樣的特征圖。

然後,這個特征圖經過第一階段,由兩個MBConv-LN Blocks組成,接着經過第二階段,由四個MBConv-LN Blocks組成,然後降采樣得到16倍降采樣的二維特征。

接下來,這些特征被展平成一維,并輸入到第三階段,該階段由N_B個TFB-GeGLU Block組成。最後,通過對比圖像特征和語言特征,來學習對比損失函數。

作者們緻力于簡單有效的scaling law,隻考慮模型的寬度C和模型第三階段的深度N_B,是以在scaling到更大的模型中,通過模型的參數規模可以直接反推需要多大的寬度和深度,進而實作模型的scaling。

多項SOTA

在零樣本性能上面,研究結果顯示,ViTamin-L的零樣本ImageNet準确率比ViT-L/14高出了2.0%。

位元組釋出視覺基礎模型ViTamin,多項任務實作SOTA,入選CVPR2024

當将特征分辨率增加到576個patch時,ViTamin-L的準确率進一步提高到了81.8%,比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38個資料集的平均性能上,ViTamin-L比ViT-H/14模型高出了0.4%,而且參數數量隻有ViT-H/14的一半。

此外,當進一步擴大模型規模時,參數量為436M的ViTamin-XL達到了82.9%的ImageNet零樣本準确率,超過了4.4B參數量的EVA-E取得的82.0%。

作者們進一步驗證了ViTamin模型對下遊任務而言是個強大的視覺編碼器。

作者們引入了一系列下遊任務,包括開放詞彙檢測和分割,以及多模态大模型(LMMs)。

ViTamin在開放詞彙檢測任務OV-LVIS上,相比比ViT-L模型能提高了3.1%。ViTamin在8個開放詞彙分割任務中,相比ViT-L平均提升了2.6%。

ViTamin能直接遷移到多模态大模型諸如LLaVA上,并在12個多模态問答等基準上表現出色。值得注意的是,ViTamin在7個開放詞彙分割基準上創造了新SOTA。

在這項工作中,作者們建立了主流視覺模型在視覺語言情境下的評估基準,并對它們進行了重新基準測試。作者們從資料可擴充性、模型可擴充性、特征分辨率和混合架構四個方面考察了主流的視覺模型。

位元組釋出視覺基礎模型ViTamin,多項任務實作SOTA,入選CVPR2024

這四個方面的關鍵發現為ViTamin的設計提供指導,ViTamin模型不僅在零樣本ImageNet準确率和平均38個資料集準确率方面全面超越ViT,而且在包括開放詞彙檢測和分割以及大型多模态模型在内的22個下遊任務上達到了最新的技術水準。

來自智能創作團隊

智能創作團隊是位元組跳動 AI & 多媒體技術團隊,覆寫了計算機視覺、音視訊編輯、特效處理等技術領域。

他們借助公司豐富的業務場景、基礎設施資源和技術協作氛圍,實作了前沿算法 - 工程系統 - 産品全鍊路的閉環,旨在以多種形式為公司内部各業務提供業界前沿的内容了解、内容創作、互動體驗與消費的能力和行業解決方案。

目前,智能創作團隊已認證位元組跳動旗下的雲服務平台火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。

論文連結:

https://arxiv.org/pdf/2404.02132.pdf

項目首頁:

https://beckschen.github.io/vitamin

— 完 —

量子位 QbitAI · 頭條号簽

關注我們,第一時間獲知前沿科技動态約

繼續閱讀