精選聯盟

蘋果在小模型上還是非常領先的

作者:不秃頭程式員
蘋果在小模型上還是非常領先的

在 AI 領域,小模型技術越來越流行,因為這些模型可以直接在個人裝置上運作,無需依賴雲端的大型資料中心。Apple 最近推出了 OpenELM 項目,它包括一系列小巧的 AI 語言模型,這些模型足夠小,可以直接在智能手機上運作。目前,這些模型主要用于概念驗證和研究,但未來可能成為 Apple 裝置上 AI 産品的基礎。

Apple 的新型 AI 模型被統一命名為 OpenELM(開源高效語言模型),目前在遵守 Apple 特定的示例代碼許可(Apple Sample Code License)下可以在 Hugging Face 平台上使用。雖然這種許可具有一定的使用限制,可能不完全符合通常意義上的 “開源” 定義,但是你可以擷取到 OpenELM 的源代碼。

連結:https://huggingface.co/apple/OpenELM

微軟的 Phi-3 模型目标與 OpenELM 類似:即在小型 AI 模型中實作有效的語言了解和處理能力,這些模型可以在本地裝置上運作。例如,Phi-3-mini 的模型有 38 億參數量,而 Apple 的 OpenELM 模型則更小,八種不同模型的參數範圍在 2.7 億到 30 億之間。

對比之下,Meta 的 Llama 3 系列中最大的模型擁有 700 億參數,而 OpenAI 的 GPT-3 模型在 2020 年推出時,參數量達到了 1750 億。參數量是衡量 AI 模型複雜性和能力的一種方式。近年來的研究趨勢是讓小模型達到幾年前大模型的能力水準。

OpenELM 的八種模型分為兩類:四種預訓練模型(即模型的原始、下一個 Token 版本)和四種經過指令調優的模型(為指令跟随優化,更适合開發 AI 助手和聊天機器人使用):

  • OpenELM-270M:https://huggingface.co/apple/OpenELM-270M
  • OpenELM-450M:https://huggingface.co/apple/OpenELM-450M
  • OpenELM-1_1B:https://huggingface.co/apple/OpenELM-1_1B
  • OpenELM-3B:https://huggingface.co/apple/OpenELM-3B
  • OpenELM-270M-Instruct:https://huggingface.co/apple/OpenELM-270M-Instruct
  • OpenELM-450M-Instruct:https://huggingface.co/apple/OpenELM-450M-Instruct
  • OpenELM-1_1B-Instruct:https://huggingface.co/apple/OpenELM-1_1B-Instruct
  • OpenELM-3B-Instruct:https://huggingface.co/apple/OpenELM-3B-Instruct

這些模型的最大處理視窗為 2048 Token。它們在幾個公開的資料集上進行了訓練,包括精煉後的 Web 資料集、RedPajama 的子集和 Dolma v1.6 的子集,據 Apple 稱,這些資料集合計約有 1.8 萬億 Token。Token 是 AI 處理語言時使用的資料的碎片化表示。

Apple 采用了一種稱為 “逐層縮放” 的政策,這種政策可以更高效地在模型的各層之間配置設定參數,這不僅節省了計算資源,還在使用更少 Token 的情況下提升了模型的性能。據 Apple 釋出的白皮書顯示,這種政策使 OpenELM 在精确度上比 Allen AI 的 OLMo 1B 模型提高了 2.36%,而且隻需要一半的預訓練 Token。

蘋果在小模型上還是非常領先的

OpenELM 與類似的其他小型 AI 語言模型的比較表,摘自 Apple 的 OpenELM 研究論文

Apple 還釋出了用于訓練 OpenELM 的 CoreNet 庫代碼,并提供了可以複現模型權重的訓練配方,這在大型科技公司中尚屬罕見。如 Apple 在其論文摘要中所述,確定 LLM 的可複制性和透明性,對于推動開放式研究、確定研究結果的可靠性及探索資料和模型偏見等問題至關重要。

通過釋出源代碼、模型權重和訓練材料,Apple 希望能夠 “賦能并豐富開放研究社群”。同時,Apple 也提醒,由于模型是在公開的資料集上訓練的,是以存在模型在響應使用者輸入時可能産生不準确、有害、有偏見或令人反感輸出的風險。

盡管 Apple 還沒有将這些新的 AI 語言模型技術整合到其消費者裝置中,但預計在 6 月的 WWDC 上公布的 iOS 18 更新将包括新的 AI 功能,這些功能利用裝置上的處理來確定使用者隐私。此外,Apple 可能會考慮與 Google 或 OpenAI 合作,處理那些更複雜的、需要在裝置外進行的 AI 處理任務,以此來大幅提升 Siri 的功能。

原文連結:https://arstechnica.com/information-technology/2024/04/apple-releases-eight-small-ai-language-models-aimed-at-on-device-use/