精選聯盟

端側大模型爆發元年,商湯超預期的地方在哪?

作者:第一财經

4月26日,商湯(00020.HK)收盤大漲43.37%,已連續5個交易日上漲,累計漲幅105%。

消息面上,4月23日,商湯釋出了業内首個“雲、端、邊”全棧大模型産品矩陣,以滿足不同規模場景的應用需求,并全新更新“日日新SenseNova5.0” (下稱“日日新5.0”)大模型體系。“日日新5.0”據悉在知識、數學、推理和代碼能力方面大幅提升,綜合能力全面對标GP T-4 Turbo。

銀河證券釋出研報稱,商湯“日日新SenseNova”釋出節奏超預期,綜合能力大幅提升,有望推動國内通用大模型廠商加速疊代,降低應用端成本和門檻,進一步拓寬應用端場景,推動AI商業化程序提速。

“日日新SenseNova5.0”性能對标GPT-4 Turbo

自去年4月首次釋出以來,商湯“日日新SenseNova”大模型體系已正式推出五個大版本疊代。基于超過10TB tokens訓練、覆寫大量合成資料,全新的“日日新5.0”采用混合專家架構,推理時上下文視窗可以有效到 200K 左右。

據悉,本次更新主要聚集增強了知識、數學、推理及代碼能力,全面對标 GPT-4 Turbo,主流客觀評測上達到或超越 GPT-4 Turbo。

端側大模型爆發元年,商湯超預期的地方在哪?

(資料來源:商湯)

文科能力方面,“日日新5.0”的創意寫作能力、推理能力以及總結能力均大幅提升,相同的中文知識注入後,可以獲得更好的了解總結及問答,為教育、内容産業等垂直應用場景提供有力輔助。

理科能力方面,“日日新5.0”的數理能力、代碼能力及推理能力達到業内領先水準,為金融、資料分析等場景落地提供堅實基礎。

多模态能力是大模型的另一大核心名額。商湯介紹稱,商湯多模态大模型的圖文感覺能力達到全球領先水準,在多模态大模型權威綜合基準測試MMBench中綜合得分排名首位,具備豐富的多模态互動能力。

商湯把大模型能力分為三層:知識層、推理層和執行層。商湯董事長兼CEO徐立介紹,知識層,即過往大模型已經有共識能夠把世界的知識融彙到一個模型當中;推理層,也就是世界知識聯系背後的道理,是更加高階的知識,是決定模型是否聰明、是否能夠舉一反三的核心能力;在推理之上如果能跟世界進行互動就有了執行層。

“知識、推理、執行形成完備的集合來構造大模型的三個基本能力,它給了我們構造高品質資料的核心方法論。商湯在尺度定律的指導下,會持續探索大模型能力的KRE三層架構(知識-推理-執行),不斷突破大模型能力邊界。”徐立表示。

率先完成“雲端邊”全棧布局

過去一年,雲端大模型在各個行業已開始應用,但智能終端側,如手機、PC、汽車等AIoT裝置,也是通用人工智能應用的廣泛載體和場景。時下中心化算力需求正逐漸向端側擴充,企業在邊緣側的AI需求也在快速增長。

商湯此次在業内首次推出“雲、端、邊”全棧大模型産品矩陣,其中包括應用于終端裝置的“商湯端側大模型”,以及面向金融、代碼、醫療、政務等多個領域的邊緣産品“商湯企業級大模型一體機”。

端側大模型爆發元年,商湯超預期的地方在哪?

(資料來源:商湯)

商湯表示,日日新·端側大語言模型的推理速度達到了業内最快,可在中端平台實作18.3字/秒的平均生成速度,旗艦平台更是達到了78.3字/秒;擴散模型同樣可在端側實作業内最快的推理速度,端側LDM-AI擴圖技術在某主流平台上,推理速度小于1.5秒,比友商雲端app快10倍,支援輸出1200萬像素及以上的高清圖檔,支援在端上快速進行等比擴圖、自由擴圖、旋轉擴圖等圖像編輯功能。

銀河證券認為,未來通用大模型領域可能會更加集中在頭部廠商,更多廠商需要向行業專業化轉型,尋求賦能行業以及終端應用突破,垂類大模型以及端側大模型将是未來主戰場,市場空間廣闊。

商湯此次還推出端雲協同解決方案,可以通過智能化判斷協同發揮端雲各自優勢,需要聯網搜尋或處理複雜場景時分流至雲端處理,部分場景端側處理占比超過80%,進而顯著降低推理成本。

端雲協同或是未來端側大模型應用的主流趨勢。“有幾個重要的問題需要通過端雲結合來解決。”商湯聯合創始人、首席科學家王曉剛對第一财經表示。

王曉剛表示,一是成本問題,比如全國目前有30億台手機,假如每人每天調用近10次,那麼對于雲端的算力需求和消耗成本是巨大的;二是資料的傳輸和延遲,比如在智能汽車場景,行駛過程中針對車内外特别是車外場景提出的各種問題,需要得到非常及時、準确快速的響應,最典型的比如在自動駕駛裡,大模型的部署必須是發生在端側的;三是資料安全、隐私各方面的問題,此外也有些沒有網絡的地方,使用者還是希望仍然能持續擁有大模型的體驗,這一切都實際推動了端側大模型的普及和推廣。

對于端側大模型來說,其使用體驗、性能與雲側大模型對齊至關重要。

“在過去一年裡,我們在雲端給手機、汽車客戶提供服務時,針對手機、智能汽車這些終端使用者的需求,對雲側模型做了大量的改進和開發。這樣再開發端側模型,端側模型的體驗就可以和雲側模型對齊。”王曉剛表示。

“這也是商湯端雲結合的獨特優勢。”王曉剛稱,“端雲結合最終是一個大的MOE(Mixture-of-Experts)架構,會有若幹個端側小模型,當使用者輸入需求時,我們會做出判斷,到底應該調用哪一個模型,或者是到雲端調用雲端模型。是以它是一個稀疏式的模型的激活,可以大大節省運算成本,降低功耗。”

據悉,目前搭載商湯端側大模型的裝置有部分正在量産,也有部分正處于接洽過程當中。在個人出行場景,近期火爆市場的小米汽車SU7,小米“小愛同學”為車主提供智能化互動體驗,當中也集合應用了商湯的大模型技術能力,有基于商湯端雲大模型解決方案。

(本文來自第一财經)

繼續閱讀