訊飛星火再更新首發長文本長圖文長語音功能

大皖新聞訊4月26日，訊飛星火大模型V3.5春季上新，釋出業界首個長文本、長圖文、長語音大模型，不僅能夠把各種資訊來源的海量文本、圖文資料、會議錄音等進行快速學習，還能夠在各種行業場景給出專業、準确回答。此外，星火語音大模型首發多情感超拟人合成，具備情緒表達能力，并推出一句話聲音複刻功能。

首發長文本、長圖文、長語音大模型

為什麼科大訊飛要做長文本、長圖文、長語音的大模型？

通過訊飛星火APP可以看到，使用者使用的最高峰不是周末，而是工作日的上午9:30和下午3:30。這意味着，大部分使用者用訊飛星火來解決和工作相關的剛需問題。而高效的知識擷取是使用者和開發者都高度關注的問題。

科大訊飛分析發現，在知識擷取和學習的過程中，廣大使用者能拿到的資料往往不僅是現成的長文本，還有随手可見的報刊書籍内容、各種研讨會的PPT内容，老師黑闆上的闆書、同學的筆記，以及各種會議錄音、訪談，各種網上的釋出會、教育訓練教育視訊等，能不能把這些文本、圖檔、語音等都上傳到訊飛星火中，快速地擷取知識？

為此，科大訊飛推出首個支援長文本、長圖文、長語音的大模型，來解決使用者真實場景中多源資訊的擷取需求。

本次訊飛星火長文本功能全新更新後，具備長文檔資訊抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力，總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水準，而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上，訊飛星火長文本總體水準已經超過GPT-4 Turbo。

長文本功能的落地需要解決資訊高效處理的問題：面對上百萬甚至上千萬文字，長文本大模型消耗的運算資源非常大。

為了解決大模型應用效率和準确率問題，科大訊飛董事長劉慶峰說，基于訊飛星火V3.5對長文本的了解、學習、回答能力，科大訊飛進行了重要的模型剪枝和蒸餾，進而推出業界性能最優的130億參數的大模型，在效果損失僅3%以内的情況下，使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得了極大的效率提升。測試顯示，在保障長文本效果的情況下，無論是10K、64K、128K token，還是更長的文本上，星火大模型的性能都做到業界最優。

面向複雜的圖文場景，科大訊飛在圖文識别、公式識别大賽多年國際第一的技術積累基礎上，首次推出星火圖文識别大模型。相比傳統小模型逐行文字識别的限制，星火圖文識别大模型能夠直接處理非常複雜的版面分析，目前已經覆寫31個典型場景，比如書刊、學術論文、專利、報紙、海報、PPT等，同時能自動識别标注出18類不同的版面要素，比如頁眉、頁腳、标題、段落、表格、公式、印章、手寫等。

此外，面對廣泛的音視訊資訊高效擷取需求，科大訊飛也推出長語音功能，将國際領先的語音識别和翻譯技術結合起來，可以實作會議錄音、學習視訊等的一鍵研讀，實作音視訊場景的高效知識擷取。

能“情感共鳴”，還能“一句話聲音複刻”

萬物互聯時代下需要更真實的AI語音互動。年初訊飛星火V3.5釋出會上，科大訊飛推出了超拟人對話功能，AI的聲音更自然更真實，拟人度達到了83%，受到使用者的廣泛歡迎。無論是語音可懂度、流暢度還是表現力，效果均超過OpenAI、微軟。

此次科大訊飛釋出多情感超拟人合成，進一步提升了情緒表達的可感覺度，對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感覺度達到85%以上，AI語音更加生動、真實。

除了超拟人對話，科大訊飛還推出“一句話聲音複刻”功能，一句話就可以定制你的AI助手聲音。比如模仿小朋友的聲音，每天給爺爺奶奶讀書讀報；在我們出差的時候，模仿我們的聲音給孩子講故事。這個功能可以讓世界變得更有溫度。

劉慶峰說，科大訊飛在個性化語音合成一直處于業界領先，目前已進階至一句話聲音複刻。當年訊飛AI模仿林志玲的聲音需要去台灣錄一個星期的聲音，到後來模仿郭德綱需要一天的聲音，再往後需要5分鐘的錄音，現在一句話就可以模仿。大家可以在訊飛星火APP上體驗。

大皖新聞記者項磊

編輯王翠

訊飛星火再更新 首發長文本長圖文長語音功能

訊飛星火再更新首發長文本長圖文長語音功能