精選聯盟

訊飛星火再更新 首發長文本長圖文長語音功能

作者:大皖新聞

大皖新聞訊4月26日,訊飛星火大模型V3.5春季上新,釋出業界首個長文本、長圖文、長語音大模型,不僅能夠把各種資訊來源的海量文本、圖文資料、會議錄音等進行快速學習,還能夠在各種行業場景給出專業、準确回答。此外,星火語音大模型首發多情感超拟人合成,具備情緒表達能力,并推出一句話聲音複刻功能。

訊飛星火再更新 首發長文本長圖文長語音功能

首發長文本、長圖文、長語音大模型

為什麼科大訊飛要做長文本、長圖文、長語音的大模型?

通過訊飛星火APP可以看到,使用者使用的最高峰不是周末,而是工作日的上午9:30和下午3:30。這意味着,大部分使用者用訊飛星火來解決和工作相關的剛需問題。而高效的知識擷取是使用者和開發者都高度關注的問題。

科大訊飛分析發現,在知識擷取和學習的過程中,廣大使用者能拿到的資料往往不僅是現成的長文本,還有随手可見的報刊書籍内容、各種研讨會的PPT内容,老師黑闆上的闆書、同學的筆記,以及各種會議錄音、訪談,各種網上的釋出會、教育訓練教育視訊等,能不能把這些文本、圖檔、語音等都上傳到訊飛星火中,快速地擷取知識?

為此,科大訊飛推出首個支援長文本、長圖文、長語音的大模型,來解決使用者真實場景中多源資訊的擷取需求。

本次訊飛星火長文本功能全新更新後,具備長文檔資訊抽取、長文檔知識問答、長文檔歸納總結、長文檔文本生成等能力,總體已經達到GPT-4 Turbo 4月最新長文本版本的97%水準,而在銀行、保險、汽車、電力等多個垂直領域的知識問答任務上,訊飛星火長文本總體水準已經超過GPT-4 Turbo。

長文本功能的落地需要解決資訊高效處理的問題:面對上百萬甚至上千萬文字,長文本大模型消耗的運算資源非常大。

為了解決大模型應用效率和準确率問題,科大訊飛董事長劉慶峰說,基于訊飛星火V3.5對長文本的了解、學習、回答能力,科大訊飛進行了重要的模型剪枝和蒸餾,進而推出業界性能最優的130億參數的大模型,在效果損失僅3%以内的情況下,使得星火在文檔上傳解析處理、知識問答的首響時間以及文字生成方面都獲得了極大的效率提升。測試顯示,在保障長文本效果的情況下,無論是10K、64K、128K token,還是更長的文本上,星火大模型的性能都做到業界最優。

面向複雜的圖文場景,科大訊飛在圖文識别、公式識别大賽多年國際第一的技術積累基礎上,首次推出星火圖文識别大模型。相比傳統小模型逐行文字識别的限制,星火圖文識别大模型能夠直接處理非常複雜的版面分析,目前已經覆寫31個典型場景,比如書刊、學術論文、專利、報紙、海報、PPT等,同時能自動識别标注出18類不同的版面要素,比如頁眉、頁腳、标題、段落、表格、公式、印章、手寫等。

此外,面對廣泛的音視訊資訊高效擷取需求,科大訊飛也推出長語音功能,将國際領先的語音識别和翻譯技術結合起來,可以實作會議錄音、學習視訊等的一鍵研讀,實作音視訊場景的高效知識擷取。

訊飛星火再更新 首發長文本長圖文長語音功能

能“情感共鳴”,還能“一句話聲音複刻”

萬物互聯時代下需要更真實的AI語音互動。年初訊飛星火V3.5釋出會上,科大訊飛推出了超拟人對話功能,AI的聲音更自然更真實,拟人度達到了83%,受到使用者的廣泛歡迎。無論是語音可懂度、流暢度還是表現力,效果均超過OpenAI、微軟。

此次科大訊飛釋出多情感超拟人合成,進一步提升了情緒表達的可感覺度,對高興、抱歉、安慰、撒嬌、困惑等情緒表達的可感覺度達到85%以上,AI語音更加生動、真實。

除了超拟人對話,科大訊飛還推出“一句話聲音複刻”功能,一句話就可以定制你的AI助手聲音。比如模仿小朋友的聲音,每天給爺爺奶奶讀書讀報;在我們出差的時候,模仿我們的聲音給孩子講故事。這個功能可以讓世界變得更有溫度。

劉慶峰說,科大訊飛在個性化語音合成一直處于業界領先,目前已進階至一句話聲音複刻。當年訊飛AI模仿林志玲的聲音需要去台灣錄一個星期的聲音,到後來模仿郭德綱需要一天的聲音,再往後需要5分鐘的錄音,現在一句話就可以模仿。大家可以在訊飛星火APP上體驗。

訊飛星火再更新 首發長文本長圖文長語音功能

大皖新聞記者 項磊

編輯 王翠