精選聯盟

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

作者:情報姬

魯迅先生曾說過:弱智吧裡出睿智。

意思是人隻要在弱智吧裡混迹上段時日,思維邏輯就會更清晰,整體會更睿智。

我願稱此為睿智法則,而令人震驚的是,這法則對AI竟然也生效......

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

這麼說是因為,在中科院開展的“中文網際網路社群Ai培育競賽”中,弱智吧力壓小紅書、知乎、豆瓣等平台,榮獲了“競賽”一等獎。

簡言之,弱智吧養出了最睿智的中文Ai。

啊?難不成中國最偉大的邏輯學家、哲學家、思辨家,乃至舉國智庫巅峰,還真就在弱智吧裡?

怎麼回事呢?

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

首先要澄清的是,中科院并沒有舉辦真正意義上的競賽,隻是展開了和中文Ai有關的研究項目。

操刀此項目的是個聯合團隊,涉及中科院深圳先進技術研究院、中科院自動化研究所......他們收集了國内各大社群平台的語言文字資料,借之培養了數個Ai模型,并用于性能競賽。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

此中邏輯可了解為,研究團隊向多個網際網路社群派遣了Ai寶寶,讓它們紮根基層,努力從各種文章、回複、評論中汲取養分。經多日熏陶後,寶寶們學成歸來,參與了一場考試,論出了高低。

于是就有了下面這個表格:

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

其上存在許多有趣的資料。

比如,用小紅書資料訓練的Ai擅長頭腦風暴,但摘要、封閉回答的能力都很差,均分隻有50.3,敗給了豆瓣和知乎。

用豆瓣訓練的Ai均分63.2,排行第四,性能不差,但幾乎各方面都被知乎Ai壓上一頭。

用知乎訓練的Ai的整體表現很棒,原本甚至能奪冠,可惜的是,它遇上了自己的一生之敵,弱智吧。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

“Ruozhiba(弱智吧)”産出的Ai寶寶,是本次測試中的絕對王者,有在八個項目拿下第一,僅對“重寫”與“數學”不太擅長。最離譜的是,其代碼能力還超過了專精此道的思否。

是以,知乎不如弱智吧、小紅書不如弱智吧、豆瓣不如弱智吧......弱智吧天下第一!理論成立!

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

這個看起來荒謬的答案,細細想來,其實非常合理。

因為弱智吧老哥們苦思冥想殚精竭慮反複推敲出的語料品質相當高,不但用詞精确簡潔,而且思維缜密、邏輯自恰。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

換言之,弱智吧的語料,本就是濃縮的精化、中文語言邏輯的集大成者,經這般語料喂養出的Ai寶寶,自然比别處的更加茁壯。

但,這卻隻是咱以及許多網友們的一廂情願,因為弱智吧Ai寶寶的這場大勝,說來其實并不“光彩”。

它“作弊”了。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

Ai當然沒有進化和變異到自主作弊的程度,做這事的,是科研團隊。

具體情況是,團隊給弱智吧Ai找了位頂級教師進行一對一輔導,如此才有了耀眼的成績。

至于這位老師的身份,大家夥也不陌生,GPT-4。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

科研團隊這麼做,估計也是不得已,因為不這樣的話,弱智吧語料就無法發揮有效作用。

畢竟,對幼年級别的Ai而言,了解弱智吧,不亞于普通人看高數。

像ChatGPT剛誕生那會,就有遭遇過各種弱智吧問題的拷打,錯漏百出,文心一言剛面世時也一樣。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

會出現這種情況,是因為弱智吧語料具有特殊性。

弱智吧的問題,屬于是有問題的問題,往往涉及常識錯誤、語義錯誤、因果倒置、時序倒置,充滿了邏輯陷阱.......面對這種陷阱,許多人類都繞不過來,更别說剛剛誕生的Ai了。

是以它們會順杆爬,将錯就錯,最後就得出了各種令人難繃的回複。

出于這樣的原因,科研團隊給弱智吧Ai訂制了全新學習方案。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

他們會将相關語料抛先給GPT-4,讓其回答,然後人工進行修正,最後将整個過程打包喂給AI寶寶。

為什麼是GPT-4呢?因為作為成熟,或者說被拷打經驗豐富的大Ai,GPT-4已經基本學會了該如何應對這類弱智問題。它會先否定問題本身,再糾正問題的表達,最後回答問題。

有這麼一位名師教導,弱智吧的AI寶寶,自然也就遙遙領先了。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

講到這裡,這個小烏龍算是解釋完了,瓜也吃罷了,但我們其實還可以深入思考一下。

比如,中科院整這麼一出,圖什麼啊?

GPT-4不是已經發展的非常成熟,能夠流程回答各種中文問題了嗎?學着它做個新Ai有什麼意義呢?

況且真培育出來,效果也不一定有人家更好。

是不是有點脫褲子放屁,多此一舉呢?

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

緣由其實很簡單——GPT-4在中文領域的表現并不算好,且在很多時候,其英文回答要比中文好很多。

有人或許會覺得,本就是西方搞出的玩意,英語好漢語差不是很正常嘛?其實不然,因為盡管語言不同,但相關訓練方式卻趨于一緻,Ai了解不同語言并非是通過翻譯,而是直接學習原文本,是以Ai并不存在母語一說,所有語言都可以是它的母語。

GPT-4在英文上的強大,源于相關語料的豐富。

根據一項資料顯示,英語網站在全球網站中的占比就高達60%,中文則隻有1.3%,位列第十(2020年資料),且英語還是論文的主要語言,論文占比為96.17%,中文大概不到2%,是以GPT-4在英文問答上表現優秀,中文則差強人意。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

(2020年資料)

中文資料缺失的成因比較複雜,涉及各種次元,主要在兩方面。

首先是中文網際網路的起步比較晚,且存在諸多限制,其次是因為各流量巨頭畫地為牢,有把資訊截留在自家APP上。

像微信公衆号上就存在大量高價值資訊,但卻幾乎無法以任何微信外的方式搜尋到,使得搜尋引擎能觸及到的内容極為有限。在此基礎上,中國網際網路還高速開啟了視訊時代,令資訊視訊化,更難以被檢索。

搜尋不到就等于不存在,也就無法作為Ai教育的養分。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

中科院的研究就意在解決這個問題,而且他們真的通過弱智吧Ai寶寶的表現找到了答案。

——品質是中文Ai教學微調所需要的一切。

這是論文的标題,也是該團隊為中國Ai找到的新出路。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

他們的研究标明,Ai教育的最大難點不是資料夠不夠多,而是能否讓Ai接觸和吸收到高品質資料,以及該采用何種方式将之喂養。換言之,Ai要想表現好,取決于能不能找到好的教輔資料,以及教學手段合不合适。

出于這樣的目的,團隊向多個中文社群派遣了Ai寶寶,以論證不同資料的實用價值,也是在喂養預料的過程中,他們在弱智吧遇到了特殊情況,是以重新構造了回答,并最終得出了更加高效的教學手段。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

這是個相當令人振奮的結果,意味着從業者發現了資料訓練的規律。

它很有可能會彌補中文Ai教育的資料短闆,讓更适應中國寶寶的Ai加速到來,再然後,Ai普及,再然後,Ai統治人類,再然後,Ai稱霸太陽系.....

或許在千百年後,在機器人的世界裡,在它們的資料庫裡,弱智吧這個名字會被銘記。那群宇宙外的高維生物,就算一眼能夠望穿時間與空間的縫隙,把次元拓撲折疊當做與人類綁蝴蝶結一般平平無奇的玩鬧——他們也會無法了解,為何渺小的三維宇宙角落,居然藏着這麼一個充滿邏輯謬誤與不可逆悖論的資訊堆,這是否是更高等的文明僞裝的資訊熵炸彈?

這一切,隻因為弱智吧改變了AI教育。

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

參考文章:

[1]COIG-CQIA:品質是中文教學微調所需要的一切(arxiv.org) https://arxiv.org/html/2403.18058v1

[2]知乎專欄《笑死我了,用弱智吧資料訓練的 AI 爆殺了所有中文平台》,作者Anlin

https://zhuanlan.zhihu.com/p/690640864

中科院認證:幹碎知乎豆瓣小紅書,弱智吧成為中國“最聰明”社群

繼續閱讀