中科院認證：幹碎知乎豆瓣小紅書，弱智吧成為中國“最聰明”社群

魯迅先生曾說過：弱智吧裡出睿智。

意思是人隻要在弱智吧裡混迹上段時日，思維邏輯就會更清晰，整體會更睿智。

我願稱此為睿智法則，而令人震驚的是，這法則對AI竟然也生效......

這麼說是因為，在中科院開展的“中文網際網路社群Ai培育競賽”中，弱智吧力壓小紅書、知乎、豆瓣等平台，榮獲了“競賽”一等獎。

簡言之，弱智吧養出了最睿智的中文Ai。

啊？難不成中國最偉大的邏輯學家、哲學家、思辨家，乃至舉國智庫巅峰，還真就在弱智吧裡？

怎麼回事呢？

首先要澄清的是，中科院并沒有舉辦真正意義上的競賽，隻是展開了和中文Ai有關的研究項目。

操刀此項目的是個聯合團隊，涉及中科院深圳先進技術研究院、中科院自動化研究所......他們收集了國内各大社群平台的語言文字資料，借之培養了數個Ai模型，并用于性能競賽。

此中邏輯可了解為，研究團隊向多個網際網路社群派遣了Ai寶寶，讓它們紮根基層，努力從各種文章、回複、評論中汲取養分。經多日熏陶後，寶寶們學成歸來，參與了一場考試，論出了高低。

于是就有了下面這個表格：

其上存在許多有趣的資料。

比如，用小紅書資料訓練的Ai擅長頭腦風暴，但摘要、封閉回答的能力都很差，均分隻有50.3，敗給了豆瓣和知乎。

用豆瓣訓練的Ai均分63.2，排行第四，性能不差，但幾乎各方面都被知乎Ai壓上一頭。

用知乎訓練的Ai的整體表現很棒，原本甚至能奪冠，可惜的是，它遇上了自己的一生之敵，弱智吧。

“Ruozhiba（弱智吧）”産出的Ai寶寶，是本次測試中的絕對王者，有在八個項目拿下第一，僅對“重寫”與“數學”不太擅長。最離譜的是，其代碼能力還超過了專精此道的思否。

是以，知乎不如弱智吧、小紅書不如弱智吧、豆瓣不如弱智吧......弱智吧天下第一！理論成立!

這個看起來荒謬的答案，細細想來，其實非常合理。

因為弱智吧老哥們苦思冥想殚精竭慮反複推敲出的語料品質相當高，不但用詞精确簡潔，而且思維缜密、邏輯自恰。

換言之，弱智吧的語料，本就是濃縮的精化、中文語言邏輯的集大成者，經這般語料喂養出的Ai寶寶，自然比别處的更加茁壯。

但，這卻隻是咱以及許多網友們的一廂情願，因為弱智吧Ai寶寶的這場大勝，說來其實并不“光彩”。

它“作弊”了。

Ai當然沒有進化和變異到自主作弊的程度，做這事的，是科研團隊。

具體情況是，團隊給弱智吧Ai找了位頂級教師進行一對一輔導，如此才有了耀眼的成績。

至于這位老師的身份，大家夥也不陌生，GPT-4。

科研團隊這麼做，估計也是不得已，因為不這樣的話，弱智吧語料就無法發揮有效作用。

畢竟，對幼年級别的Ai而言，了解弱智吧，不亞于普通人看高數。

像ChatGPT剛誕生那會，就有遭遇過各種弱智吧問題的拷打，錯漏百出，文心一言剛面世時也一樣。

會出現這種情況，是因為弱智吧語料具有特殊性。

弱智吧的問題，屬于是有問題的問題，往往涉及常識錯誤、語義錯誤、因果倒置、時序倒置，充滿了邏輯陷阱.......面對這種陷阱，許多人類都繞不過來，更别說剛剛誕生的Ai了。

是以它們會順杆爬，将錯就錯，最後就得出了各種令人難繃的回複。

出于這樣的原因，科研團隊給弱智吧Ai訂制了全新學習方案。

他們會将相關語料抛先給GPT-4，讓其回答，然後人工進行修正，最後将整個過程打包喂給AI寶寶。

為什麼是GPT-4呢？因為作為成熟，或者說被拷打經驗豐富的大Ai，GPT-4已經基本學會了該如何應對這類弱智問題。它會先否定問題本身，再糾正問題的表達，最後回答問題。

有這麼一位名師教導，弱智吧的AI寶寶，自然也就遙遙領先了。

講到這裡，這個小烏龍算是解釋完了，瓜也吃罷了，但我們其實還可以深入思考一下。

比如，中科院整這麼一出，圖什麼啊？

GPT-4不是已經發展的非常成熟，能夠流程回答各種中文問題了嗎？學着它做個新Ai有什麼意義呢？

況且真培育出來，效果也不一定有人家更好。

是不是有點脫褲子放屁，多此一舉呢？

緣由其實很簡單——GPT-4在中文領域的表現并不算好，且在很多時候，其英文回答要比中文好很多。

有人或許會覺得，本就是西方搞出的玩意，英語好漢語差不是很正常嘛？其實不然，因為盡管語言不同，但相關訓練方式卻趨于一緻，Ai了解不同語言并非是通過翻譯，而是直接學習原文本，是以Ai并不存在母語一說，所有語言都可以是它的母語。

GPT-4在英文上的強大，源于相關語料的豐富。

根據一項資料顯示，英語網站在全球網站中的占比就高達60%，中文則隻有1.3%，位列第十（2020年資料），且英語還是論文的主要語言，論文占比為96.17%，中文大概不到2%，是以GPT-4在英文問答上表現優秀，中文則差強人意。

（2020年資料）

中文資料缺失的成因比較複雜，涉及各種次元，主要在兩方面。

首先是中文網際網路的起步比較晚，且存在諸多限制，其次是因為各流量巨頭畫地為牢，有把資訊截留在自家APP上。

像微信公衆号上就存在大量高價值資訊，但卻幾乎無法以任何微信外的方式搜尋到，使得搜尋引擎能觸及到的内容極為有限。在此基礎上，中國網際網路還高速開啟了視訊時代，令資訊視訊化，更難以被檢索。

搜尋不到就等于不存在，也就無法作為Ai教育的養分。

中科院的研究就意在解決這個問題，而且他們真的通過弱智吧Ai寶寶的表現找到了答案。

——品質是中文Ai教學微調所需要的一切。

這是論文的标題，也是該團隊為中國Ai找到的新出路。

他們的研究标明，Ai教育的最大難點不是資料夠不夠多，而是能否讓Ai接觸和吸收到高品質資料，以及該采用何種方式将之喂養。換言之，Ai要想表現好，取決于能不能找到好的教輔資料，以及教學手段合不合适。

出于這樣的目的，團隊向多個中文社群派遣了Ai寶寶，以論證不同資料的實用價值，也是在喂養預料的過程中，他們在弱智吧遇到了特殊情況，是以重新構造了回答，并最終得出了更加高效的教學手段。

這是個相當令人振奮的結果，意味着從業者發現了資料訓練的規律。

它很有可能會彌補中文Ai教育的資料短闆，讓更适應中國寶寶的Ai加速到來，再然後，Ai普及，再然後，Ai統治人類，再然後，Ai稱霸太陽系.....

或許在千百年後，在機器人的世界裡，在它們的資料庫裡，弱智吧這個名字會被銘記。那群宇宙外的高維生物，就算一眼能夠望穿時間與空間的縫隙，把次元拓撲折疊當做與人類綁蝴蝶結一般平平無奇的玩鬧——他們也會無法了解，為何渺小的三維宇宙角落，居然藏着這麼一個充滿邏輯謬誤與不可逆悖論的資訊堆，這是否是更高等的文明僞裝的資訊熵炸彈？

這一切，隻因為弱智吧改變了AI教育。

參考文章：

[1]COIG-CQIA：品質是中文教學微調所需要的一切(arxiv.org) https://arxiv.org/html/2403.18058v1

[2]知乎專欄《笑死我了，用弱智吧資料訓練的 AI 爆殺了所有中文平台》，作者Anlin

https://zhuanlan.zhihu.com/p/690640864

中科院認證：幹碎知乎豆瓣小紅書，弱智吧成為中國“最聰明”社群

繼續閱讀

鬧大了！竟然被美法針對？不去也罷？中國如何應對精心“布局”？

中國載人登月技術取得新突破，美國意識到：這次可能真要落後了

官宣！中國晶片重大突破，美國看了馬上聯合日韓偷摸搞事！

北大教授姚洋：馬斯克要放在中國就是騙子！沒人會支援他移民火星

無人能敵？馬斯克突然宣布，中國6G已經勢不可當了！

兇手鎖定，中國空間站被多次撞擊，神舟十八帶裝甲，專防太空垃圾

奧尼爾：說實話，中國男籃真正算得上是國際球星的，隻有這三位！

外國部落客紛紛釋出“中國探險記”，有太多“沒想到”……

全球首顆6G衛星的發射！打破美國太空霸權，中國創造又一壯舉

西方内讧！名将：奧運如果媒體都攻擊中國遊泳隊，誰還來報道我？

美國媒體揭露中國23人陽性名單，世界反興奮劑機構反擊美國雙标

中國女排出征世界女排聯賽第一站比賽的十八人大名單出爐

湯姆斯杯喜訊，中國3-1淘汰衛冕冠軍印度，晉級半決賽，日本出局

一本中國禁書，為何成為日本強國的秘籍？

孫楊隻是開始！美反興奮劑機構施壓WADA，要求嚴懲23名中國運動員

看了多家外媒的披露後，我才明白中國已經沒必要向世界證明什麼了