首頁
黨政
- 黨網 · 時政
- 人事
- 反腐
- 理論
- 黨史
- 黨建
要聞
- 經濟 · 科技
- 社會 · 法治
- 文旅 · 體育
- 健康 · 生活
- 國際
- 軍事
- 港澳
- 臺灣
- 教育
- 科普
觀點
互動
可視化
地方
- 京
- 津
- 冀
- 晉
- 蒙
- 遼
- 吉
- 黑
- 滬
- 蘇
- 浙
- 皖
- 閩
- 贛
- 魯
- 豫
- 鄂
- 湘
- 粵
- 桂
- 瓊
- 渝
- 川
- 黔
- 滇
- 藏
- 陜
- 甘
- 青
- 寧
- 新
- 鵬
- 雄安
民文
English
合作網站
舉報專區(qū)
登錄

退出

人民網>>經濟·科技

AI“模型崩潰”風險需警惕

張佳欣

2024年09月25日09:01 | 來源：科技日報

小字號

原標題：AI“模型崩潰”風險需警惕

從客戶服務到內容創(chuàng)作，人工智能（AI）影響了眾多領域的進展。但是，一個日益嚴重的被稱為“模型崩潰”的問題，可能會使AI的所有成就功虧一簣。

“模型崩潰”是今年7月發(fā)表在英國《自然》雜志上的一篇研究論文指出的問題。它是指用AI生成的數(shù)據(jù)集訓練未來幾代機器學習模型，可能會嚴重“污染”它們的輸出。

多家外媒報道稱，這不僅是數(shù)據(jù)科學家需要擔心的技術問題，如果不加控制，“模型崩潰”可能會對企業(yè)、技術和整個數(shù)字生態(tài)系統(tǒng)產生深遠影響。天津大學自然語言處理實驗室負責人熊德意教授在接受科技日報記者采訪時，從專業(yè)角度對“模型崩潰”進行了解讀。

“模型崩潰”是怎么回事

大多數(shù)AI模型，比如GPT-4，都是通過大量數(shù)據(jù)進行訓練的，其中大部分數(shù)據(jù)來自互聯(lián)網。最初，這些數(shù)據(jù)是由人類生成的，反映了人類語言、行為和文化的多樣性和復雜性。AI從這些數(shù)據(jù)中學習，并用它來生成新內容。

然而，當AI在網絡上搜索新數(shù)據(jù)來訓練下一代模型時，AI很可能會吸收一些自己生成的內容，從而形成反饋循環(huán)，其中一個AI的輸出成為另一個AI的輸入。當生成式AI用自己的內容進行訓練時，其輸出也會偏離現(xiàn)實。這就像多次復制一份文件，每個版本都會丟失一些原始細節(jié)，最終得到的是一個模糊的、不那么準確的結果。

美國《紐約時報》報道稱，當AI脫離人類輸入內容時，其輸出的質量和多樣性會下降。

熊德意解讀稱：“真實的人類語言數(shù)據(jù)，其分布通常符合齊普夫定律，即詞頻與詞的排序成反比關系。齊普夫定律揭示了人類語言數(shù)據(jù)存在長尾現(xiàn)象，即存在大量的低頻且多樣化的內容。”

熊德意進一步解釋道，由于存在近似采樣等錯誤，在模型生成的數(shù)據(jù)中，真實分布的長尾現(xiàn)象逐漸消失，模型生成數(shù)據(jù)的分布逐漸收斂至與真實分布不一致的分布，多樣性降低，導致“模型崩潰”。

AI自我“蠶食”是壞事嗎

對于“模型崩潰”，美國《The Week》雜志近日刊文評論稱，這意味著AI正在自我“蠶食”。

熊德意認為，伴隨著這一現(xiàn)象的出現(xiàn)，模型生成數(shù)據(jù)在后續(xù)模型迭代訓練中占比越高，后續(xù)模型丟失真實數(shù)據(jù)的信息就會越多，模型訓練就更加困難。

乍一看，“模型崩潰”在當前似乎還是一個僅需要AI研究人員在實驗室中擔心的小眾問題，但其影響將是深遠而長久的。

美國《大西洋月刊》刊文指出，為了開發(fā)更先進的AI產品，科技巨頭可能不得不向程序提供合成數(shù)據(jù)，即AI系統(tǒng)生成的模擬數(shù)據(jù)。然而，由于一些生成式AI的輸出充斥著偏見、虛假信息和荒謬內容，這些會傳遞到AI模型的下一版本中。

美國《福布斯》雜志報道稱，“模型崩潰”還可能會加劇AI中的偏見和不平等問題。

不過，這并不意味著所有合成數(shù)據(jù)都是不好的。《紐約時報》表示，在某些情況下，合成數(shù)據(jù)可以幫助AI學習。例如，當使用大型AI模型的輸出訓練較小的模型時，或者當可以驗證正確答案時，比如數(shù)學問題的解決方案或國際象棋、圍棋等游戲的最佳策略。

AI正在占領互聯(lián)網嗎

訓練新AI模型的問題可能凸顯出一個更大的挑戰(zhàn)。《科學美國人》雜志表示，AI內容正在占領互聯(lián)網，大型語言模型生成的文本正充斥著數(shù)百個網站。與人工創(chuàng)作的內容相比，AI內容的創(chuàng)作速度更快，數(shù)量也更大。

OpenAI首席執(zhí)行官薩姆·奧特曼今年2月曾表示，該公司每天生成約1000億個單詞，相當于100萬本小說的文本，其中有一大部分會流入互聯(lián)網。

互聯(lián)網上大量的AI內容，包括機器人發(fā)布的推文、荒謬的圖片和虛假評論，引發(fā)了一種更為消極的觀念。《福布斯》雜志稱，“死亡互聯(lián)網理論”認為，互聯(lián)網上的大部分流量、帖子和用戶都已被機器人和AI生成的內容所取代，人類不再能決定互聯(lián)網的方向。這一觀念最初只在網絡論壇上流傳，但最近卻獲得了更多關注。

幸運的是，專家們表示，“死亡互聯(lián)網理論”尚未成為現(xiàn)實。《福布斯》雜志指出，絕大多數(shù)廣為流傳的帖子，包括一些深刻的觀點、犀利的語言、敏銳的觀察，以及在新背景下對新生事物的定義等內容，都不是AI生成的。

不過，熊德意仍強調：“隨著大模型的廣泛應用，AI合成數(shù)據(jù)在互聯(lián)網數(shù)據(jù)中的占比可能會越來越高，大量低質量的AI合成數(shù)據(jù)，不僅會使后續(xù)采用互聯(lián)網數(shù)據(jù)訓練的模型出現(xiàn)一定程度的‘模型崩潰’，而且也會對社會形成負面影響，比如生成的錯誤信息對部分人群形成誤導等。因此，AI生成內容不僅是一個技術問題，同時也是社會問題，需要從安全治理與AI技術雙重角度進行有效應對。”

(責編：羅知之、陳鍵)

關注公眾號：人民網財經

分享讓更多人看到

女人喷水高潮抽搐的视频网站,国产亚洲精品岁国产精,人妻夜夜爽爽88888视频,亚洲第一区欧美日韩

人民日報報系

旗下網站

創(chuàng)新服務平臺

AI“模型崩潰”風險需警惕

推薦閱讀

客戶端下載

熱門排行