文 | 西安交通大學法學院、人工智能與信息安全法律研究中心 王新雷 張凱欣
生成式人工智能的發展離不開數據,而訓練數據的質量尤為關鍵。然而,大量由人工智能(AI)生成的內容被混入訓練數據后,通過遞歸迭代和語義扭曲的方式形成“污染鏈條”,最終導致模型性能退化甚至崩潰。這種趨勢不僅威脅AI系統的穩定性,還可能給社會、經濟乃至政治等多個領域帶來負面影響。因此,亟須從法律規范、制度設計與技術手段三個維度協同發力,構建多層次、系統性的治理機制,防控AI生成數據對大模型訓練的污染風險。
一、生成式人工智能中數據的重要作用及訓練原理
當前,以DeepSeek、ChatGPT、豆包、Kimi等為代表的國內外大模型正在迅速涌現并加速發展,帶動了生成式AI的廣泛應用。2023年7月10日,國家網信辦聯合國家發展改革委等七部門發布的《生成式人工智能服務管理暫行辦法》,將生成式AI界定為“具有文本、圖片、音頻、視頻等內容生成能力的模型及相關技術”。生成式AI的技術核心在于通過神經網絡與深度學習算法,在海量網絡數據中進行大規模訓練,從而實現新數據的自動生成。而這一過程中所使用的訓練數據,主要由開發者從互聯網的在線數據中獲取。
傳統的在線數據主要來源于現實物理世界,不同的生成式AI模型基于各自獨立的數據集進行訓練。這一過程的理論基礎是統計學習理論,即通過機器學習算法對數據分布進行建模和擬合。所謂數據分布,是指數據在特征空間中呈現的概率模式。例如,對于生成文本的大型語言模型而言,自然語言語句的生成概率受到語義、語法等維度的共同影響,其分布特征體現為語言結構的統計規律。而在多模態生成模型中(如用于生成文本、圖像、音頻、視頻或多種數字內容組合的模型),圖像則在像素空間呈現出特定的分布形式。
在數字經濟時代,數據已成為推動經濟增長和構建數智化社會的重要投入品,日益演變為一種新型的生產要素。然而,隨著生成式AI被頻繁使用,大量AI生成內容開始涌入在線數據環境,且與人類生成數據相比所占比重持續提升,由此引發數據污染風險,即AI生成的數據在無意中混入原本由人類創作的數據集之中,進而被用于模型訓練,對訓練數據質量構成威脅。
二、人工智能生成數據的污染路徑
在生成式AI擴散之前,所收集的用于訓練的任何數據通常不會受AI生成數據的污染,但自2022年底生成式AI向公眾廣泛開放使用后,其收集用于“學習”的數據很可能含有大量AI生成內容。而AI生成內容往往存在失真、缺維、偏見等問題,且這類數據與人類生成數據越來越難以區分。
用AI生成內容訓練新的生成式AI會引發重大問題,這種訓練類似于一個退化過程,每一代生成模型都只是對真實數據分布的一個近似。當下一代模型基于這個近似模型的輸出樣本數據進行訓練時,它實際上是在學習一個“近似的近似”,從而導致每一代生成模型都發生信息損失。換言之,在其他AI的輸出數據基礎上訓練,可能會顯著降低新的生成式AI的質量。
生成數據的污染路徑主要包括以下兩種類型:一是遞歸性污染。研究表明,當大模型僅基于前一代模型生成的數據進行訓練時,經過多輪迭代后,其生成結果將顯著喪失復雜性和多樣性。雖然通過將原始數據與前一輪生成數據以相同比例合并使用,可以在一定程度上減緩這一退化趨勢,但由于生成數據呈非線性增長,當前用于訓練的人類生成數據數量的增長速度也超過線性增長速度。因此,長期有效地避免模型退化仍極具挑戰性。目前,智能采樣策略雖可延緩污染影響,卻難以從根本上解決問題。二是語義失真所引發的傳遞性污染。當大模型本身存在邏輯矛盾、語義混亂等系統性誤差時,該錯誤可能在多輪迭代訓練中被不斷放大。模型在基于混合數據進行訓練時,往往會將這些帶有偏差的模式誤識為真實數據分布,從而生成所謂的“帶有偏差的真相”。
三、人工智能生成數據污染的連鎖反應
數據污染通過多種路徑在技術層面傳導,最終可能導致模型性能的系統性退化,甚至存在模型崩潰的風險。所謂模型崩潰,是指當新一代生成式AI模型在訓練過程中主要依賴上一代模型生成的數據時,其性能顯著下降,表現為輸出內容缺乏連貫性、邏輯紊亂,甚至產生胡言亂語等異常行為。換言之,若生成式AI不斷基于自身輸出進行再訓練,其生成能力將呈現退化趨勢,最終可能陷入“自我循環”的質量崩塌。目前,盡管互聯網AI生成內容的總體占比仍相對較低,尚未出現被廣泛確認的模型崩潰實例,但生成數據的規模正以前所未有的速度增長。據ChatGPT預測,自2022年11月ChatGPT 3.5發布以來至2024年3月,互聯網AI生成內容的數量增長了約8362%;據硅谷AI公司Reforge統計,2025年全球互聯網內容中,AI生成內容比例已經超過50%。由此可見,若缺乏有效的預防和緩解機制,模型崩潰有可能演變為未來生成式AI技術演進過程中的關鍵性挑戰。
在經濟社會層面,生成數據污染可能加劇數據壟斷。自2022年年底以來,生成式人工智能呈爆炸性發展和迅速普及的趨勢。相比之下,2022年前所采集的數據因尚未廣泛受到生成式AI內容的干擾,具備更高的“純凈性”,從而成為一種稀缺而珍貴的資源。這種未受污染的數據正逐漸成為新進入者難以獲取的戰略資產。與此同時,原始數據持有者出于維護自身技術優勢和市場壁壘的考慮,通常拒絕對外出售或共享這些高質量數據。這種資源的非對稱分布,可能導致技術創新的準入門檻顯著提高,不僅加劇了“先發者優勢”的行業格局,更引發數據競爭結構的失衡。
在政治與社會領域,生成數據污染將加劇“數字鴻溝”。隨著數據污染程度的上升,信息辨識的成本大幅增加,公眾在面對真假難辨的信息時獲取可靠知識的難度顯著提高。這不僅提升了社會的整體交易成本,也使得驗證信息真偽成為一項高門檻、高成本的任務。在這種背景下,具備經濟與技術資源的群體更有甄別與利用高質量數據的能力,在數據驅動型社會中占據結構性優勢。尤為嚴重的是,在當今法律制度與政治決策高度依賴數據支持的背景下,大量不可信的生成信息污染,可能在公共輿論、政策制定乃至選舉等關鍵環節引發廣泛危機,從而對社會結構的穩定性構成潛在威脅。
四、人工智能生成數據污染的治理路徑
生成數據污染的有效治理有賴于多主體參與下的協同共治機制。在我國,2020年施行的《網絡信息內容生態治理規定》已初步體現出國家主導、企業參與、社會協同的治理理念,展示了應對復雜數據環境的重要制度思路。應對生成式AI引發的數據污染挑戰,亟須在法律、制度與技術三個層面構建協同治理路徑。
(一)法律層面:探索國際視野與中國特色的聯動治理模式
數據污染治理需從國家法律層面著手,構建綜合性法律治理框架。治理核心是防范與消除數據污染的負面影響。當前,多個國家和地區已出臺相關法律法規,形成具有代表性的法律治理路徑。例如,歐盟相繼發布《數據法案》《人工智能法案》,在數據治理、平臺監管以及反壟斷等領域發揮了關鍵作用;德國修訂后的《反限制競爭法》也在限制數據壟斷、維護市場公平競爭方面作出了重要貢獻。我國則以《中華人民共和國網絡安全法》等法律為基礎,搭建并完善人工智能及數據治理的法律體系?!渡墒饺斯ぶ悄芊展芾頃盒修k法》的發布,標志著我國在數據保護與生成式AI監管方面邁出關鍵一步。
下一階段,應在現有法律體系基礎上,借鑒國際先進經驗,結合我國國情,探索具有國際視野與中國特色的聯動治理模式。例如,在具體法律條款中,一方面,可將“清潔數據”納入反壟斷法的“必要設施”范疇,參考德國在其《反對限制競爭法》中的前瞻性優勢,即無需證明企業已在特定市場占據支配地位或已產生實際的反競爭效果。一旦相應的數據被認定為“必要設施”,監管機構就可以預防性地禁止其從事一系列濫用行為,包括通過處理其收集的數據來制造市場準入壁壘,或拒絕數據的可移植性。另一方面,可借鑒生物基因庫的模式,設立由國際組織或具備公信力的第三方機構管理的“公共純凈數據池”,實現關鍵數據資源的集中管理與共建共享,以保障生成式AI發展的基礎數據質量。
(二)制度層面:構建行業自律與全球數據共享協同機制
我國有關部門陸續發布《新一代人工智能發展規劃》《關于平臺經濟領域的反壟斷指南》等重要政策文件,為AI治理提供了政策根基。在此基礎之上,還應推動AI行業自律,制定數據使用規范和道德標準,從而形成良好的數據使用生態。此外,還需要構建全球性的清潔數據共享機制,通過多邊合作確保未受污染的訓練數據公平獲取,建立利益分配體系,打破科技巨頭對清潔數據的壟斷,為AI可持續發展保留“數據凈土”。
(三)技術層面:強化水印溯源與聯邦學習應用
在技術層面,一方面,強化AI生成內容水印技術以區分污染數據,即通過技術手段在AI輸出內容中嵌入隱蔽標識或元數據,幫助人類或算法快速區分生成內容與真實數據。水印標識也可自動過濾數據抓取工具中的AI內容,切斷污染源頭,在模型迭代時優先刪除帶水印數據。2025年9月1日,我國《人工智能生成合成內容標識辦法》正式生效即通過此種手段強化數據保護。與此同時,強制性國家標準《網絡安全技術 人工智能生成合成內容標識方法》(GB 45438—2025)也同步實施,共同保障高質量訓練數據,規范人工智能合成內容標識。同時,全國網絡安全標準化技術委員會針對生成合成服務提供者和內容傳播服務提供者的平臺編碼,組織起草了配套實踐指南《網絡安全標準實踐指南——人工智能生成合成內容標識服務提供者編碼規則》,也為相關主體開展文件元數據隱式標識提供了編碼指引。
另一方面,運用聯邦學習(Federated Learning)技術可有效降低隱私泄露風險,并從源頭遏制大規模數據污染問題。該技術的核心機制在于實現本地化模型訓練,無需集中傳輸原始數據。這一舉措將確保即便面對日益嚴峻的數據污染與信息圈失真等情況,未來的科研工作者與創新主體仍可獲得可信賴的研究基石,保障技術創新鏈條的起點可靠性。
五、結 語
隨著大模型的快速普及,AI生成數據呈指數級增長,且正在與人類生成數據發生大規模混合,但現階段AI生成內容仍具有“幻覺”等質量問題,生成數據污染可能成為制約AI發展的隱性枷鎖。數據污染具有不可逆的放大效應,也具有跨界傳導的“蝴蝶效應”:從技術領域的模型崩潰到經濟社會領域的數據壟斷,再到政治領域的信息鴻溝。因此,需根據“三位一體”治理路徑,在法律上立法確權,將清潔數據納入數字基建,強制許可與收益共享機制;在制度上推動AI行業建立自律組織,構建全球共享模式;在技術上強化標識、推廣聯邦學習。
未來,對于生成數據污染的治理,需警惕巨型數據庫成為黑客攻擊的目標,通過“技術加固—制度約束—倫理共識”的策略,構筑全方位防線以遏制數據荒漠化趨勢,從而為生成式AI的可持續進化筑牢數據根基?!颈疚南祰疑缈苹鹎嗄觏椖?ldquo;總體國家安全觀視野下網絡侵入式偵查的法律規制研究”(項目編號:20CFX033)的研究成果】
(本文刊登于《中國信息安全》雜志2025年第9期)