合成數據是危險的老師

Wired - Ideas·超過 2 年前

在追求規模化的競爭中，越來越多人工智慧正使用低質量的數據集進行訓練，這將放大各種不平等現象，並使網路變成一個充滿偏見與虛假資訊的毒性垃圾場。

2022 年 4 月，當文本轉圖像的視覺語言模型 Dall-E 發佈時，據稱在最初三個月內就吸引了超過一百萬名用戶。緊隨其後的是 2023 年 1 月的 ChatGPT，它在發佈後僅兩個月，月活躍用戶數顯然就達到了 1 億。這兩者都標誌著生成式 AI 發展的重要時刻，進而引發了 AI 生成內容在網路上的爆炸式增長。壞消息是，在 2024 年，這意味著我們也將看到虛假、荒謬的信息，以及錯誤信息與虛假信息的爆炸，並加劇這些 AI 模型中所編碼的社會負面刻板印象。

AI 革命並非由近期的任何理論突破所推動——事實上，人工神經網絡的大多數基礎工作已經存在了數十年——而是源於海量數據集的「可用性」。理想情況下，AI 模型會捕捉特定的現象——無論是人類語言、認知還是視覺世界——並以盡可能接近真實現象且具代表性的方式呈現。

例如，為了讓大型語言模型（LLM）生成類人文本，向模型餵入大量能代表人類語言、互動和交流的數據至關重要。人們相信，數據集越大，就越能捕捉到人類事務中固有的美、醜甚至殘酷。我們正處於一個痴迷於擴大模型、數據集和 GPU 規模的時代。例如，目前的 LLM 已進入兆級參數機器學習模型的時代，這意味著它們需要十億級規模的數據集。我們在哪裡可以找到這些數據？在網路上。

這些來自網路的數據被假定為捕捉了人類交流與互動的「地面實況」（ground truth），是語言建模的代理指標。儘管多位研究人員現已證明，網路數據集的質量通常很差，往往會加劇負面刻板印象，並包含諸如種族歧視和仇恨言論等問題內容（通常針對邊緣群體），但這並未阻止大型 AI 公司在擴大規模的競賽中使用此類數據。

隨著生成式 AI 的出現，這個問題即將變得更加嚴重。這些模型並非以客觀方式從輸入數據中呈現社會世界，而是編碼並放大了社會刻板印象。事實上，最近的研究顯示，生成式模型編碼並複製了對歷史上被邊緣化的身份、文化和語言的種族主義和歧視態度。

即便使用最先進的檢測工具，也很難（如果不是不可能的話）確切知道目前正在生成多少文本、圖像、音頻和視頻數據，以及生成的頻率。史丹佛大學研究人員 Hans Hanley 和 Zakir Durumeric 估計，在 2022 年 1 月 1 日至 2023 年 3 月 31 日期間，發佈到 Reddit 的合成文章數量增加了 68%，虛假信息新聞文章增加了 131%。在線音樂生成公司 Boomy 聲稱，到目前為止已生成了 1450 萬首歌曲（佔錄製音樂的 14%）。2021 年，輝達（Nvidia）預測，到 2030 年，AI 模型中的合成數據將多於真實數據。有一點是肯定的：網路正被合成生成的數據所淹沒。

令人擔憂的是，這些大量的生成式 AI 輸出反過來將被用作未來生成式 AI 模型的訓練材料。因此，在 2024 年，生成式模型訓練材料中很大一部分將是來自生成式模型的合成數據。很快，我們將陷入一個遞歸循環，僅使用 AI 模型產生的合成數據來訓練 AI 模型。其中大部分內容將被刻板印象所污染，並持續放大歷史和社會的不平等。不幸的是，這些數據也將被用於訓練應用於醫療、治療、教育和法律等高風險領域的生成式模型。我們尚未應對這可能帶來的災難性後果。到 2024 年，我們現在感到如此著迷的生成式 AI 內容爆炸，反而將變成一個巨大的有毒垃圾場，最終反噬我們。

— Wired - Ideas

你的個人知識庫

合成數據是危險的老師