合成數據是危險的老師

合成數據是危險的老師

Wired - Ideas·

在追求規模化的競爭中,越來越多人工智慧正使用低質量的數據集進行訓練,這將放大各種不平等現象,並使網路變成一個充滿偏見與虛假資訊的毒性垃圾場。

2022 年 4 月,當文本轉圖像的視覺語言模型 Dall-E 發佈時,據稱在最初三個月內就吸引了超過一百萬名用戶。緊隨其後的是 2023 年 1 月的 ChatGPT,它在發佈後僅兩個月,月活躍用戶數顯然就達到了 1 億。這兩者都標誌著生成式 AI 發展的重要時刻,進而引發了 AI 生成內容在網路上的爆炸式增長。壞消息是,在 2024 年,這意味著我們也將看到虛假、荒謬的信息,以及錯誤信息與虛假信息的爆炸,並加劇這些 AI 模型中所編碼的社會負面刻板印象。

AI 革命並非由近期的任何理論突破所推動——事實上,人工神經網絡的大多數基礎工作已經存在了數十年——而是源於海量數據集的「可用性」。理想情況下,AI 模型會捕捉特定的現象——無論是人類語言、認知還是視覺世界——並以盡可能接近真實現象且具代表性的方式呈現。

例如,為了讓大型語言模型(LLM)生成類人文本,向模型餵入大量能代表人類語言、互動和交流的數據至關重要。人們相信,數據集越大,就越能捕捉到人類事務中固有的美、醜甚至殘酷。我們正處於一個痴迷於擴大模型、數據集和 GPU 規模的時代。例如,目前的 LLM 已進入兆級參數機器學習模型的時代,這意味著它們需要十億級規模的數據集。我們在哪裡可以找到這些數據?在網路上。

這些來自網路的數據被假定為捕捉了人類交流與互動的「地面實況」(ground truth),是語言建模的代理指標。儘管多位研究人員現已證明,網路數據集的質量通常很差,往往會加劇負面刻板印象,並包含諸如種族歧視和仇恨言論等問題內容(通常針對邊緣群體),但這並未阻止大型 AI 公司在擴大規模的競賽中使用此類數據。

隨著生成式 AI 的出現,這個問題即將變得更加嚴重。這些模型並非以客觀方式從輸入數據中呈現社會世界,而是編碼並放大了社會刻板印象。事實上,最近的研究顯示,生成式模型編碼並複製了對歷史上被邊緣化的身份、文化和語言的種族主義和歧視態度。

即便使用最先進的檢測工具,也很難(如果不是不可能的話)確切知道目前正在生成多少文本、圖像、音頻和視頻數據,以及生成的頻率。史丹佛大學研究人員 Hans Hanley 和 Zakir Durumeric 估計,在 2022 年 1 月 1 日至 2023 年 3 月 31 日期間,發佈到 Reddit 的合成文章數量增加了 68%,虛假信息新聞文章增加了 131%。在線音樂生成公司 Boomy 聲稱,到目前為止已生成了 1450 萬首歌曲(佔錄製音樂的 14%)。2021 年,輝達(Nvidia)預測,到 2030 年,AI 模型中的合成數據將多於真實數據。有一點是肯定的:網路正被合成生成的數據所淹沒。

令人擔憂的是,這些大量的生成式 AI 輸出反過來將被用作未來生成式 AI 模型的訓練材料。因此,在 2024 年,生成式模型訓練材料中很大一部分將是來自生成式模型的合成數據。很快,我們將陷入一個遞歸循環,僅使用 AI 模型產生的合成數據來訓練 AI 模型。其中大部分內容將被刻板印象所污染,並持續放大歷史和社會的不平等。不幸的是,這些數據也將被用於訓練應用於醫療、治療、教育和法律等高風險領域的生成式模型。我們尚未應對這可能帶來的災難性後果。到 2024 年,我們現在感到如此著迷的生成式 AI 內容爆炸,反而將變成一個巨大的有毒垃圾場,最終反噬我們。

Wired - Ideas

相關文章

  1. 合成數據是危險的導師

    超過 2 年前

  2. 大型語言模型若為泡沫,AI對齊的未來將走向何方

    Lesswrong · 4 個月前

  3. 生成式AI與維基百科編輯:2025年的關鍵學習

    Hacker News · 3 個月前

  4. 準備迎接人工智慧的大失望時代

    超過 2 年前

  5. 如何在課堂上解釋生成式AI

    Hacker News · 3 個月前