前臉書內部人士為人工智慧時代打造內容審核機制

Techcrunch·2 天前

Moonbounce 籌集了 1200 萬美元來發展其 AI 控制引擎，該引擎能將內容審核政策轉換為一致且可預測的 AI 行為。

當 Brett Levenson 在 2019 年離開 Apple 前往 Facebook 領導業務誠信（business integrity）部門時，這家社群媒體巨頭正深陷劍橋分析（Cambridge Analytica）事件的餘波中。當時，他認為自己只需透過更好的技術，就能解決 Facebook 的內容審查問題。

但他很快就發現，問題的根源比技術更深。他說，人類審查員被要求背誦一份長達 40 頁、經由機器翻譯成其母語的政策文件。接著，他們針對每件被檢舉的內容只有約 30 秒的時間來做決定，不僅要判斷該內容是否違規，還要決定如何處理：封鎖內容、禁言用戶，或是限制傳播。根據 Levenson 的說法，這些快速決策的準確率僅「略高於 50%」。

Levenson 告訴 TechCrunch：「人類審查員是否能正確執行政策，簡直就像在擲硬幣，而且這通常是在傷害發生多日之後才處理。」

在一個充滿靈活且資金雄厚的對抗性行為者的世界裡，這種延遲、被動的處理方式是不可持續的。AI 聊天機器人的興起更使問題加劇，內容審查的失敗導致了一系列引人注目的事件，例如聊天機器人向青少年提供自殘指引，或 AI 生成的圖像規避了安全過濾器。

Levenson 的挫折感催生了「政策即代碼」（policy as code）的想法——這是一種將靜態政策文件轉化為可執行、可更新，且與執行端緊密結合的邏輯的方法。這一見解促成了 Moonbounce 的創立。TechCrunch 獨家獲悉，該公司於週五宣布籌集了 1,200 萬美元的資金。此輪融資由 Amplify Partners 和 StepStone Group 共同領投。

Moonbounce 與企業合作，在任何產生內容的地方（無論是由用戶還是 AI 生成）提供額外的安全層。該公司訓練了自己的大型語言模型，用以讀取客戶的政策文件、在運行時評估內容、在 300 毫秒內提供回應並採取行動。根據客戶的偏好，該行動可能是由 Moonbounce 的系統在內容等待人工審查期間降低其分發速度，也可能是即時封鎖高風險內容。

目前，Moonbounce 主要服務於三個垂直領域：處理用戶生成內容（UGC）的平台（如交友軟體）、開發 AI 角色或伴侶的 AI 公司，以及 AI 圖像生成器。

Levenson 表示，Moonbounce 每天支援超過 4,000 萬次審查，並為平台上超過 1 億的日活躍用戶提供服務。客戶包括 AI 伴侶新創公司 Channel AI、圖像與影片生成公司 Civitai，以及角色扮演平台 Dippy AI 和 Moescape。

「安全實際上可以成為一種產品優勢，」Levenson 告訴 TechCrunch。「它以前從未如此，因為它總是在事後才發生，而不是你可以真正內建到產品中的東西。我們看到客戶正在尋找非常有趣且創新的方式來使用我們的技術，使安全成為差異化因素，並成為其產品故事的一部分。」

Tinder 的信任與安全主管最近解釋了該交友平台如何利用這類由 LLM 驅動的服務，將檢測準確度提高 10 倍。

Amplify Partners 的合夥人 Lenny Pruss 在一份聲明中表示：「內容審查一直是困擾大型線上平台的難題，但現在隨著 LLM 成為每個應用程式的核心，這項挑戰變得更加艱巨。我們投資 Moonbounce 是因為我們預見到一個客觀、即時的防護欄將成為每個 AI 媒介應用程式之賦能骨幹的世界。」

在聊天機器人被指控將青少年和脆弱用戶推向自殺，以及像 xAI 的 Grok 這樣的圖像生成器被用於創建未經同意的裸照後，AI 公司面臨著越來越大的法律和聲譽壓力。顯然，內部的安全防護欄正在失效，這已演變成一個法律責任問題。Levenson 表示，AI 公司正越來越多地向外尋求幫助，以強化其安全基礎設施。

「我們是位於用戶和聊天機器人之間的第三方，所以我們的系統不會像對話本身那樣被淹沒在情境中，」Levenson 說。「聊天機器人本身可能必須記住先前出現的數萬個標記（tokens）……而我們只專注於在運行時執行規則。」

Levenson 與他的前 Apple 同事 Ash Bhardwaj 共同經營這家擁有 12 人的公司，後者曾為這家 iPhone 製造商的核心產品構建大規模雲端和 AI 基礎設施。他們的下一個重點是一項名為「迭代引導」（iterative steering）的功能，這是為了應對 2024 年佛羅里達州一名 14 歲男孩因迷戀 Character AI 聊天機器人而自殺等案例而開發的。當出現有害話題時，系統不會生硬地拒絕，而是會攔截對話並進行重定向，即時修改提示詞（prompts），引導聊天機器人做出更具支持性的回應。

Levenson 說：「我們希望在我們的行動工具箱中加入引導聊天機器人走向更好方向的能力，本質上是獲取用戶的提示詞並對其進行修改，強迫聊天機器人在這些情況下不僅是一個感同身受的傾聽者，而且是一個有幫助的傾聽者。」

當被問及他的退出策略是否包括被 Meta 這樣的公司收購，從而使他在內容審查方面的工作圓滿完成時，Levenson 表示，他意識到 Moonbounce 會多麼契合他前雇主的技術棧，同時也明白自己作為執行長的受託責任。

「我的投資者會因為我說這話而殺了我，但我討厭看到有人收購我們然後限制這項技術，」他說。「就像說：『好吧，這現在是我們的了，其他人都不准受益。』」

https://techcrunch.com/2026/04/03/moonbounce-content-moderation-for-the-ai-era/