
前臉書高層打造AI時代的內容審核機制
Moonbounce 已籌集 1,200 萬美元,用於發展其 AI 控制引擎,將內容審核政策轉化為一致且可預測的 AI 行為。
當 Brett Levenson 在 2019 年離開 Apple 並加入 Facebook 領導業務誠信部門時,這家社交媒體巨頭正深陷劍橋分析(Cambridge Analytica)事件的餘波中。當時,他認為自己只需透過更好的技術,就能解決 Facebook 的內容審核問題。
但他很快發現,問題比技術層面更深。他說,人類審核員被要求背誦一份長達 40 頁、且經過機器翻譯成其母語的政策文件。接著,他們針對每一件被檢舉的內容只有約 30 秒的時間來決定,不僅要判斷該內容是否違反規則,還要決定如何處理:封鎖內容、停權用戶,或是限制傳播。根據 Levenson 的說法,這些快速決策的準確率「僅略高於 50%」。
Levenson 告訴 TechCrunch:「人類審核員是否能正確執行政策,簡直就像擲硬幣一樣全憑運氣,而且這通常是在傷害發生多日之後才處理的。」
在一個充滿靈活且資金充裕的對抗性行為者的世界中,這種延遲、被動的方法是不可持續的。AI 聊天機器人的興起更使問題雪上加霜,內容審核的失敗導致了一系列引人注目的事件,例如聊天機器人向青少年提供自殘指引,或 AI 生成的圖像規避了安全過濾器。
Levenson 的挫折感催生了「政策即代碼」(policy as code)的想法——這是一種將靜態政策文件轉化為可執行、可更新,且與執行端緊密結合的邏輯之方法。這一見解促成了 Moonbounce 的創立。TechCrunch 獨家獲悉,該公司於週五宣布已籌集 1,200 萬美元的資金。此輪融資由 Amplify Partners 和 StepStone Group 共同領投。
Moonbounce 與企業合作,在內容生成的任何環節(無論是由用戶還是 AI 生成)提供額外的安全層。該公司訓練了自己的大型語言模型,用以讀取客戶的政策文件、在運行時評估內容、在 300 毫秒或更短的時間內提供回應並採取行動。根據客戶的偏好,該行動可能是由 Moonbounce 的系統在內容等待人工審核期間降低其分發速度,或者是即時封鎖高風險內容。
目前,Moonbounce 主要服務於三個垂直領域:處理用戶生成內容的平台(如交友軟體)、開發 AI 角色或伴侶的 AI 公司,以及 AI 圖像生成器。
Levenson 表示,Moonbounce 每天支援超過 4,000 萬次審核,並為平台上超過 1 億名日活躍用戶提供服務。客戶包括 AI 伴侶新創公司 Channel AI、圖像和影片生成公司 Civitai,以及角色扮演平台 Dippy AI 和 Moescape。
Levenson 告訴 TechCrunch:「安全實際上可以成為一種產品優勢。它以前從未如此,因為它總是在事後才發生,而不是你可以真正內建到產品中的東西。我們看到客戶正在尋找非常有趣且創新的方式來使用我們的技術,使安全性成為差異化因素,並成為其產品故事的一部分。」
Tinder 的信任與安全主管最近解釋了該交友平台如何利用這類由 LLM 驅動的服務,將檢測準確度提升了 10 倍。
Amplify Partners 的合夥人 Lenny Pruss 在一份聲明中表示:「內容審核一直是困擾大型線上平台的問題,但現在隨著 LLM 成為每個應用程式的核心,這一挑戰變得更加艱巨。我們投資 Moonbounce 是因為我們預見到,客觀、即時的安全護欄將成為每個 AI 媒介應用程式的支援骨幹。」
在聊天機器人被指控將青少年和脆弱用戶推向自殺,以及像 xAI 的 Grok 等圖像生成器被用於創建未經同意的裸照後,AI 公司正面臨日益增加的法律和聲譽壓力。顯然,內部的安全護欄正在失效,這正演變成一個法律責任問題。Levenson 表示,AI 公司正越來越多地向外部尋求幫助,以強化其安全基礎設施。
Levenson 說:「我們是位於用戶和聊天機器人之間的第三方,因此我們的系統不會像對話本身那樣被大量上下文淹沒。聊天機器人本身可能必須記住之前出現過的數萬個標記(tokens)……而我們只專注於在運行時執行規則。」
Levenson 與他前 Apple 同事 Ash Bhardwaj 共同經營這家擁有 12 人的公司,後者曾為這家 iPhone 製造商的核心產品構建大規模雲端和 AI 基礎設施。他們的下一個重點是一項名為「迭代引導」(iterative steering)的功能,這是為了應對類似 2024 年佛羅里達州一名 14 歲少年因迷戀 Character AI 聊天機器人而自殺的案例。當出現有害話題時,系統不會採取生硬的拒絕,而是會攔截對話並重新引導,即時修改提示詞(prompts),促使聊天機器人給出更具支持性的回應。
Levenson 說:「我們希望能在我們的行動工具箱中加入引導聊天機器人走向更好方向的能力。本質上是接收用戶的提示詞並對其進行修改,強迫聊天機器人在這些情況下不僅是一個感同身受的傾聽者,而且是一個有幫助的傾聽者。」
當被問及他的退出策略是否包括被 Meta 這樣的公司收購,從而使他在內容審核方面的工作回到原點時,Levenson 表示,他意識到 Moonbounce 與他前雇主的技術棧有多麼契合,同時也明白自己作為 CEO 的受託責任。
他說:「我的投資者會因為我說這話而殺了我,但我討厭看到有人買下我們然後限制這項技術。就像說:『好了,這現在是我們的了,其他人都不准用。』」