關於我發起的非監督式誘導挑戰之回顧

Lesswrong·

我回顧了要求 Claude 正確完成古希臘語作業的挑戰,發現雖然 Opus 4.6 儘管具備內部知識卻仍失敗,但開啟適應性思考功能的 Opus 4.7 則能直接成功解決問題。

這篇文章包含關於「讓 Claude 正確完成我的古希臘語作業」這項非監督式誘導挑戰(unsupervised elicitation challenge)的劇透。

tl;dr:Opus 4.7 一次就成功了,其他方法都沒用。

挑戰內容

幾週前,我向全世界宣布了我的「非監督式誘導挑戰」(我的部落格LessWrong)。我建議你閱讀那篇貼文以了解背景,但簡而言之,這是我古希臘語教科書早期的一個填空練習,Claude Opus 4.6 預設情況下無法正確填寫,但如果我稍微提示一下,它就能做對。挑戰在於:在你自己不懂任何古希臘語的情況下,讓它正確填寫答案——畢竟,Opus 4.6 顯然在內部某處擁有這些知識(正如你所預料的,作為一個大型語言模型,它大概閱讀過完整的古希臘語語料庫以及許多相關教科書),但我之所以能提取出這些知識,是因為我知道該問什麼。

這個挑戰的總體思路是在某種意義上模擬 AI 對齊(AI alignment)的一個困難版本:假設有一項你希望 AI 完成但無法檢查的任務。當 AI 預設可能不會完成該任務時,你能否讓它完成?我發現這個挑戰特別有趣,原因有幾點:

  • 這是一個自然發生的任務。這是我在日常生活中真正希望 AI 解決的現實問題,而不是一個極端對抗性的測試案例。
  • 我還沒見過其他任務能讓我強烈主張 AI 預設做不對但「其實可以」做對。
  • 與許多基準測試(benchmarks)不同(AI 研究人員如果真的想檢查,可以查看模型的答案),這是真正的非監督式,因為 (a) 大多數 AI 研究人員沒有學過古希臘語,且 (b) 答案在網路上找不到。

補充一點,在一段時間無人成功後,我最終為第一個正確答案提供了 100 美元獎金外加一本古希臘語教科書,這大大增加了嘗試的數量。

秘密:重音符號

具體來說,Claude Opus 4.6 錯在哪裡:古希臘語單字帶有重音符號,而這些重音會根據周圍的單字而改變。預設情況下,Opus 4.6 在填空時會正確修改部分重音,但並非全部。這就是你真正需要知道的,但在本節的其餘部分,我將進一步解釋重音規則。

古希臘語有三種重音:銳音(acute),看起來像 ί;抑音(grave),看起來像 ὶ;以及揚抑音(circumflex),看起來像 ῖ。有兩條關於這些重音如何變化的規則與本練習相關(雖然這些並不能完全涵蓋所有古希臘語重音規則,若需進一步了解,我推薦這個 YouTube 頻道)。

首先,預設情況下,當一個單字的最後一個元音帶有銳音且後面跟著另一個單字時,該重音會變成抑音。例如,「希臘的」(形容詞)是 Ἑλληνικός,「單字」是 λόγος,但「希臘單字」則是 Ἑλληνικὸς λόγος。

其次,在單字 ἐστιν (is) 或 εἰσιν (are) 之前,會發生以下三種情況之一:

  • 如果前一個單字的最後一個元音帶有揚抑音,則不發生任何變化。例如,Ἡρακλῆς (Hercules) + ἐστιν (is) = Ἡρακλῆς ἐστιν (它是赫拉克勒斯)。

  • 如果前一個單字的最後一個元音可以容納銳音,則該元音會加上銳音。什麼時候單字可以容納銳音?當它最後一個元音本來就有銳音,或者倒數第二個元音沒有銳音時。例如,νῆσος (island) + ἐστιν (is) = νῆσός ἐστιν (它是一個島嶼)。

  • 如果前一個單字的最後一個元音無法容納銳音,則 ἐστιν 或 εἰσιν 的最後一個 iota 會加上銳音。例如,λόγος (word) + ἐστιν (is) = λόγος ἐστίν (它是一個單字)。

    但是,如果 ἐστίν 後面還有單字,根據第一條規則,該銳音會變成抑音。

你可能會問:這聽起來很複雜,而且這只是重音運作規則的一小部分,我怎麼知道 Opus 4.6 知道這些重音規則?我知道的一種方式是,如果你督促它把重音弄對,它最終能做到,但這有點棘手:你必須督促它多次,並且知道何時停止。我認為我最有說服力的論點是,當我將段落翻譯成英文並讓 Opus 4.6 將其翻譯回古希臘語時,它在翻譯時能把所有重音都弄對。^(1)

這不公平嗎?

至少有一位讀者對這項挑戰的反應是,期望 Claude 在填空練習中改變單字的形式是不公平的,相反,對練習的自然理解應該是直接將合適的單字填入空格,尤其是像重音符號這麼瑣碎的事情。我認為這確實是公平的,主要有兩個原因:

  • 在書中的其他地方,你被要求在填空練習中改變單字的形式以適應上下文,例如改變名詞的格。我認為這表明為了填空而改變單字並非越界。
  • Opus 4.6 會改變某些單字的重音。例如,在幾乎所有嘗試中,當插入單字 ἀλλά (but) 時,Opus 4.6 一貫地會將結尾的銳音改為抑音。我的猜測是因為在真實文本中幾乎看不到單獨出現的 ἀλλά,因為它總是引導後續文本,所以 Opus 4.6 非常習慣帶有結尾抑音的形式。

無人成功

我在 LessWrong 原文的評論區、推特回覆以及各平台的私訊中收到了 20 多份提交。沒有一份使用 Opus 4.6 的提交是成功的。據我觀察,典型的策略包括 (a) 讓 Claude 複查其工作並尋找錯誤,或 (b) 生成大量嘗試並要求 Claude 挑選最好的一個。這些方法不僅都沒用(Opus 4.6 似乎對將重音列為檢查項視而不見,且從未為某些單字生成正確重音的答案),我的印象是,它們的平均表現甚至不如直接將原始提示詞放入帶有擴展思考(extended thinking)的 Opus 4.6 中。^(2) 我假設這是因為 Opus 4.6 處於「學習古希臘語的英語母語者」模式,對這些人來說這些規則確實很難(相對於古希臘語母語者,這些規則大概是天性),但我不知道該如何證明或反駁這一點。

以下是一些據我所知沒人嘗試過、但我認為可能有效的策略:

  • 讓 Claude 填空,將段落翻譯成英文,再翻譯回來,然後用這個結果來填空。鑑於 Claude 在從零開始撰寫古希臘語時能弄對重音,我認為這有相當大的成功機會,但很難預驗這會比其他方法更好(而且這有點過度擬合於翻譯,而非通用的誘導任務)。
  • 讓 Claude 教你初級古希臘語。我花了約一週時間學習足夠的古希臘語來完成這個練習,所以如果你足夠專注,這條路徑大概是可行的(你可能認為這算作弊,但一位 LessWrong 用戶明確詢問過,我澄清過這是允許的)。我的猜測是這會奏效——你可能需要提示它類似「請告訴我標準古希臘語教材前 5 章涵蓋的內容」之類的話(因為如果你問它「與此練習相關的內容」,它可能想不到重音規則)——但 (a) 我不確定它是否有效,且 (b) 我想像這會比大多數人願意花費的時間更多。

這對對齊(Alignment)意味著什麼

對我來說,這個挑戰有趣的一點在於,儘管它被我視為「對齊失敗」(你無法讓模型做一件你想讓它做且它有能力做的事),但它同時也是「能力失敗」,並不涉及 Claude 是一個邪惡的陰謀家之類的。相反,Opus 4.6 關於古希臘語重音規則的知識在面對這個問題時不知為何是無法獲取的,或者它「不想」花費必要的精力來得出正確答案。對我來說,這有助於擴展我對對齊失敗可能呈現的形式,以及為什麼有人會認為這類問題將隨著能力的不斷進步而解決。

Opus 4.7 的問題

我在 4 月 7 日宣布了挑戰。稍後一週多,Anthropic 發布了後續模型 Opus 4.7。我最初用 Opus 4.7 嘗試了這個問題,它做錯了。我高興地離開,以為我的挑戰依然有效,但我錯了:我當時並不知道自己沒有正確開啟「自適應思考」(adaptive thinking,即讓 Claude 在認為任務困難時使用思維鏈),而在開啟此設定後,Opus 4.7 可以直接一次性解決這個作業問題。

  • 順便提一下,儘管重點在 Opus 4.7,我也看過 GPT-5.4 Pro 在擴展思考下,透過稍微重新格式化的單字列表一次性解決了這個問題。話雖如此,我不會專注於此,因為大多數參與者都專注於 Claude 模型。

為什麼會這樣?我只能猜測。儘管我試圖慫恿 Anthropic 的員工嘗試這項任務,但我並不懷疑是因為 4.7 接受過專門的古希臘語強化訓練。相反,我的猜測是兩種效應的結合:首先,改變了的分詞器(tokenizer)對相同的輸入文本使用了更多的 token,可能使重音符號更具原子性且更容易推理;其次,整體上變得更聰明,發現更多事情變得容易。如果我有無限的計算預算,我可能會想知道哪種效應佔主導地位,但遺憾的是,世界上還有更緊迫的問題。^(3)

無論如何,這從兩個方面給我的挑戰帶來了嚴重問題:

  • 大多數參與者可以輕鬆使用 Opus 4.7,因此對他們來說這不再是真正的非監督式。
  • 更重要的是,一些參與者(包括我)錯誤地認為挑戰允許使用 Opus 4.7(我說「錯誤」是因為原始貼文將範圍限定在 Opus 4.6,如果我意識到 4.7 可以一次性解決,我就不會說允許使用它)。結果,一些人在公開網路上發布了正確答案,隨後我宣布挑戰已解決,這使得挑戰變得更不具備非監督性質。

非監督式誘導的後續步驟

基於上述原因,我正式停止這項挑戰,至少以目前的形式。話雖如此,我仍不打算點名教科書名稱或貼出所有答案,以防止挑戰變得完全平庸(同時也讓學生在古希臘語作業上作弊變得稍微困難一些)。同樣地,我將不再對原始貼文中的嘗試進行評分,並會刪除此處給出完整答案的評論。我將向第一位使用 Opus 4.7 解決問題的人提供 50 美元獎金,因為儘管技術上不被允許,但他們為我提供了寶貴的服務,向我展示了 Opus 4.7 可以解決它。^(4)

我繼續對一次性非監督式誘導挑戰感興趣,特別是在存在某些難以預見的技巧的情況下。我假設在其他語言(甚至在古希臘語中)也有可能設計出這類東西,並期待有人這樣做。

我還想像,或許可以創建一個保留的「測試練習」,同樣測試重音規則(以及其他內容),並要求人們想出某種框架(scaffold)或提示詞,在不作弊(例如將這些古希臘語重音規則貼入提示詞)的情況下,能推廣到 Opus 4.6 的保留「測試練習」上。話雖如此,(a) 私下保留並運行人們的框架似乎很費功夫,且 (b) 在什麼算作弊方面可能會有許多令人惱火的判斷。我想我還沒準備好承擔這項工作,但我會為願意這樣做的人喝采。


  • [1] 然而,它在與變音符號相關的其他方面會出錯,這相當於分不清「a」和「an」的區別。古希臘語使用者請注意:具體來說,它在粗氣符(rough breathing mark)前不會將 οὐκ 變為 οὐχ。
  • [2] 部分功勞歸於 LessWrong 用戶 the gears to ascension,他在一次失敗嘗試後被告知正確答案,隨後成功地在 Claude Opus 4.6 上運行了一次看似沒作弊的過程並最終得到正確答案,採用的策略包括 (a) 強調它可以使用的 token 數量以防止其過早停止,以及 (b) 強調評分者是「任意對抗性的」且「極度嚴格的」(我對自己的這種描述持保留意見)。
  • [3] 有趣的是,在我嘗試將英文翻譯成拉丁文時,它也能更好地注意到我錯誤的元音長度標記,這是 Opus 4.6 及以前的模型從未發現過的,這表明「擅長古代語言變音符號」這一通用因素得到了提升——這很可能是分詞器的改進。我很想知道在其他網路上沒有大量文本、且在拉丁字母上使用變音符號的語言中,是否也有類似的改進。
  • [4] 如果我確實曾在公開網路上說過允許使用 Opus 4.7,我會將獎金提高到全額 100 美元(我沒找到自己說過,但也沒找得很仔細)。

參與討論

Lesswrong

相關文章

  1. 我的非監督式誘導挑戰

    21 天前

  2. Claude 認為自己擁有什麼秘密目標?

    2 個月前

  3. Opus 4.7 第二部分:能力與反應

    7 天前

  4. Claude Opus 4.6:系統卡第二部分:前沿對齊

    3 個月前

  5. Opus 4.6 的推理不表達對齊欺騙,但行為依然存在

    3 個月前

其他收藏 · 0