為什麼你很可能無法透過數據驅動來實現自我提升

Lesswrong·23 天前

你可能遇到的大多數效果都微弱到難以在日常生活的雜訊中被偵測出來。即使是相對明顯的效果，也需要經過周密思考的實驗設計和數個月的努力才能達成。

假設你對自己的睡眠品質不滿意。你已經停止了那些明顯有害的行為（晚上不再喝咖啡），睡眠也確實有所改善——但你還想進一步優化。一位同事給了你一種含有聖約翰草和薰衣草的草本複方。你嘗試在晚上喝它來代替咖啡，有時你的睡眠似乎真的比以前更深了。但有時又不然。你願意嘗試，但你該如何實際確認這些草藥是否有效，或者這僅僅是隨機波動？

或者，假設你對自己的工作效率不太滿意。遵循《原子習慣》和有關工作流組織書籍的建議，你引入了一些有用的微習慣和人體工學改進。但是，當那些「低垂的果實」都被摘完後，你該怎麼辦？時間是有限的——你不可能實踐每個地方每個人都稱之為「有用」的所有事情。有些習慣甚至是互斥的：你不可能在午餐時間既進行社交，又同時獨自靜坐。

或者，例如，你想在釣魚方面取得更好的成績……你明白我的意思。

「不要低估大量小事累積的力量」是一個充滿智慧的想法——但你如何弄清楚哪些小事在你的特定情況下真正有效？這是通往變得更強道路上的一個巨大障礙。如果你修過統計學課程或聽說過「A/B 測試」這個詞，你可能已經有了一個粗略的答案框架：選擇一個目標指標，收集歷史數據，然後收集選擇干預後的數據，比較前後的平均值——瞧，一個有科學依據的答案。問題是，如果你在沒有周密計劃的情況下投入這樣的項目，你很可能最終只會得到電子表格中一堆無用的數字。為什麼這種嘗試不適合意志薄弱的人，正是我想在本文中探討的內容。

太長不看版（TLDR）：你可能遇到的大多數效應都太弱，無法在日常生活的背景噪音中被檢測到。即使是相對明顯的效應，你也需要精心設計的實驗方案和幾個月的努力。

符號說明

全文使用以下符號：

D - 變異數（衡量隨機變數離散程度的指標）
$\sigma$ - 標準差（變異數的平方根）
$N(\mu, D)$ - 平均值為 $\mu$、變異數為 D 的正態分佈
$d$ - Cohen’s d 統計量（兩個正態分佈群體峰值之間的距離，除以其變異數和平方根的標準化結果）

為求簡化，下文假設干預不會改變分佈的形狀（即 d 是以原始分佈的 $\sigma$ 為單位測量的）。這不會強烈影響下文的論點。我也意識到使用正態分佈進行建模的局限性。如果我們認真對待這些局限性，自我實驗的前景會變得更加糟糕。

給想讀這篇文章但不懂機率論的人的基礎知識

如果你知道上述符號的含義並記得正態分佈的基本性質，請跳過此部分。

這裡不會有詳細的推導或嚴謹的證明。這篇文章太短，不足以讓我教授哪怕是入門級的統計學課程。但這裡有一個簡短的總結，以便不熟悉統計學的讀者仍能理解接下來的推理。

想像一個普通的六面骰子。如果它是一個公平的骰子，擲出任何一個面的機率都是 1/6 = 16.66%。這是一個均勻分佈——所有結果的可能性都相等。可以用以下直方圖視覺化：

橫軸顯示結果，縱軸顯示其機率。所有結果的機率總和等於 1 (100%)。

但如果我們擲兩個六面骰子，結果總和的分佈就不再是均勻的。如果我們列出所有可能的結果：

1 + 1 = 2
1 + 2 = 3
2 + 1 = 3
1 + 3 = 4
2 + 2 = 4
3 + 1 = 4
1 + 4 = 5
...
5 + 6 = 11
6 + 5 = 11
6 + 6 = 12

我們可以看到，只有當兩個骰子都顯示 1 時才會出現 2（這在 36 種情況中發生 1 次）。總和為 3 可以通過兩種方式發生：第一個骰子是 1，第二個是 2，或者反之——所以機率是 2/36。擲出 4 的機會更高：3/36，依此類推。產生總和為 7 的組合數量最多。這包括兩個骰子都落在範圍中間的情況（3+4, 4+3），以及小數值被大數值補償的情況（1+6, 2+5, 5+2, 6+1）。

直方圖的條形形成一個三角形。如果我們改擲三個六面骰子會發生什麼？

你可以看到中心變得更平滑，而尾部向外擴散。同樣，這是因為得到 3 或 18 需要所有三個骰子分別落在 1 或 6 上。另一方面，中心值既可以在所有骰子都落在中間時產生，也可以在小數值補償大數值時產生。

如果我們取 25 個骰子，生成的圖表會呈現出一種特定的鐘形：

出於實際目的，這樣的曲線已經非常接近正態分佈。我們生活中的許多事物都遵循（近似）正態分佈：特定國家固定年齡男性的身高、大多數儀器的測量誤差、你一年中的情緒。這發生的原因與骰子總和的原因相同。當一切都按計劃進行時（所有骰子都擲出 5-6），你的心情很好。當事事不順時（所有骰子都擲出 1-2），你的心情很糟。但平均的情緒既可能源於平淡無奇的一天，也可能源於好事補償了壞事。

（「昨晚沒睡夠。但早上想起了我最喜歡的小學老師，這給了我動力。然後上班路上堵車了——真煩人！至少今天是晴天；你能感覺到春天要來了——我愛春天。」）

機率論指出，被加總的元素不一定要均勻分佈。只要它們具有足夠「好」的形狀，它們的總和就會收斂到正態分佈。這被稱為中央極限定理。而這種「好」的性質出現得驚人地頻繁。

鐘形曲線可以有不同的寬度，我們希望能夠測量這種離散程度。僅僅測量最小值和最大值之間的距離是不切實際的，因為鐘形邊緣的值極少出現。因此在實踐中，我們使用變異數 ($D$)——與分佈中心的平均平方距離——或標準差 ($\sigma$)，即變異數的平方根。

圖中的紅色箭頭顯示了從中心到幾個點的距離。為了計算標準差，我們取所有這些距離，將每個距離平方，加總，除以它們的數量，然後對結果取平方根。

已知正態分佈中 68% 的元素落在 $\pm 1\sigma$ 範圍內，95% 落在 $\pm 2\sigma$ 內。反之，如果我們知道正態分佈中 95% 的元素落在某個範圍內，我們就可以估計 $\sigma$。

*現在假設我們有兩組數值：一個原始的隨機分佈，以及同一個分佈平移了一定距離。例如，學生在學習某學科 48 週後的測試表現數據庫，以及他們在 96 週後的表現。我們如何估計時間翻倍對結果的改善程度？以 $\sigma$ 為單位來測量這種偏移是很方便的：這種測量方式反映的不是絕對變化，而是相對於自然變異的變化。如果典型的離散程度是 5 分，那麼 10 分的進步可能令人印象深刻；但如果離散程度是 50 分，那麼 10 分就幾乎沒有意義。

如果干預不僅改變了平均值，還增加了數值的離散程度怎麼辦？這不是問題——我們根據標準規則取平均 $\sigma$：$\sigma_{pooled} = \sqrt{(D_1 + D_2)/2}$ 並測量該單位下的距離：$d = (\mu_2 - \mu_1) / \sigma_{pooled}$。

這被稱為 Cohen’s d 統計量。科學論文通常使用這種衡量標準來報告結果。

在自我實驗中你應該預期多大的效應？

很難概括地回答這個問題。有些人試圖優化睡眠品質，有些人則旨在增加肌肉。讓我們校準一下預期——以下是幾個研究充分的效應的 Cohen’s d 值：

服用肌酸（健美運動員廣泛使用的膳食補充劑），根據方案和結果測量方式的不同，可產生約 d = 0.27–0.59 的額外表現增益^([1])。
與獨自訓練相比，在教練指導下進行力量訓練可增加 d = 0.28–0.4，具體取決於表現的測量方式^([2])。
元分析估計抗憂鬱劑的平均效應約為 d = 0.3^([3])。在輕度憂鬱症的情況下效應較小。然而，在現實生活中，人們應該預期更大的影響：醫生可以嘗試多種藥物並微調劑量。
關於正念冥想治療焦慮症的有效性尚未達成共識。研究顯示結果差異很大，但 d = 0.2 的平均估計似乎相當合理^([4])^([5])。
中等強度的力量訓練（最大重量的 60-80%）可降低糖化血色素水平約 d = 0.4^([6])。
額外的金融教育課程對金融知識（測試分數）產生 d = 0.15 的效應，對財務負責行為（例如建立更大的緊急基金）產生 d = 0.07 的效應^([7])。

一方面，你的個人生活狀況或生物化學特性可能會放大對大多數人無用的效應。此外，研究受限於對所有參與者應用相同的干預「劑量」，而你可以為自己更精確地微調「劑量」。另一方面，你不太可能在自己身上測試任何比處方抗憂鬱劑更強效的東西。而且，你最可能想要優化的是「情緒」或「全天的能量」之類的東西。很少有東西能同時影響生物學、外部強加的日常時間表、心理學以及餵養這些指標的習慣。因此，在這些情況下，預期任何干預的效應 d > 1 都是奇怪的。要麼你已經知道這些干預措施並且已經在做了（你肯定上過學——不是某個特定的課程，而是通識教育）。要麼你知道它們但出於充分理由沒去做（搬到佛教寺廟幾乎肯定對焦慮有強烈影響，但有正當理由不這樣做）。或者這些是重大的、改變生活的決定，不會隨便發生，且難以複製和研究——離開虐待性的伴侶，或徹底改變職業軌道。

因此，在我看來，如果你試圖通過調整習慣和選擇補充劑來優化生活，你實際上是在「獵取」 d = 0.1–0.4 範圍內的效應。

d = 0.1–0.4 在現實生活中究竟意味著什麼？

在智商測量中，$0.1\sigma$ 大約是 1.5 個智商點。身高增加 1 厘米大約對應於成年男性身高分佈中的 $0.14\sigma$^([8])。不多——但我不會隨便丟掉額外的智商點或身高厘米。
在美國，電動馬達組裝工的第 10 百分位數年薪約為 2.5 萬美元，而第 90 百分位數為 5.65 萬美元^([9])。粗略地說，這個分佈的標準差約為每年 8.5 千美元，其 0.2 倍就是每年 1.7 千美元。這足以在德州買一輛不錯的自行車。
如果某人在 95% 的情況下每週有 5 到 45 小時的休閒時間，那麼增加 $0.15\sigma$ 的效應將使他們每週額外獲得 3 小時。同樣，這不是一個巨大的數目——但足以每週玩一款新的桌遊，或者在三週內玩完《Dispatch》^([10])。
如果在 95% 的情況下你每週閱讀 40-160 頁（每月一本 400 頁的書），那麼 $0.2\sigma$ 對應於每週額外的 12 頁（每年大約多讀一本半 400 頁的書）。

在醫學文獻中，$d = 0.2$ 的效應被認為是「小」，$d = 0.5$ 是「中」，$d = 0.8$ 是「大」^([11])。上面的例子清楚地說明了原因：$d = 0.2$ 真的不算多。但讓我們記住背景。醫學文獻是針對特定疾病評估藥物。你不能給患者隨意劑量的任何東西。醫生必須證明他們為什麼開出特定的藥片，因為副作用是真實存在的。另一方面，在你自己的生活中，沒有人阻止你應用盡可能多的干預措施——直到你耗盡金錢或空閒時間。如果在空閒時間的例子中，你能找到並應用三個這樣形式上「微小」的效應，那將為你每週增加 9 小時的空閒時間。那可是一個完整的工作日！所以，疊加許多微小效應的想法至少值得認真考慮。

聽起來很誘人——但陷阱在哪裡？

到底需要多少次觀察？

為了估計干預的絕對效應，我們取一組干預前的觀察值和另一組干預後的觀察值，然後比較這兩組的平均值。問題是我們需要大量的數據。例如，在下圖中我們只有 4 次觀察——而我們運氣不好。儘管綠色分佈實際上在藍色分佈的右側，但根據我們有限的數據，我們不得不得出它在左側的結論，而且還差得很遠：

（在估計計算 Cohen’s d 所需的標準差時也有類似的問題，但讓我們現在先專注於平均值。） 我們唯一能指望的是，隨著觀察次數的增加，在所有觀察中都運氣不好的機率會降低。例如，在這裡，一些變異性部分抵消了：

計算上圖的平均值差異得到 $d = 0.6$，這更接近 0.25 的真實偏移——但仍然不那麼接近。

使用上一節的方法計算的合併標準差等於 1，因此 d 值也是 0.6：$\mu_1 = 0.2, \mu_2 = 0.8, d = (0.8 - 0.2) / 1 = 0.6$。

那麼我們到底需要多少次觀察才能有信心？讓我們看看估計值收斂到真實效應的情況。下面是二十次模擬的圖表，顯示了我們對兩個 D = 1 的正態分佈之間差異的估計如何取決於觀察次數。我們正試圖分別檢測 d = 0.1、d = 0.2 和 d = 0.3 的真實效應：

從這些圖中我們可以得出幾個結論：

平均而言，我們確實收斂到了真實效應。觀察次數越多，我們就越接近。
話雖如此，你事先並不知道自己處於哪條模擬分支上。你可能會低估或高估干預的效應。
估計值的離散程度起初縮小得相對較快，但在大約 200 次觀察後，增加更多數據幾乎不會減少離散程度。在給定的噪音水平下，大約需要 1200 次觀察，模擬曲線才能一致地落在真實值周圍 $\pm 0.1$ 的範圍內。
收斂速度與真實效應大小的關係非常微弱。
這在圖中看不出來，但最重要的單一因素是噪音水平——觀察量的自然變異性。

如果你仔細看圖，你會發現即使對於 d = 0.3 的效應，你也需要超過 175 次觀察，才能讓所有模擬運行至少記錄到正向效應。對於 d = 0.1，你需要大約 1000 次。但即使這樣也低估了實驗的難度！在實踐中，我們需要區分有效果的干預和完全沒有效果的干預。這意味著「有效果」和「無效果」的模擬叢集需要足夠分離，我們才能判斷觀察到的線屬於哪個叢集：

從上圖可以清楚地看出，分離這些叢集需要大約 600-700 次觀察。

這些圖很直觀，但不夠正式。理論怎麼說？

p 值

在科學中，評估我們是否可以拒絕虛無假設（無效；干預沒有影響）的標準方法是通過 p 值檢定。某個效應的 p 值是指：在虛無假設為真且我們觀察到的兩組數據之間的差異至少與我們得到的一樣大的機率。按照慣例，如果這個機率低於 5%，我們就拒絕虛無假設。這就是著名的標準 $p < 0.05$。

如果實際上沒有效應，我們如何估計觀察到測得差異的機率？正態分佈再次派上用場。正態分佈隨機變數的和與差本身也是正態分佈的^([12])。因此，樣本平均值的差 $\bar{x}_2 - \bar{x}_1$ 也是正態分佈的。如果虛無假設為真且分佈 $X_1$ 和 $X_2$ 相同，那麼這個差值分佈的峰值就在零點^([13])。可以證明這個差值的標準差是 $\sigma \sqrt{2/n}$。因此，如果我們將一個除以另一個，統計量 $Z = \frac{\bar{x}_2 - \bar{x}_1}{\sigma \sqrt{2/n}}$ 將遵循單位變異數且（在虛無假設下）平均值為零的正態分佈。然後我們可以將觀察到的值與 $Z$ 的表格值進行比較，以確定偶然獲得這種結果的可能性有多大^([14])。

下面是顯示我們結論的信心如何隨觀察次數增加而增長的圖表，對應於上面的收斂圖。粗線顯示了上述 p 值實驗的平均值。這不完全是真實的預期 p 值曲線，但它已經說明了重點：達到 95% 的信心需要大量的觀察。

那麼理論上我們應該預期什麼？我們可以「反推」上面的推導，計算出以給定機率檢測到已知大小 d 的效應需要多少數據。以下是幾種情況：

理論上，要達到 5% 的偽陽性（False Positive）和 5% 的偽陰性（False Negative），我們需要：

對於 d = 0.3 - 大約 580 次觀察（即干預前約 290 次，干預後約 290 次；注意這與上面 d 值叢集的分離點吻合得很好）
對於 d = 0.2 - 大約 1300 次觀察
對於 d = 0.1 - 大約 5200 (!) 次觀察

如果我們稍微降低標準，允許 5% 的偽陽性和 20% 的偽陰性，我們需要：

對於 d = 0.3 - 大約 350 次觀察
對於 d = 0.2 - 大約 800 次觀察
對於 d = 0.1 - 大約 3150 次觀察

如果我們進一步降低標準，允許 20% 的偽陽性和 20% 的偽陰性：

d = 0.3 - 200 次觀察
d = 0.2 - 250 次觀察
d = 0.1 - 1800 次觀察

最後，如果我們絕對確定效應一定是正向的並使用單尾檢定：

d = 0.3 - 126 次觀察
d = 0.2 - 280 次觀察
d = 0.1 - 1120 次觀察

因此，即使我們顯著放寬信心要求，並完全忽略干預可能有害而非有益的可能性，檢測一個不算太弱的 d = 0.3 效應仍需要四個月的觀察！提醒一下，這大約是中度憂鬱症患者第一次選對抗憂鬱劑的效應大小。你基本上可以放棄嘗試測量任何更弱的東西。維生素（如果你沒有特定的缺乏症）、魚油、以及每天額外步行 20 分鐘（除非你平時完全不運動），這些都根本無法被察覺——即使有非常仔細的追蹤。

其他併發症

但這還不是全部。還有幾個值得注意的效應——每一個都會進一步增加所需的觀察次數。

非線性交互作用

干預的效應在我們關心的整個範圍內很少是線性的。大多數干預都有飽和閾值。額外步行的第一個小時比第三個小時產生的效應更大。這還不算太糟，儘管這意味著我們傾向於低估部分干預的效應。

更糟糕的是當干預的效應看起來像倒 U 型。第一杯咖啡讓你更清醒，而第五杯讓你陷入過度焦慮的顫抖。睡眠少於六小時不好，但多於十小時也不好。捕捉最佳暴露水平並不總是容易的。理想情況下，你會想要測試多個強度水平——這意味著實驗至少要運行兩次。

累積與見效時間

許多干預不會立即產生效果。例如，阿托莫西汀（一種治療 ADHD 的藥物）的效應範圍從 d = 0.4 到 d = 2 (!)，具體取決於患者群體和症狀測量方式^([15])，但它可能需要長達四週的時間才能在體內累積。因此，一些 ADHD 患者甚至可能在這種有效的藥物發揮作用之前就放棄了。去健身房或開始心理治療的結果需要更長的時間才能顯現。

通常，甚至不清楚應該預期多長的延遲。如果你正在研究減肥與背痛之間的關係，你可能不應該期望減肥後背痛立即消失。背部的損傷已經造成——它需要時間來癒合。但效應達到平台期需要多長時間尚不清楚。

附帶條件與季節性

同樣的干預可能在某個時間有用，而在另一個時間無用。季節性是這裡最明顯的因素，但不是唯一的。冬天額外步行一小時或服用維生素 D 膠囊可能比夏天有更強的效應，因為人們在寒冷的月份往往光照和體育活動較少。運動補充劑可能在你處於熱量盈餘時有效，而在赤字時無效。冥想可能會改善早晨的情緒，但會損害晚上的睡眠品質。

替代效應

假設你想研究睡眠不足對你的影響。你收集了關於工作效率取決於你睡了 6 小時還是 8 小時的數據。但是，如果在睡了六小時之後，你喝了更多的茶——而茶對你有刺激作用——你可能在數據中根本看不到睡眠不足導致的任何效率下降。你要麼需要固定系統的所有其他參數（在實踐中很難做到），要麼也收集關於它們的數據。考慮替代效應會使模型複雜化。而且事先往往不清楚哪些因素可能起到替代作用。

「嘈雜」的測量單位

如果你在測量自己的幸福感或能量水平，你會遇到一致性問題。人們通常能區分 2/10 和 8/10 的感覺——但那些極端狀態並不經常發生。大多數時候，你需要區分 4/10 與 5/10，以及 5/10 與 6/10，而並非每個人都那麼擅長內省。到了研究的第二個月，人們會對此感到厭倦，並開始隨機在 4 和 5 之間選擇。如果沒有系統性偏差，估計值最終仍應收斂到「真實」值。儘管如此，測量誤差會疊加在潛在狀態的誤差之上，增加整體的噪音——隨之而來的是所需的測量次數。

你應該嘗試將抽象的目標指標建立在問卷調查或客觀的生理指標上。但填寫問卷需要時間，而且需要意志力才不會開始敷衍了事。客觀生理指標有另一個問題：多虧了穿戴式裝置，它們很容易收集，但它們通常與你真正關心的東西只有非常間接的關係。你可以使用靜息心率變異性作為能量或焦慮水平的代理指標——但這種聯繫是相當間接的。

觀察者效應

當你既是研究者又是受試者時，很難進行盲測。這隻對藥片真正有效——即便如此，也不是每個人都願意處理組織上的麻煩。你知道你希望看到什麼效果，你會下意識地將你的評分推向預期的方向。

此外，監測行為本身就會改變系統。數據收集使你更自覺地參與每件事。正念通常是一件好事，但它也會在實驗設置與現實生活之間產生差距。清單為以前自動化的活動增加了摩擦。過度關注自己的幸福和冷靜本身就可能導致憂鬱和焦慮。即使你知道這一點，這種效應依然存在。

生活的普遍噪音

工作截止日期、意外旅行、疾病以及異常愉快的情緒期都會在你的數據中產生「漏洞」。你需要決定哪些數據點「算數」，否則就得記錄一切。你還需要決定如何處理缺失數據。

你能為測量品質做的最好的事情就是降低指標的整體噪音水平。不幸的是，很難為了完成一個實驗而將自己置於受控條件下長達數月。你可以嘗試增加測量頻率，但超過某個（通常未知的）閾值後，增加頻率只會收集到更多噪音。

總結

「數據驅動的習慣優化」聽起來很酷且科學，但在實踐中這是一項非常看情況的嘗試。只有在以下情況下才值得嘗試：

你確信你正在研究的干預措施至少有 d = 0.3（見上面的效應列表；你真的期望你的干預能與之媲美嗎？）
你能想出應對前一節所述額外併發症的方法
你準備好為這項研究投入幾個月的時間

估計此類干預數據的預期成本。你對效應大小資訊的估值是多少？運行實驗的預期成本是多少？即使這種比較表明研究值得做，也不要指望一條輕鬆的道路或快速的結果。你將需要這種程度的科學奉獻精神。

^(^)https://link.springer.com/article/10.1186/s11556-025-00392-9
^(^)https://journal.iusca.org/index.php/Journal/article/download/101/184/
^(^)https://www.thelancet.com/article/S0140-6736(17)32802-7/fulltext
^(^)https://www.mdpi.com/2254-9625/10/3/52
^(^)https://pubmed.ncbi.nlm.nih.gov/39740743/
^(^)https://academic.oup.com/ehjopen/article/5/5/oeaf093/8231441
^(^)https://www.academia.edu/105909537/Financial_education_in_schools_A_meta_analysis_of_experimental_studies
^(^)https://ourworldindata.org/human-height
^(^)https://www.salary.com/tools/salary-calculator/electric-motor-assembler#google_vignette
^(^)https://howlongtobeat.com/game/160618
^(^)https://www.medscape.org/viewarticle/569729
^(^)直觀上：如果 X 是 N 個骰子相加的結果，Y 是 M 個骰子相加的結果，那麼 X+Y 就是 N+M 個骰子相加的結果——這只會讓分佈更趨向鐘形。
^(^)直覺：想像從同一組數字中抽取兩對數字，左手抽一個，右手抽一個，然後用左手減去右手。平均而言，對於每一對順序為（左一，右二）的組合，都會有一個對應的（左二，右一）。這些相反的差異會抵消，平均值最終為零。
^(^)當 $\sigma$ 值未知時，該統計量技術上遵循 t 分佈，但對於足夠大的樣本和我們的精確度水平，這並不重要。
^(^)https://journals.sagepub.com/doi/pdf/10.1177/2045125316647686

討論

https://lesswrong.com/posts/ycWWbpjxuhdxGpJ6e/most-likely-you-won-t-be-able-to-perform-a-data-driven-self