你可能無法透過數據驅動的習慣堆疊來實現自我提升

Lesswrong·23 天前

這篇文章解釋了為什麼利用數據和統計來優化個人習慣極其困難，因為與日常生活的雜訊相比，干預措施產生的信號過於微弱。它警告說，如果沒有嚴謹的實驗設計和數月的努力，大多數自我提升的追蹤最終只會得到一堆無用的數據。

假設你對自己的睡眠品質不滿意。你已經停止做那些明顯有害的事（晚上不再喝咖啡），睡眠也確實有所改善——但你想進一步優化。一位同事給了你一種含有聖約翰草和薰衣草的草本茶。你嘗試在晚上喝它來代替咖啡，有時你的睡眠似乎真的比以前更深了，但有時又不然。你願意嘗試，但你該如何實際確認這些草藥是否有效，或者這只是隨機波動？

或者，假設你對自己的工作效率不太滿意。遵循《原子習慣》和工作流組織書籍的建議，你引入了一些有用的微習慣和人體工學改進。但當那些「低垂的果實」都被摘完後，你該怎麼辦？時間是有限的——你不可能實踐每個地方被稱為「有用」的所有建議。有些習慣甚至是互斥的：你不可能在午餐時間既社交又同時獨自靜坐。

又或者，例如你想在釣魚方面取得更好的成績……你明白我的意思。

「不要低估大量小事累積的力量」是一個充滿智慧的想法——但你如何找出哪些小事在你的特定情況下真正有效？這是通往變得更強道路上的一個巨大障礙。如果你修過統計學課程或聽過「A/B 測試」這個詞，你可能已經有了一個粗略的答案大綱：選擇一個目標指標，收集歷史數據，然後收集干預後的數據，比較前後的平均值——瞧，一個有科學根據的答案。問題是，如果你在沒有紮實計劃的情況下就投入這樣的項目，你很可能最終只得到電子表格中一堆無用的數字。為什麼這種嘗試不適合意志薄弱的人，正是我想在本文中討論的內容。

重點摘要 (TLDR)：你可能遇到的大多數效應都太微弱，無法在日常生活的背景噪音中被檢測到。即使是相對明顯的效應，你也需要精心設計的實驗方案和幾個月的工作。

符號說明

全文使用以下符號：

D - 變異數（衡量隨機變量分散程度的指標）
$\sigma$ - 標準差（變異數的平方根）
$N(\mu, D)$ - 平均值為 $\mu$、變異數為 D 的正態分佈
$d$ - Cohen’s d 統計量（兩個正態分佈群體峰值之間的距離，除以其變異數和平方根的標準化結果）

為求簡化，下文假設干預不會改變分佈的形狀（即 d 是以原始分佈的 $\sigma$ 為單位衡量的）。這不會強烈影響下文的論點。我也意識到使用正態分佈進行建模的局限性。如果我們認真對待這些局限性，自我實驗的前景會變得更加糟糕。

給想讀這篇文章但不懂機率論的人的最低限度背景

如果你知道上述符號的含義並記得正態分佈的基本性質，請跳過此部分。

這裡不會有詳細的推導或嚴謹的證明。這篇文章太短，不足以讓我教授哪怕是入門級的統計學課程。但這裡有一個簡短的總結，以便不熟悉統計學的讀者仍能理解接下來的推理。

想像一個普通的六面骰子。如果它是一個公平的骰子，擲出任何一個面的機率都是 1/6 = 16.66%。這是一個均勻分佈——所有結果的可能性都相等。可以用以下直方圖視覺化：

橫軸顯示結果，縱軸顯示其機率。所有結果的機率總和等於 1 (100%)。

但如果我們擲兩個六面骰子，結果總和的分佈就不再是均勻的。如果我們列出所有可能的結果：

1 + 1 = 2
1 + 2 = 3
2 + 1 = 3
1 + 3 = 4
2 + 2 = 4
3 + 1 = 4
1 + 4 = 5
...
5 + 6 = 11
6 + 5 = 11
6 + 6 = 12

我們可以看到，只有當兩個骰子都顯示 1 時才會出現 2（這在 36 種情況中發生 1 次）。總和為 3 可以有兩種方式：第一個骰子是 1，第二個是 2，或者反過來——所以機率是 2/36。擲出 4 的機會更高：3/36，依此類推。產生總和為 7 的組合數量最多。這包括兩個骰子都落在範圍中間的情況（3+4, 4+3），以及小值被大值補償的情況（1+6, 2+5, 5+2, 6+1）。

直方圖的條形形成一個三角形。如果我們改擲三個六面骰子會發生什麼？

你可以看到中心變得更平滑，而尾部向外擴散。同樣，這是因為要得到 3 或 18 需要三個骰子分別全部落在 1 或 6。另一方面，中心值既可以在所有骰子都落在中間時產生，也可以在小值補償大值時產生。

如果我們取 25 個骰子，生成的圖表會呈現一種特殊的鐘形：

出於實際目的，這樣的曲線已經非常接近正態分佈。我們生活中的許多事物都遵循（近似）正態分佈：特定國家固定年齡男性的身高、大多數儀器的測量誤差、你一年中的情緒。這發生的原因與骰子總和相同。當一切都按計劃進行時（所有骰子都擲出 5-6），你的心情很好。當事事不順時（所有骰子都擲出 1-2），你的心情很糟。但平均的情緒既可以來自平凡的一天，也可以來自好事補償了壞事。

（「昨晚沒睡夠。但早上想起了我最喜歡的小學老師，這給了我動力。然後上班路上堵車了——真煩！至少今天陽光明媚；你能感覺到春天要來了——我愛春天。」）

機率論指出，被加總的元素不一定要是均勻分佈的。只要它們具有足夠「好」的形狀，它們的總和就會收斂到正態分佈。這被稱為中央極限定理。而這種「好」的特性出現得驚人地頻繁。

鐘形曲線可以有不同的寬度，我們希望能衡量這種分散程度。僅僅測量最左側和最右側數值之間的距離是不切實際的，因為鐘形邊緣附近的數值極少出現。因此在實踐中，我們使用變異數 ($D$)——與分佈中心的平均平方距離——或標準差 ($\sigma$)，即變異數的平方根。

圖中的紅色箭頭顯示了從中心到幾個點的距離。為了計算標準差，我們取所有這些距離，將每個距離平方，加總，除以它們的數量，然後對結果取平方根。

已知正態分佈中 68% 的元素落在 $\pm \sigma$ 範圍內，95% 落在 $\pm 2\sigma$ 範圍內。反之，如果我們知道正態分佈中 95% 的元素落在某個範圍內，我們就可以估計 $\sigma$。

*現在假設我們有兩組數值：一個原始的隨機分佈，以及同一個分佈平移了某個量。例如，一個關於學生在學習某學科 48 週後測試表現的數據庫，以及他們在 96 週後的表現。我們如何估計時間翻倍對結果的改善程度？以 $\sigma$ 為單位來衡量這種平移是很方便的：這種衡量方式反映的不是絕對變化，而是相對於自然變異的變化。如果典型的分散程度是 5 分，那麼 10 分的進步可能令人印象深刻；但如果分散程度是 50 分，那麼 10 分幾乎毫無意義。

如果干預不僅平移了平均值，還增加了數值的分散程度怎麼辦？這不是問題——我們根據標準規則取平均 $\sigma$：$\sigma_{pooled} = \sqrt{(D_1 + D_2) / 2}$ 並以這些單位衡量距離：$d = (\mu_2 - \mu_1) / \sigma_{pooled}$。

這被稱為 Cohen’s d 統計量。科學論文通常使用這種指標來報告結果。

你應該從自我實驗中預期多大的效應？

很難概括地回答這個問題。有些人試圖優化睡眠品質，有些人則旨在增加肌肉。讓我們校準一下預期——以下是一些研究透徹的效應的 Cohen’s d 值：

服用肌酸（健身者廣泛使用的膳食補充劑），根據方案和衡量結果的方式，可產生約 d = 0.27–0.59 的額外表現增益^([1])。
與獨自訓練相比，在教練指導下進行力量訓練可增加 d = 0.28–0.4，具體取決於表現的衡量方式^([2])。
元分析估計抗憂鬱藥物的平均效應約為 d = 0.3^([3])。在輕度憂鬱的情況下效應較小。然而在現實生活中，人們應該預期更大的影響：醫生可以嘗試多種藥物並微調劑量。
關於正念冥想治療焦慮症的有效性尚未達成共識。研究顯示結果分佈廣泛，但 d = 0.2 的平均估計似乎相當合理^([4])^([5])。
中等強度的力量訓練（最大重量的 60–80%）可降低糖化血色素水平約 d = 0.4^([6])。
額外的金融教育課程對金融知識（測試分數）產生 d = 0.15 的效應，對財務負責行為（例如建立更大的緊急基金）產生 d = 0.07 的效應^([7])。

一方面，你的個人生活狀況或生物化學特性可能會放大那些對大多數人無效的效應。除此之外，研究受限於對所有參與者應用相同的干預「劑量」，而你可以為自己更精確地微調「劑量」。另一方面，你不太可能在自己身上測試任何比處方抗憂鬱藥更強的東西。此外，你最可能想要優化的是「情緒」或「全天的精力」。很少有東西能同時影響生物學、外部強加的日程安排、心理學以及餵入這些指標的習慣。因此，在這些情況下預期任何干預產生 d > 1 的效應將會很奇怪。要嘛你已經知道這些干預並正在實踐（你幾乎肯定上過學——不是某個特定的課程，而是通識教育）。要嘛你知道它們但出於充分理由不去做（搬到佛教寺廟幾乎肯定對焦慮有強烈影響，但有正當理由不那樣做）。或者這些是重大的生活改變決定，不會隨便發生，且難以複製和研究——離開虐待性的伴侶，或徹底改變職業軌道。

因此，在我看來，如果你試圖通過調整習慣和選擇補充劑來優化生活，你實際上是在「獵取」d = 0.1–0.4 範圍內的效應。

d = 0.1–0.4 在現實生活中究竟意味著什麼？

在智商測量中，$0.1\sigma$ 大約是 1.5 個智商點。身高增加 1 厘米大約對應於成年男性身高分佈中的 $0.14\sigma$^([8])。不多——但我不會隨便丟棄額外的智商點或身高厘米。
在美國，電動機組裝工的第 10 百分位數年薪約為 2.5 萬美元，而第 90 百分位數為 5.65 萬美元^([9])。粗略地說，這個分佈的標準差約為每年 8500 美元，其中的 0.2 倍是每年 1700 美元。這足以在德州買一輛不錯的自行車。
如果某人在 95% 的情況下每週有 5 到 45 小時的休閒時間，那麼增加 $0.2\sigma$ 的效應將使他們每週額外獲得 3 小時。同樣，這不是一個巨大的數額——但足以每週玩一個新的桌遊，或在三週內完成《Dispatch》^([10])。
如果在 95% 的情況下你每週閱讀 40–160 頁（每月一本 400 頁的書），那麼 $0.2\sigma$ 對應於每週額外閱讀 12 頁（每年大約多讀一本半 400 頁的書）。

在醫學文獻中，$d = 0.2$ 的效應被認為是「小」，$d = 0.5$ 是「中」，$d = 0.8$ 是「大」^([11])。上面的例子清楚地說明了原因：$d = 0.2$ 真的不算多。但讓我們記住背景。醫學文獻是針對特定疾病評估藥物。你不能給病人隨意劑量的任何東西。醫生必須證明為什麼他們開出特定的藥片，因為副作用是真實存在的。另一方面，在你自己的生活中，沒有人阻止你應用盡可能多的干預——直到你耗盡金錢或空閒時間。如果在空閒時間的例子中，你能找到並應用三個這樣正式定義為「小」的效應，那將為你每週增加 9 小時的空閒時間。那是一整天的工作時間！所以堆疊許多小效應的想法至少值得認真考慮。

聽起來很誘人——但陷阱在哪裡？

到底需要多少次觀察？

為了估計干預的絕對效應，我們取一組干預前的觀察值和另一組干預後的觀察值，然後比較這兩組的平均值。問題是我們需要大量的數據。例如，在下圖中我們只有 4 次觀察——而我們運氣不好。儘管綠色分佈實際上在藍色分佈的右側，但根據我們有限的數據，我們不得不得出它在左側的結論，而且還差得遠：

（在估計計算 Cohen’s d 所需的標準差時也有類似的問題，但讓我們現在先專注於平均值。） 我們唯一能指望的是，隨著觀察次數的增加，所有觀察都運氣不好的機率會降低。例如，在這裡，一些變異性部分抵消了：

計算上圖的平均值差異得到 $d = 0.6$，這更接近真實平移量 0.25——但仍然不夠接近。

使用前一節的方法計算的合併標準差等於 1，所以 d 值也是 0.6：$\mu_1 = 0.2, \mu_2 = 0.8, d = (0.8 - 0.2) / 1 = 0.6$。

那麼我們到底需要多少次觀察才能有信心？讓我們看看估計值收斂到真實效應的情況。下面是二十次模擬的圖表，顯示了我們對兩個 $D = 1$ 的正態分佈之間差異的估計如何取決於觀察次數。我們正試圖分別檢測 $d = 0.1$、$d = 0.2$ 和 $d = 0.3$ 的真實效應：

從這些圖表中我們可以得出幾個結論：

平均而言，我們確實會收斂到真實效應。觀察次數越多，我們就越接近。
儘管如此，你預先並不知道自己在哪個模擬分支上。你可能會低估或高估干預的效應。
估計值的擴散程度起初縮小得相對較快，但在大約 200 次觀察後，增加更多數據幾乎不再縮小擴散。在給定的噪音水平下，大約需要 1200 次觀察，模擬曲線才能一致地落在真實值周圍 $\pm 0.1$ 的範圍內。
收斂速度與真實效應大小的關係非常微弱。
這在圖中看不出來，但最重要的單一因素是噪音水平——觀察量的自然變異性。

如果你仔細看圖表，你會發現即使對於 $d = 0.3$ 的效應，你也需要超過 175 次觀察，才能讓所有模擬運行至少記錄到正向效應。對於 $d = 0.1$，你需要大約 1000 次。但即使這樣也低估了實驗的難度！在實踐中，我們需要區分有效果的干預和完全沒有效果的干預。這意味著「有效果」和「無效果」的模擬束需要足夠分離，我們才能判斷觀察到的線屬於哪一束：

從上圖可以清楚看到，分離這些模擬束需要大約 600–700 次觀察。

這些圖表很直觀，但不夠正式。理論怎麼說？

p 值 (p-value)

在科學中，評估我們是否可以拒絕虛無假設（無效；干預沒有影響）的標準方法是通過 p 值檢定。某個效應的 p 值是指：在虛無假設為真且我們觀察到的兩組數據差異至少與我們得到的一樣大的機率。按照慣例，如果這個機率低於 5%，我們就拒絕虛無假設。這就是著名的標準 $p < 0.05$。

如果實際上沒有效應，我們該如何估計觀察到測得差異的機率？正態分佈再次派上用場。正態分佈隨機變量的和與差本身也是正態分佈的^([12])。因此，樣本平均值的差 $\bar{x}_2 - \bar{x}_1$ 也是正態分佈的。如果虛無假設為真且分佈 $N_1$ 和 $N_2$ 是相同的，那麼這個差值分佈的峰值就在零點^([13])。可以證明這個差值的標準差是 $\sigma \sqrt{2/n}$。因此，如果我們將兩者相除，統計量 $Z = \frac{\bar{x}_2 - \bar{x}_1}{\sigma \sqrt{2/n}}$ 將遵循單位變異數且（在虛無假設下）平均值為零的正態分佈。然後我們可以將觀察值與 $Z$ 的表格值進行比較，以確定偶然獲得這種結果的可能性有多大^([14])。

下面是顯示我們的結論信心如何隨觀察次數增加而增長的圖表，對應於上面的收斂圖。粗線顯示了上述 p 值實驗的平均值。這不完全是真實的預期 p 值曲線，但它已經說明了重點：達到 95% 的信心需要大量的觀察。

那麼我們在理論上應該預期什麼？我們可以「反推」上述推導，計算在給定機率下檢測到已知大小 $d$ 的效應需要多少數據。以下是幾種情況：

理論上，要達到 5% 的偽陽性率和 5% 的偽陰性率，我們需要：

對於 $d = 0.3$ - 大約 580 次觀察（即干預前約 290 次，干預後約 290 次；注意這與上述 d 值束的分離點吻合得很好）
對於 $d = 0.2$ - 大約 1300 次觀察
對於 $d = 0.1$ - 大約 5200 (!) 次觀察

如果我們稍微降低標準，允許 5% 的偽陽性率和 20% 的偽陰性率，我們需要：

對於 $d = 0.3$ - 大約 350 次觀察
對於 $d = 0.2$ - 大約 800 次觀察
對於 $d = 0.1$ - 大約 3150 次觀察

如果我們進一步降低標準，允許 20% 的偽陽性率和 20% 的偽陰性率：

$d = 0.3$ - 200 次觀察
$d = 0.2$ - 250 次觀察
$d = 0.1$ - 1800 次觀察

最後，如果我們絕對確定效應一定是正向的並使用單尾檢定：

$d = 0.3$ - 126 次觀察
$d = 0.2$ - 280 次觀察
$d = 0.1$ - 1120 次觀察

因此，即使我們顯著放寬信心要求，並完全忽略干預可能帶來傷害而非好處的可能性，檢測一個不算弱的 $d = 0.3$ 效應仍需要四個月的觀察！提醒一下，這大約是中度憂鬱症患者第一次選對抗憂鬱藥後的效應大小。你基本上可以放棄嘗試測量任何更弱的東西。維生素（如果你沒有特定的缺乏症）、魚油，以及每天額外步行 20 分鐘（除非你平時完全久坐不動），根本無法被察覺——即使有非常仔細的追蹤。

額外的複雜因素

但這還不是全部。還有幾個值得注意的效應——每一個都會進一步增加所需的觀察次數。

非線性交互作用

干預的效應在我們關心的整個範圍內很少是線性的。大多數干預都有飽和閾值。額外步行的第一個小時比第三個小時產生的效應更大。這還不算太糟，雖然這意味著我們傾向於低估部分干預的效應。

更糟的是當干預的效應看起來像倒 U 型。第一杯咖啡讓你更清醒，而第五杯讓你陷入過度焦慮的顫抖。睡眠少於六小時不好，但超過十小時也不好。捕捉最佳暴露水平並不總是容易的。理想情況下，你會想要測試幾個強度水平——這意味著實驗至少要運行兩次。

累積與見效時間

許多干預不會立即產生效果。例如，阿托莫西汀（一種治療 ADHD 的藥物）的效應範圍從 $d = 0.4$ 到 $d = 2$ (!)，具體取決於患者群體和症狀衡量方式^([15])，但它可能需要長達四週才能在體內累積。因此，一些 ADHD 患者甚至可能在這種有效的藥物見效前就放棄了。去健身房或開始心理治療的結果需要更長的時間才能顯現。

通常，甚至不清楚該預期多長的延遲。如果你正在研究減重與背痛之間的關係，你可能不應該期望減重後疼痛立即消失。背部的損傷已經造成——它需要時間癒合。但效應達到平台期需要多長時間尚不清楚。

附帶條件與季節性

同樣的干預可能在某個時間有用，而在另一個時間無用。季節性是這裡最明顯的因素，但不是唯一的。冬天額外步行一小時或服用維生素 D 膠囊的效果可能比夏天更強，因為人們在寒冷月份往往光照和體力活動較少。運動補充劑可能在你處於熱量盈餘時有效，而在赤字時無效。冥想可能在早上改善情緒，但在晚上損害睡眠品質。

替代效應

假設你想研究睡眠不足對你的影響。你收集了工作效率取決於你睡 6 小時還是 8 小時的數據。但是，如果在睡了 6 小時後，你喝了更多的茶——而茶對你有刺激作用——你可能在數據中根本看不到睡眠不足導致的生產力下降。你要嘛需要固定系統的所有其他參數（在實踐中很難做到），要嘛也收集這些參數的數據。考慮替代效應會使模型複雜化。而且通常很難預先知道哪些因素可能起到替代作用。

「嘈雜」的測量單位

如果你在測量自己的幸福感或精力水平，你會遇到一致性問題。人們通常能區分 2/10 和 8/10 的感覺——但那些極端狀態並不常發生。大多數時候，你需要區分 4/10 與 5/10，以及 5/10 與 6/10，而並非每個人都擅長內省。到了研究的第二個月，人們會對此感到厭倦，並開始隨機在 4 和 5 之間選擇。如果沒有系統性偏差，估計值最終仍應收斂到「真實」值。儘管如此，測量誤差會疊加在潛在狀態的誤差之上，增加整體噪音——隨之增加所需的測量次數。

你應該嘗試將抽象的目標指標建立在問卷調查或客觀的生理指標上。但填寫問卷需要時間，而且需要意志力才不會開始敷衍了事。客觀生理指標有另一個問題：多虧了穿戴式裝置，它們很容易收集，但它們通常與你真正關心的事物只有非常間接的聯繫。你可以使用靜息心率變異性作為精力或焦慮水平的代理指標——但這種聯繫相當間接。

觀察者效應

當你既是研究者又是受試者時，很難進行盲法實驗。這隻對藥片真正有效——即便如此，也不是每個人都願意處理組織上的麻煩。你知道自己希望看到什麼效果，你會下意識地將評分推向理想的方向。

此外，監測行為本身就會改變系統。數據收集讓你更自覺地參與每一件事。正念通常是件好事，但它也在實驗設置與現實生活之間製造了隔閡。清單為以前自動化的活動增加了摩擦。過度關注自己的幸福和冷靜本身就可能導致憂鬱和焦慮。即使你知道這一點，這種效應依然存在。

生活的普遍噪音

工作截止日期、意外旅行、疾病以及異常愉快的情緒期都會在你的數據中製造「漏洞」。你需要決定哪些數據點「算數」，否則就得記錄一切。你還需要決定如何處理缺失數據。

你能為測量品質做的最好的事情就是降低指標的整體噪音水平。不幸的是，很難為了完成一個實驗而將自己置於足夠受控的條件下長達數月。你可以嘗試增加測量頻率，但超過某個（通常未知的）閾值後，增加頻率只會收集到更多噪音。

總結

「數據驅動的習慣優化」聽起來很酷且科學，但在實踐中，這是一項非常視情況而定的嘗試。只有在以下情況才值得嘗試：

你確信你正在研究的干預至少有 $d = 0.3$（見上面的效應列表；你真的期望你的干預能與之媲美嗎？）
你能想出應對前一節所述額外複雜因素的方法
你準備好為這項研究投入幾個月的時間

估計此類干預數據的預期成本。你對效應大小的信息價值評估是多少？運行實驗的預期成本是多少？即使這種比較表明研究值得做，也不要指望一條坦途或快速的結果。你需要這種程度的對科學的奉獻精神。

編輯：我想針對評論澄清一點，我不認為任何數據驅動的生活改善都是徒勞的。我的觀點是，這種特定風格的、理性主義/促智藥愛好者式的尋找並堆疊 d=0.1-0.3 改善的方法非常難以實現。其他數據驅動且通常以目標為導向的技術仍然非常有用。例如：

正如我提到的，你事先不知道某些干預的效應。在極少數情況下，你可能患有某種你不知道的疾病，而這種疾病可以得到極大的改善。例如，如果你缺乏維生素 A，當你開始服用維生素 A 補充劑時，你會注意到效果。在這種情況下，證明效果不是安慰劑會相對容易。所以我猜，一個富有成效的策略是短時間內按順序嘗試許多事情，如果你注意到任何效果，再進一步調查。雖有遺漏但可實行。
有時僅僅是察覺並關注發生在自己身上的事，就能讓你思考在某些方面改變生活是否值得。我提到過追蹤本身有時會為過程引入有害的摩擦。然而有時追蹤本身就有幫助！舉重的一個常見建議是追蹤你的進度。減肥也是如此。
很難將離群值納入正態分佈，但注意到數據中的離群值會激勵你思考為什麼會發生這些離群值。它們為你提供更多關於自己的信息，揭示未知的未知。
有時看到數據中的負面模式可以讓你問題發生前做出反應（另一方面，另見：疑病症）。
有時硬數據有助於凝聚意志力來實施某些改變。例如，當我在 22:00 之後做任何高強度腦力工作時，我的睡眠品質會急劇下降。我了解這種效應已有一段時間，但以前只是三心二意地嘗試不在晚上做事。測量那種下降幫助我更一致地克制在晚上寫代碼。
我提到過很難在「幸福感」和其他廣泛指標上達到有意義的效應大小，但另一方面，在一些狹窄且易於測量的事情上達到效應並不難。例如，追蹤你的血糖或血壓，並實驗不同事物如何影響它們，要可靠得多。
在極少數情況下，實驗會觸發連鎖反應或改變你周圍的系統，以至於正態分佈不再適用於模擬你的情況。

^(^) https://link.springer.com/article/10.1186/s11556-025-00392-9
^(^) https://journal.iusca.org/index.php/Journal/article/download/101/184/
^(^) https://www.thelancet.com/article/S0140-6736(17)32802-7/fulltext
^(^) https://www.mdpi.com/2254-9625/10/3/52
^(^) https://pubmed.ncbi.nlm.nih.gov/39740743/
^(^) https://academic.oup.com/ehjopen/article/5/5/oeaf093/8231441
^(^) https://www.academia.edu/105909537/Financial_education_in_schools_A_meta_analysis_of_experimental_studies
^(^) https://ourworldindata.org/human-height
^(^) https://www.salary.com/tools/salary-calculator/electric-motor-assembler#google_vignette
^(^) https://howlongtobeat.com/game/160618
^(^) https://www.medscape.org/viewarticle/569729
^(^) 直觀上：如果 X 是擲 N 個骰子的結果，Y 是擲 M 個骰子的結果，那麼 X+Y 就是擲 N+M 個骰子的結果——這只會讓分佈更趨向鐘形。
^(^) 直覺：想像從同一組數字中抽取兩對，左手抽一個，右手抽一個，然後用左手減去右手。平均而言，對於每一對順序為（左先，右後）的組合，都會有一個對應的（右先，左後）。這些相反的差值會抵消，平均值最終為零。
^(^) 當 $\sigma$ 值未知時，該統計量技術上遵循 t 分佈，但對於足夠大的樣本和我們的精確度水平，這並不重要。
^(^) https://journals.sagepub.com/doi/pdf/10.1177/2045125316647686

參與討論

https://lesswrong.com/posts/ycWWbpjxuhdxGpJ6e/probably-you-won-t-be-able-to-perform-a-data-driven-habit