食慾素隨機對照試驗的無效結果分析

Lesswrong·17 天前

原文

我們進行了一項自我盲檢的隨機對照試驗，探討鼻腔噴霧食慾素 A 是否能減少睡眠需求或緩解睡眠不足對認知的影響，但初步實驗結果均為不具統計學意義的無效結果。

在過去的幾個月裡，我們[1]進行了一項睡眠實驗，靈感來自於我們懷疑食慾素 (orexin) 是減少睡眠需求的一個令人興奮的目標。

我們讓自己輕度剝奪睡眠（相對於平時的 7-7.5 小時，縮減至 5-5.5 小時），並透過鼻腔吸入安慰劑或食慾素。我們追蹤了服藥前一晚以及早上服藥後的睡眠情況，並在白天完成了各項心理敏銳度測試。

我們初步實驗的結果完全是無效結果（null results），未達到統計顯著性的標準閾值。這並不特別令人驚訝，我們預期有約 60% 的機率會發生這種情況。我們正在考慮下一步，並需要您的回饋！

目前，結果中有幾件事需要說明。

試驗設計

我們執行了一項帶有區組 (blocking) 的自我盲法 (self-blinded) 隨機對照試驗，每位參與者服用安慰劑（2.5 mL 無菌水）或食慾素（100 μg 食慾素-A 溶解於 2.5 mL 無菌水中）。以下是每個區組重複進行的程序：

準備兩個鼻腔噴霧器，一個裝有鹽水溶液，另一個裝有食慾素+鹽水溶液。
第一天前的夜晚：睡眠 5-5.5 小時。
第一天：
- 在一天的固定時間，隨機選擇一個噴霧器並給藥。
- 進行心理敏銳度測試。中午一次，晚上一次。
- 使用 Fitbit Inspire 3 追蹤睡眠、心率等。
第二天前的夜晚：正常睡眠。
第三天前的夜晚：睡眠 5-5.5 小時。
第三天：重複 3.1-3.3 步驟，使用剩餘的藥劑/安慰劑。
第四天和第五天前的夜晚：正常睡眠。
第五天：記錄基準睡眠測量值和心理測試。

每個人在安排自己的一天時都有相當大的自由度。在睡眠剝奪的日子裡，我個人偏好早起，而 No Magic Pill 和 niplav 則偏好熬夜並在平時的時間起床。我們每個人都在固定的時間給藥，但每個人之間的時間點有所不同。

我們沒有將流程標準化，是因為我們認為「生態效度」（ecological validity）更重要，即我們是以日常生活中實際使用的方式來使用食慾素。這是一種高變異但低偏差的方法。

實驗結果

在我們的初步提案中，我們指出最想看到的是食慾素能減少次日晚上的補償性睡眠（rebound sleep）。單純的興奮劑效果對我們來說是不夠的，我們希望利用食慾素來減少睡眠且不產生負面代價。

以下是服用食慾素後的夜晚與服用安慰劑後的夜晚的平均睡眠時間：

遺憾的是，差異並不顯著，且效應值（effect size）很小。這可能有幾個原因，我們希望在下一次試驗中解決。

食慾素在白天有任何興奮效果嗎？沒有，所有的心理敏銳度測試都沒有顯著差異。

在設定這項試驗時，我們有一個隱含的第二假設：睡眠剝奪真的會讓你變笨嗎？

在查看數據之前有一個注意事項。通常我們的「基準」日是在睡眠剝奪日之後。這意味著與睡眠剝奪日相比，基準日享有更多的累積練習。這應該會產生偏差，使基準日的表現看起來更好。另一方面，如果睡眠剝奪具有長期的累積影響，那麼基準日可能會處於劣勢。但這與我們在基準日感覺明顯好很多的經驗不符。

那麼，睡眠剝奪會讓你變笨嗎？其實不然！

根據你如何校正多重比較，精神運動警覺性任務 (PVT) 的差異可能是顯著的。我預期隨著數據點的增加，PVT 的差異會變得顯著。根據我（Sam）在睡眠剝奪日進行 PVT 的記憶，我覺得反應速度一樣快，但我會因為注意力不集中或分心而產生更多失誤。這與最慢 10% 天數的巨大差距是一致的。

但總體而言，這是一個很好的例子，說明我們對睡眠的直覺如何誤導我們。感覺上睡眠剝奪理應讓你變笨，但我們在這裡並沒有看到這種情況。實際檢查什麼會改變我們的生產力是很重要的，因為我們對此的直覺相當模糊。

下一次試驗

我們得到無效結果的原因可能有幾個。可能是數據點太少、劑量太低，或者更令人擔憂的是，我們可能儲存食慾素的方式不當。

因此，下一個步驟是進行規模稍大的試驗，看看更高劑量的食慾素是否會改變結果。根據網路上的軼事，有些人感受到了效果，而有些人則沒有。但即使食慾素沒有明顯的效果，它仍可能減少睡眠需求。我們需要嘗試更高的劑量並收集更多數據來找出答案。

話雖如此，睡眠剝奪對 Sam 和 No Magic Pill 來說很不舒服，對 niplav 來說則是極度不舒服。我們決定嘗試不同的設計：在一週的所有夜晚都隨意睡眠（ad libitum），但觀察食慾素是否會減少次日的睡眠量。這應該能讓我們可持續地收集更多數據。

附錄 A：數據分析細節

我們收集了兩組獨立的數據集：

從 Fitbit Inspire 3 自動收集的數據
- 睡眠測量
  - 睡眠時長
  - 睡眠效率
  - 深層睡眠時間
  - 淺層睡眠時間
  - REM 睡眠時間
  - 夜間覺醒時間
- 額外測量
  - HRV 每日 RMSSD (ms)
  - HRV 深層 RMSSD (ms)
  - SpO2 平均值 (%)
  - SpO2 最小值 (%)
  - 呼吸率 (次/分)
  - 皮膚溫度變化 Δ (°C)
  - 步數
心理敏銳度測試數據
- 精神運動警覺性任務 (PVT)
- 數字符號替換任務 (DSST)
- 數字跨度 (Digit span)
- 史丹佛嗜睡量表 (SSS)
- 主觀狀態描述（自由文本）

我們按測試彙整了心理敏銳度測試，以避免偽重複 (pseudoreplication)（因此每天有兩個數據點），並按天彙整了 Fitbit 數據。我們透過配對對照 (matched controls) 分析數據（將參與者區組內的天數進行配對，以分析對內差異），並對數據運行了兩次獨立分析：一次頻率論分析和一次貝氏分析。分析代碼由 Claude Opus 4.6 使用 Julia 編寫，可於此處取得。我們的心理敏銳度測試數據可於此處取得，彙整後的完整數據可於此處取得。

頻率論分析與額外結果

在頻率論分析中，我們對具有基數測量值的配對數據運行了配對 t 檢定，對具有序數測量值的配對數據運行了 Wilcoxon 符號秩檢定，我們還報告了測量值的 Cohen's d。我們對 p 值進行了 Bonferroni 校正，雖然這並非必要……

變數	效應值	p 值	校正後 p 值	食慾素	安慰劑	差異
PVT 平均反應時間 (ms)	0.100 (Cohen's d)	0.624	1.000	256.0 ± 28.0 (n=50)	253.3 ± 26.2 (n=46)	+2.7
PVT 中位數反應時間 (ms)	0.149 (d)	0.469	1.000	243.6 ± 18.3 (n=50)	240.8 ± 18.9 (n=46)	+2.8
PVT 最慢 10% (ms)	-0.024 (d)	0.908	1.000	296.7 ± 59.9 (n=50)	298.2 ± 68.3 (n=46)	-1.5
DSST 正確數	0.211 (d)	0.303	1.000	69.7 ± 10.6 (n=51)	67.4 ± 11.3 (n=46)	+2.3
數字跨度順背	0.175 (秩雙列相關 r)	0.148	1.000	7.86 ± 1.00 (n=42)	8.10 ± 1.13 (n=40)	-0.24
數字跨度倒背	0.061 (r)	0.627	1.000	7.31 ± 0.95 (n=42)	7.38 ± 1.25 (n=40)	-0.07
數字跨度總計	0.127 (r)	0.318	1.000	15.2 ± 1.7 (n=42)	15.5 ± 2.0 (n=40)	-0.3
SSS 評分	-0.178 (r)	0.112	1.000	3.29 ± 1.02 (n=52)	2.98 ± 0.86 (n=46)	+0.31
睡眠時長 (小時)	0.212 (d)	0.542	1.000	8.60 ± 1.91 (n=17)	8.27 ± 1.05 (n=17)	+0.33
睡眠效率 (%)	-0.257 (d)	0.460	1.000	89.4 ± 5.3 (n=17)	90.5 ± 3.7 (n=17)	-1.2
深層睡眠 (分)	-0.011 (d)	0.974	1.000	74.5 ± 22.9 (n=17)	74.7 ± 19.3 (n=17)	-0.2
淺層睡眠 (分)	0.232 (d)	0.505	1.000	283 ± 69 (n=17)	270 ± 40 (n=17)	+13
REM 睡眠 (分)	-0.150 (d)	0.665	1.000	101.2 ± 27.3 (n=17)	104.9 ± 21.8 (n=17)	-3.7
睡眠覺醒 (分)	0.341 (d)	0.331	1.000	56.9 ± 38.0 (n=17)	46.6 ± 19.6 (n=17)	+10.3
HRV 每日 RMSSD (ms)	0.079 (d)	0.814	1.000	32.8 ± 13.0 (n=18)	31.7 ± 15.1 (n=18)	+1.1
HRV 深層 RMSSD (ms)	0.369 (d)	0.276	1.000	31.8 ± 12.2 (n=18)	27.2 ± 13.0 (n=18)	+4.6
SpO2 平均值 (%)	-0.286 (d)	0.397	1.000	95.7 ± 1.0 (n=18)	96.0 ± 1.0 (n=18)	-0.3
SpO2 最小值 (%)	-0.059 (d)	0.861	1.000	93.6 ± 1.4 (n=18)	93.7 ± 1.6 (n=18)	-0.1
呼吸率 (次/分)	0.314 (d)	0.382	1.000	16.4 ± 2.0 (n=17)	15.8 ± 1.9 (n=15)	+0.6
皮膚溫度變化 Δ (°C)	-0.041 (d)	0.905	1.000	0.01 ± 0.65 (n=17)	0.04 ± 0.49 (n=17)	-0.02
步數	0.032 (d)	0.909	1.000	6478 ± 6403 (n=27)	6282 ± 5996 (n=26)	+196

貝氏分析與額外結果

我們擬合了一個具有參與者隨機截距的層次貝氏線性模型 (hierarchical Bayesian linear model)，使用 NUTS（4 條鏈 × 每個指標 2000 個樣本）。主要的估計量是 δ，即標準化治療效應（類似 Cohen's d），具有弱信息先驗 N(0,1)。

形式上，似然函數為 yᵢ ~ N(μ + δσ·treatmentᵢ + α[pᵢ], σ)，其中 treatmentᵢ ∈ {0,1} 編碼安慰劑/食慾素。結果量表上的原始治療效應為 δσ；δ 本身是無因次的。先驗：μ ~ N(0,10)（模糊總平均值），σ ~ half-N(0,10)（殘差標準差），τ ~ half-N(0,5)（參與者間標準差），α[j] ~ N(0,τ) 對於每個參與者 j 是獨立同分布 (iid) 的。

認知敏銳度測試和睡眠測量的先驗與後驗：

額外 Fitbit 數據的先驗與後驗：

心理敏銳度測試的學習效應

圓圈代表當天的第一次測試，菱形代表當天的第二次測試。

附錄 B：效度威脅

我們的方法表面上看起來很簡單，但過程中有很多煩人的問題。

食慾素是在室溫下運送的，雖然供應商聲稱食慾素已經過冷凍乾燥 (lyophilized)，但我們不確定冷凍乾燥是否足以防止損壞。
- 在 niplav 的案例中，食慾素在 7 月份的運送過程中，在海關未冷藏存放了超過一週。
為了將食慾素分配到小瓶中，我們必須將其溶解在水中。這意味著我們既要將溶解在水中的食慾素存放近一週，又要冷凍其餘部分。我們不確定這些操作是否損壞了胜肽結構。
我們不確定我們的給藥途徑是否能穿過血腦屏障。
一位參與者不知道 Fitbit 數據需要定期同步，因此我們只有兩位個人的睡眠數據。此外，Fitbit 的同步和數據收集並不穩定，導致我們在服用食慾素後的睡眠夜晚僅有 17 個數據點。
另一個令人頭痛的問題是確保睡眠剝奪之夜被安排在可以隨意睡眠的夜晚之間。我們還試圖在試驗日保持一致的作息，以免運動、服用益智藥或其他活動的變化改變我們的結果。

附錄 C：個人經驗

Niplav：

很多事情都可能出錯。
2.5ml 實在太多了，下次試試 1ml。
填充注射器很有趣！感覺非常有科學家的樣子。
或許我們應該從更高的劑量開始，但考慮到安全問題，也就算了。
睡 5½ 小時感覺糟透了。
我在睡眠剝奪日幾乎完全沒有生產力，我會對此高度重視。
咖啡因非常有幫助。
兩晚正常睡眠，然後再一晚睡眠剝奪會更好。
應先了解數據收集工具的可靠性。
除了第二週實在撐不住睡著之外，完全沒有午睡。
我很高興我們先做了一個簡短的試驗，這樣我們就能及早發現數據收集的問題。
逐次實驗日誌請見此處。

Sam：

補償性睡眠讓我感覺好多了，充滿活力，甚至比平常一天的睡眠感覺還要好。
在安慰劑日經常午睡，但食慾素似乎確實有興奮效果。
總體來說，很難分辨哪個是哪個。
在試驗日心理感覺一樣。但做測試時感覺比基準日慢一點。總體而言，我對自己的生產力/聰明程度沒有很好的感覺。
早上多出來的時間確實被利用了，用於閱讀論文和寫作等智力任務。
太陽升起時早起容易得多。

No Magic Pill：

測試：
- PVT：我不認為我的反應時間在測試過程中有所改善（75% 信心）。我不排斥這個測試。
- DSST：我不認為我的技能在測試過程中有多大提升。我最討厭這個測試。
- 數字跨度：我有 75% 的信心認為我在測試過程中變強了。到最後，我始終能順背和倒背 9 位數。我第二討厭這個測試（僅次於 DSST）。
- 嗜睡度：我的評分從未那麼高，而且可能因為覺得需要利用大部分量表而偏向評高分。我不排斥這個測試。
- 感受：我在這裡本可以寫得更詳細。
熬夜並在正常時間起床，比在正常時間睡覺並早起要容易得多。
- 熬夜時我相當有生產力。
- 早起時我完全沒有生產力。
- 大多數時候，在睡眠剝奪後的夜晚醒來時，我會有全身「刺痛感」。我經歷這種現象多年了：任何少於約 6 小時的睡眠，或劇烈運動後的正常睡眠時長，都會讓我早上感到「刺痛」。
睡眠剝奪後的夜晚，我的易怒程度和發火速度處於正常水平。這多年來一直很穩定（就像刺痛感一樣）。
我在任何一天（測試前或測試當天）都沒有午睡，因為我認為那會干擾測試數據。
在睡眠剝奪的日子裡，我的動力往往比非睡眠剝奪的日子消退得更快。這在過去幾年裡一直很穩定，也符合我的預期。
在食慾素給藥後，我沒有立即感覺到身體或心理上的任何變化。
我應該在測試期間更好地隔離自己。有時環境有點吵或有視覺干擾，特別是如果我在工作的話。我應該記下測試期間是否分心。
- 也許可以增加一個功能，在每次測試結束時添加評論？
我同意 Niplav 的觀點，2.5 mL 的水太多了。1.25 mL 比較好，但還是有一點多。我想 1 mL 對未來可能比較合適？
^(^) Sam Harsimony、niplav、No Magic Pill。

參與討論

https://lesswrong.com/posts/sW5PtDTKtmGNKcvQk/null-results-from-an-orexin-rct