OTelBench:為 OpenTelemetry 程式碼插樁評估 AI 模型

OTelBench:為 OpenTelemetry 程式碼插樁評估 AI 模型

Hacker News·

一項名為 OTelBench 的新基準測試,評估頂尖 AI 模型為 OpenTelemetry 進行程式碼插樁以實現分散式追蹤的能力,並檢驗其是否準備好應對實際的網站可靠性工程任務。

AI 能進行 OpenTelemetry 檢測嗎?

分散式追蹤需要將複雜微服務中不同的使用者旅程串聯起來,而不僅僅是編寫獨立的函式。我們測試了頂級模型是否能成功地為應用程式進行 OpenTelemetry 檢測,以了解它們是否已準備好處理實際的網站可靠性工程任務。

模型排名

模型依據修改程式碼以正確發出遙測資料的成功率進行排名。表格包含完整基準測試的總成本和時間,以幫助情境化效能。請參閱我們的完整方法論以了解驗證細節。

檢測任務

Hacker News

相關文章

  1. OpenTelemetry 基準測試:AI 能追蹤你的登入失敗嗎?

    3 個月前

  2. Show HN:AI 編碼助手的統一本地可觀測性

    4 個月前

  3. 介紹 EVMbench:評估 AI 代理在區塊鏈安全能力的基準測試

    OpenAI · 2 個月前

  4. PostTrainBench:評估AI代理後訓練語言模型的能力

    4 個月前

  5. 所有基準測試都已失效

    Lesswrong · 3 個月前