以AI取代客服人員的經濟學考量
與預期相反,在 2025 年利用 AI 取代客服人員並沒有便宜多少,因為高昂的 API 成本往往超過了開發中國家的人工薪資。我的分析顯示,在計入基礎設施和託管費用後,語音 AI 新創公司的利潤空間與傳統海外外包勞動力相比依然非常嚴苛。
TLDR:語音 AI 在 2025 年其實並沒有便宜多少。
我的朋友在加拿大經營一家為預約制診所提供語音代理(Voice Agent)的初創公司。該 AI 負責接聽電話,並使用工具在 EMR(電子病歷)系統中預約。理論上,這能幫助診所減少前台人員的聘僱,而初創公司則能賺進大把鈔票。但現實中,利潤空間極其微薄,他們的收費幾乎僅高於成本。這讓我感到驚訝:難道一個活生生、有血有肉的人類,每小時的成本會比某處數據中心裡的 GPU 還低嗎?
語音 AI 行業概況
廣義上,語音 AI 行業有三類公司:
-
底層模型公司(Foundation model companies):
這些公司實際訓練文本轉語音(TTS)和實時音頻模型。- OpenAI, Elevenlabs, Cartesia
-
管線公司(Pipeline companies):
基礎設施公司,整合多個底層模型提供商,幫助你測試不同供應商、構建代理,並連接 SIP 和 WebRTC 傳輸(可以想像成進階版的 OpenRouter)。- 開發者導向:N8n, Bland, Vapi
- 企業導向:Ada, Sierra, Fin
-
垂直領域初創公司:
針對特定行業提供語音代理的公司,例如「用於 {醫療保健 | 物流 | 房地產 | 等} 的語音代理」。- 這裡有 142 家 此類公司。
當然,這些分類是模糊的,有些公司可能會進行多層級的垂直整合(例如 Vapi 擁有自己的 TTS 底層模型)。
成本逐項拆解
讓我們以 Vapi 為例,深入探討技術棧的核心。
Vapi 的運作方式像是一個有幾種口味的三明治:
語音轉文本 (STT) => 大語言模型 (LLM) => 文本轉語音 (TTS)
- 首先,Deepgram 將通話轉換為文本(100 毫秒)
- 然後,GPT-4o 進行文本處理(600 毫秒)
- 最後,Vapi 進行文本轉語音(250 毫秒)
- 加上 WebRTC 傳輸(100 毫秒)或 Twilio 電話服務(600 毫秒)帶來的延遲
- 成本至少為 $0.15/分鐘
- $0.05 用於 Vapi 託管
- $0.01 用於 Deepgram 語音轉文本
- $0.07 用於 GPT-4o
- $0.022 用於 Vapi 文本轉語音
實時 API (Realtime API)
- OpenAI 處理直接的音頻到音頻轉換,但你需要支付 $0.91/分鐘。
- 註:我實際嘗試撥打電話時,不知為何被收取了 $0.53/分鐘,所以我使用了這個數字。
他們在這裡有一個計算器,玩起來很有趣。
與人類及業務流程外包 (BPO) 的比較
以下是美國公司常外包的一些熱門目的地及其呼叫中心的薪資,以及 Vapi TTS、Vapi OpenAI Realtime 和 Bland 的每小時費率。
| 國家/項目 | 平均年薪 (當地) | 平均時薪 (當地) | 約合年薪 (USD) | 約合時薪 (USD) | 來源 |
|---|---|---|---|---|---|
| 埃及 | EGP 128,478 | EGP 62/hr | $2,716 | $1.31 | ERI / SalaryExpert |
| 越南 | ₫83,603,022 | ₫40,194/hr | $3,174 | $1.53 | SalaryExpert |
| 菲律賓 | ₱264,272 | ₱127/hr | $4,487 | $2.16 | SalaryExpert (ERI) |
| 印度 | ₹429,359 | ₹206.42/hr | $4,809 | $2.31 | SalaryExpert (ERI) |
| 墨西哥 | MXN 148,016 | MXN 71/hr | $7,670 | $3.68 | SalaryExpert (ERI) |
| 哥倫比亞 | COP 30,441,760 | COP 14,635/hr | $8,061 | $3.88 | SalaryExpert (ERI) |
| 巴西 | R$44,967 | R$22/hr | $8,319 | $4.07 | ERI / salary sites |
| Bland 語音代理 | -- | -- | $11,232.00 | $5.40 | Bland.ai |
| 南非 | R198,779 | R96/hr | $11,487 | $5.55 | ERI / SalaryExpert |
| 羅馬尼亞 | RON 54,416 | RON 26/hr | $12,363 | $5.91 | SalaryExpert |
| 波蘭 | PLN 61,205 | ≈PLN 29.4/hr | $16,684 | $8.02 | TTEC / Salary writeups |
| Vapi TTS | -- | -- | $18,720.00 | $9.00 | Vapi.ai |
| 加拿大 | CAD 35,500 | 16.83 | $25,186.01 | $11.95 | 我朋友提供的數據 |
| 美國 | -- | -- | $38,854.40 | $18.68 | Indeed |
| Vapi OpenAI Realtime | -- | -- | $67,392.00 | $32.40 | Vapi.ai |
我們可以看到,Bland 每分鐘 $0.09(每小時 $5.4 美元)的費率與南非相比具有競爭力,但在大多數發展中國家,聘請人類仍然更便宜。
如果有人在加拿大創辦一家基於 Vapi 的語音代理初創公司,他們僅在 API 成本上每小時就要支付 $9 美元,而他們取代的是時薪 $12 美元的最低工資工人。算上入職培訓、管理開銷和員工薪資,能收支平衡就謝天謝地了。
假設前提
- 人類在受薪的每一小時內都處於 100% 的利用率(這可能不現實,但從悲觀角度看也未必)。
- 人類的入職培訓成本與設置語音代理基礎設施和工作流的成本相同(語音代理可能便宜得多,但我不確定)。
- 最低工資的前台接待員與呼叫中心工作人員的收入大致相同,且從事類似任務。這可能不完全正確,例如接待員還需要與人面對面互動或引導。
局限性
- 企業級語音 API 合約可能會提供大宗折扣和多年綁定。我沒有這方面的數據,因為大多數企業定價都是定制且不公開的。
- 我主要測試了 Vapi,因為 Bland 有很多 Bug 且無法運行。我也沒有測試 Sierra 或 Ada 等企業平台,因為我不是企業用戶。
- 我沒有考慮如果直接使用底層模型/自託管開源模型 + Twilio 的最便宜定制方案。這可能是未來研究的一個有趣領域。
- 我沒有考慮讓 AI 接聽電話的機會成本。客服/接待人員是被完全取代,還是能轉而協助處理更多行政後台任務?(假設這些任務也沒被 AI 取代)。
- 應該有人對呼叫中心/接待員的需求價格彈性進行研究。如果我們將時薪降低 $1,公司會多購買多少單位的客戶服務?
- 據推測,未來很大比例的語音代理將用於外呼銷售,從而增加收入,而不僅僅是減少客服等成本中心。
- 我沒有考慮像 Cartesia 或 Boson AI 這樣的新型語音模型架構。
未來展望
精明的資本家會意識到 GPU/推理成本每年都在大幅下降,或許會做一個未來十年的節省成本折現現金流模型,因為語音模型在每小時成本上終將擊敗地球上的每個人類。
假設推理成本每年下降 30%,且呼叫中心的工資隨各國通膨率增長,我們可以看到大多數語音代理在 2030 年左右將能與世界上最廉價的人類勞動力競爭。
| 國家/項目 | 通膨率 | 2025 | 2026 | 2027 | 2028 | 2029 | 2030 | 2031 | 2032 |
|---|---|---|---|---|---|---|---|---|---|
| 埃及 | 1.10 | $1.31 | $1.44 | $1.59 | $1.74 | $1.92 | $2.11 | $2.32 | $2.55 |
| 越南 | 1.03 | $1.53 | $1.58 | $1.62 | $1.67 | $1.72 | $1.77 | $1.83 | $1.88 |
| 菲律賓 | 1.02 | $2.16 | $2.20 | $2.25 | $2.29 | $2.34 | $2.38 | $2.43 | $2.48 |
| 印度 | 1.05 | $2.31 | $2.43 | $2.55 | $2.67 | $2.81 | $2.95 | $3.10 | $3.25 |
| 墨西哥 | 1.04 | $3.68 | $3.83 | $3.98 | $4.14 | $4.31 | $4.48 | $4.66 | $4.84 |
| 哥倫比亞 | 1.05 | $3.88 | $4.07 | $4.28 | $4.49 | $4.72 | $4.95 | $5.20 | $5.46 |
| 巴西 | 1.09 | $4.07 | $4.44 | $4.84 | $5.27 | $5.75 | $6.26 | $6.83 | $7.44 |
| Bland 語音代理 | 0.70 | $5.40 | $3.78 | $2.65 | $1.85 | $1.30 | $0.91 | $0.64 | $0.44 |
| 南非 | 1.04 | $5.55 | $5.77 | $6.00 | $6.24 | $6.49 | $6.75 | $7.02 | $7.30 |
| 羅馬尼亞 | 1.10 | $5.91 | $6.50 | $7.15 | $7.87 | $8.65 | $9.52 | $10.47 | $11.52 |
| 波蘭 | 1.02 | $8.02 | $8.18 | $8.34 | $8.51 | $8.68 | $8.85 | $9.03 | $9.21 |
| Vapi TTS | 0.70 | $9.00 | $6.30 | $4.41 | $3.09 | $2.16 | $1.51 | $1.06 | $0.74 |
| 加拿大 | 1.02 | $11.95 | $12.19 | $12.43 | $12.68 | $12.94 | $13.19 | $13.46 | $13.73 |
| 美國 | 1.02 | $18.68 | $19.05 | $19.43 | $19.82 | $20.22 | $20.62 | $21.04 | $21.46 |
| Vapi OpenAI Realtime | 0.70 | $32.40 | $22.68 | $15.88 | $11.11 | $7.78 | $5.45 | $3.81 | $2.67 |
結論
你應該在 2025 年創辦一家語音代理公司嗎?如果你能找到合適的行業,並籌集到足夠的風險投資以支撐 5 年,那或許可以。我們應該讓 AI 處理所有的客服諮詢、敏感個人信息,並對電子病歷系統進行工具調用嗎?那是另一篇文章要探討的問題了 :)
相關文章
其他收藏 · 0