Show HN：我們用不到 300 美元打造了一台僅依賴攝影機的掃地機器人

Hacker News·3 天前

我和 Bruce 決定自己動手做一台掃地機器人，我們利用行為複製技術訓練簡單的 CNN 模型，將影像串流至筆電進行推理導航，最終在 300 美元的預算內成功打造出一台功能完備的機器人。

indraneelpatil.github.io

robot vacuum

背景

Bruce Kim 與 Indraneel Patil 兩位開發者為了節省購買掃地機器人的開支，決定動手打造一台預算低於 300 美元的純視覺導航掃地機器人。該專案硬體架構簡單，主要透過將攝影機畫面串流至筆記型電腦進行推論，並利用行為克隆技術訓練卷積神經網路（CNN），試圖讓機器人學會導航與避障。

社群觀點

針對這項實驗，Hacker News 的社群討論主要集中在模型訓練的有效性、導航邏輯的侷限性，以及如何改進純視覺方案的技術路徑。許多評論者指出，作者在訓練過程中遇到的驗證損失曲線問題，明顯反映了模型只是在死記硬背訓練集，而缺乏泛化能力。這可能是因為訓練數據量不足，或是數據品質無法支撐模型學習複雜的環境特徵。有網友建議，與其手動標註數據，不如利用昂貴但強大的視覺語言模型（VLM）來引導機器人自主運行，藉此自動生成更大規模的訓練數據集，或是嘗試使用單目深度估計模型來預測路徑。

在導航邏輯方面，部分評論者對單純依靠 CNN 處理當前影像的做法表示懷疑。他們認為，掃地機器人的核心價值在於系統性地覆蓋整個空間，而這通常需要地圖構建與路徑規劃。目前的設計更像是隨機碰撞導航的進階版，僅能偵測障礙物而無法理解空間佈局。雖然早期的 Roomba 確實是利用類似細菌運動的隨機演算法來覆蓋地面，但在現代標準下，缺乏 SLAM（即時定位與地圖構建）或光流技術的機器人很難稱得上聰明。

此外，社群也探討了硬體感測器的取捨。有人提出一種訓練策略：先在配備光學雷達（Lidar）的機器人上收集數據，再訓練純視覺模型來模擬雷達的效果，以此降低最終產品的硬體成本。也有觀點認為，隨著技術普及，光學雷達的價格已大幅下降，甚至可以考慮使用舊款 Xbox Kinect 等現成設備。討論中不乏對現狀的感嘆，認為目前的商業產品即便搭載了多種感測器，仍常發生卡在椅子下的低級錯誤，這顯示多模態模型在家庭環境的應用仍有極大的進步空間。

延伸閱讀

在討論過程中，社群成員分享了數個有助於提升機器人視覺能力的資源。Apple 開源的 Depth Pro 模型被提及作為單目深度估計的解決方案，能幫助機器人從單張影像中理解空間深度。針對地圖構建需求，OpenCV 的運動恢復結構（Structure from Motion）文件被視為建立空間座標的技術參考。此外，對於想要深入研究自主導航的開發者，SLAM 與光流技術也是被多次點名建議研究的核心領域。

https://indraneelpatil.github.io/blog/2026/robot-vacuum/