Show HN:我們用不到 300 美元打造了一台僅依賴攝影機的掃地機器人

Hacker News·3 天前

我和 Bruce 決定自己動手做一台掃地機器人,我們利用行為複製技術訓練簡單的 CNN 模型,將影像串流至筆電進行推理導航,最終在 300 美元的預算內成功打造出一台功能完備的機器人。

背景

Bruce Kim 與 Indraneel Patil 兩位開發者為了節省購買掃地機器人的開支,決定動手打造一台預算低於 300 美元的純視覺導航掃地機器人。該專案硬體架構簡單,主要透過將攝影機畫面串流至筆記型電腦進行推論,並利用行為克隆技術訓練卷積神經網路(CNN),試圖讓機器人學會導航與避障。

社群觀點

針對這項實驗,Hacker News 的社群討論主要集中在模型訓練的有效性、導航邏輯的侷限性,以及如何改進純視覺方案的技術路徑。許多評論者指出,作者在訓練過程中遇到的驗證損失曲線問題,明顯反映了模型只是在死記硬背訓練集,而缺乏泛化能力。這可能是因為訓練數據量不足,或是數據品質無法支撐模型學習複雜的環境特徵。有網友建議,與其手動標註數據,不如利用昂貴但強大的視覺語言模型(VLM)來引導機器人自主運行,藉此自動生成更大規模的訓練數據集,或是嘗試使用單目深度估計模型來預測路徑。

在導航邏輯方面,部分評論者對單純依靠 CNN 處理當前影像的做法表示懷疑。他們認為,掃地機器人的核心價值在於系統性地覆蓋整個空間,而這通常需要地圖構建與路徑規劃。目前的設計更像是隨機碰撞導航的進階版,僅能偵測障礙物而無法理解空間佈局。雖然早期的 Roomba 確實是利用類似細菌運動的隨機演算法來覆蓋地面,但在現代標準下,缺乏 SLAM(即時定位與地圖構建)或光流技術的機器人很難稱得上聰明。

此外,社群也探討了硬體感測器的取捨。有人提出一種訓練策略:先在配備光學雷達(Lidar)的機器人上收集數據,再訓練純視覺模型來模擬雷達的效果,以此降低最終產品的硬體成本。也有觀點認為,隨著技術普及,光學雷達的價格已大幅下降,甚至可以考慮使用舊款 Xbox Kinect 等現成設備。討論中不乏對現狀的感嘆,認為目前的商業產品即便搭載了多種感測器,仍常發生卡在椅子下的低級錯誤,這顯示多模態模型在家庭環境的應用仍有極大的進步空間。

延伸閱讀

在討論過程中,社群成員分享了數個有助於提升機器人視覺能力的資源。Apple 開源的 Depth Pro 模型被提及作為單目深度估計的解決方案,能幫助機器人從單張影像中理解空間深度。針對地圖構建需求,OpenCV 的運動恢復結構(Structure from Motion)文件被視為建立空間座標的技術參考。此外,對於想要深入研究自主導航的開發者,SLAM 與光流技術也是被多次點名建議研究的核心領域。

https://indraneelpatil.github.io/blog/2026/robot-vacuum/