
Conntour 獲 General Catalyst 與 YC 領投 700 萬美元種子輪融資,打造安全監控系統專用的 AI 搜尋引擎
Conntour 利用 AI 模型讓安全團隊能使用自然語言查詢攝影機畫面,藉此尋找任何物體、人物或特定情境。
當今的監控技術產業正處於聚光燈下,但原因並不全然正面。隨著美國移民及海關執法局(ICE)利用 Flock 的攝影機網路監視民眾引發爭議,以及家用攝影機製造商 Ring 因開發能讓執法部門向屋主索取社區影像的新功能而招致批評,目前關於安全、隱私以及「誰有權監視誰」正存在著廣泛的爭論。
然而,爭議並未抹除市場需求,視覺語言模型(Vision-Language Models)的持續進步,反而為那些開發新方式協助企業監控場域狀況的公司帶來了更多助力。
根據影片監控新創公司 Conntour 的共同創辦人兼執行長 Matan Goldner 的說法,圍繞此議題的倫理道德至關重要,因此他表示公司對於銷售對象非常挑剔。對於一家成立僅兩年的新創公司來說,這聽起來可能不符合商業邏輯,但 Goldner 表示他負擔得起這種做法,因為 Conntour 已經擁有多個大型政府和上市公司客戶,其中之一是新加坡中央肅毒局(Central Narcotics Bureau)。
Goldner 在接受 TechCrunch 獨家專訪時表示:「擁有這些大客戶讓我們能夠篩選對象並保持主導權……我們確實掌控著誰在使用它、用途為何,我們可以選擇我們認為符合道德且合法的對象。我們運用所有的判斷力,並根據特定客戶做出決定,因為我們知道他們會如何使用這項技術。」
這種市場動能不僅讓 Conntour 能夠挑選客戶,也引起了投資者的注意:這家新創公司最近完成了 700 萬美元的種子輪融資,投資者包括 General Catalyst、Y Combinator、SV Angel 和 Liquid 2 Ventures。
Goldner 表示,這一輪融資在 72 小時內就完成了。「我想我在大約八天內安排了約 90 場會議,而僅僅三天後——我們從週一開始,到週三下午就結束了,」他說。
無論如何,Conntour 的謹慎或許是正確的,特別是考慮到該領域的 AI 工具已變得多麼強大。該公司的影片平台使用 AI 模型,讓安保人員能使用自然語言查詢攝影機畫面,即時在影像中尋找任何物體、人物或情況——這是一個專為安全監控畫面打造的類 Google 搜尋引擎。它還能根據預設規則自行監控並偵測威脅,並自動發出警報。
與依賴預設定義或參數來偵測特定物體、運動模式或行為的傳統系統不同,Conntour 聲稱其系統使用自然語言與視覺語言模型,這賦予了系統極高的靈活性和易用性。使用者可以詢問:「尋找穿運動鞋的人在大廳遞交袋子的畫面」,Conntour 的系統將迅速搜尋所有錄製影像或直播畫面,並回傳相關結果。

由於平台內建了 AI 模型,使用者只需針對影像內容提出問題,即可獲得文字解答及相關影片片段,並能自動生成事件報告。
然而,該公司的核心賣點在於其擴展性(Scalability)。Goldner 解釋,該平台與其他 AI 影片搜尋服務的主要區別在於,它是為了能高效擴展至包含數千個攝影機畫面的系統而設計的。事實上,他表示 Conntour 的系統僅憑一張消費級 GPU(如 Nvidia 的 RTX 4090),就能監控多達 50 個攝影機畫面。
該公司透過使用多個模型和邏輯系統來實現這一點,並能識別演算法在每次查詢中應使用哪些模型和系統,從而以最低的運算能力為使用者提供最佳結果。
Conntour 聲稱其系統可以完全部署在本地端(On-premises)、完全部署在雲端,或是兩者混合。它可以接入大多數現有的安全系統,也可以作為一個獨立的完整監控平台。
但影片監控產業長期以來一直存在一個問題:監控的品質取決於拍攝到的影像品質。例如,很難從解析度低、鏡頭髒污且光線不足的停車場影像中辨識細節。
Goldner 表示,Conntour 透過在搜尋結果中提供「信心分數」(Confidence Score)來應對這種不可避免的情況。如果攝影機來源的畫質不夠好,系統回傳結果的信心水準就會較低。
展望未來,Goldner 表示要解決的最大技術難題是在保持效率的同時,將完整的大型語言模型(LLM)能力引入系統。
「我們有兩件事想同時達成,但它們彼此矛盾。一方面,我們希望提供 LLM 風格的完整自然語言靈活性,讓你詢問任何事情;另一方面則是效率,我們希望它消耗極少的資源,因為處理數千個畫面是非常驚人的。這種矛盾是我們領域中最大的技術障礙和技術問題,也是我們正非常努力嘗試解決的目標。」