
受制裁中國 AI 巨頭商湯科技發布主打速度的影像模型
受美國限制影響其獲取先進技術,商湯科技正加倍投入開源領域,推出一款針對中國國產晶片優化、旨在提升速度的新模型。
商湯科技(SenseTime)是一家以人臉識別技術聞名的中國 AI 公司,週二發佈了一款全新的開源模型。該公司聲稱,該模型在生成與解讀影像的速度上,遠快於美國競爭對手開發的頂尖模型。SenseNova U1 可能有助於該公司在中國 AI 開發競賽中重返領先地位。
該模型的「獨門秘方」在於它能夠直接「閱讀」影像,而無需先將其轉換為文字,從而加快了處理速度並減少了所需的運算能力。「模型的整個推理過程不再受限於文字。它也能夠利用影像進行推理,」商湯科技共同創辦人兼首席科學家林達華在接受《連線》(WIRED)雜誌採訪時表示。
林達華同時也是香港中文大學信息工程系教授,他表示,能夠直接處理影像的模型未來將使機器人更好地理解物理世界。
與 DeepSeek 最新的旗艦模型一樣,商湯科技表示 U1 可以由中國國產晶片驅動。「幾家中國國內晶片製造商已經完成了與我們新模型的兼容性優化,」林達華說。在發佈當天,包括寒武紀(Cambricon)和壁仞科技(Biren Technology)在內的 10 家中國晶片設計公司宣佈其硬體支援 U1。
這種靈活性至關重要,因為美國的出口管制限制了中國公司獲取全球最先進的 AI 晶片,特別是用於訓練的晶片,目前這些晶片主要由輝達(Nvidia)等西方公司開發。「我們將繼續推動在更多不同的晶片上進行訓練,」林達華說。但他同時也承認,商湯科技「可能仍需要使用最好的晶片,以確保我們的迭代速度」。
商湯科技在 Hugging Face 和 GitHub 上免費發佈了 U1,這再次表明中國公司正成為開源 AI 領域最活躍的貢獻者之一。
商湯科技成立於 2014 年,曾是電腦視覺領域的世界領導者,該技術應用於人臉識別和自動駕駛等領域。但當 ChatGPT 和其他由自然語言處理驅動的 AI 系統成為科技界最熱門的趨勢時,商湯科技開始面臨盈利困難,並落後於 DeepSeek 和 MiniMax 等較新的中國新創公司。
商湯科技表示,希望透過公開發佈 SenseNova-U1 供任何人使用,能幫助其追趕國內外 AI 參與者。林達華表示,公司去年終於決定專注於開源,是因為研究人員提供的有用回饋能讓公司迭代得更快。「在當今時代,開源還是閉源並非獲勝的關鍵因素;迭代速度才是,」林達華解釋道。
走向開源也有助於商湯科技在不受地緣政治干擾的情況下,繼續與國際研究人員合作。近年來,該公司因被指控其人臉識別技術協助驅動了用於監控和拘留中國新疆地區維吾爾族及其他少數民族的監視系統,多次受到美國政府的制裁。因此,美國公司被限制在未經許可的情況下投資商湯科技或向其出售某些技術。(商湯科技已否認這些指控。)

使用 SenseNova U1 創建的範例影像。由 AI 生成。
看得更清晰
在隨附的技術報告中,商湯科技聲稱 SenseNova-U1 生成的影像品質高於目前市場上所有其他開源模型。其表現與阿里巴巴的通義千問(Qwen)和字節跳動的 Seedream 等領先的中國閉源模型相當,但仍落後於僅在一週前發佈的 GPT-Image-2.0 等行業領導者。
但該模型的主要賣點在於其生成影像的速度遠快於所有這些模型。它依賴於一種名為 NEO-Unify 的創新技術架構,商湯科技在今年早些時候曾對此進行過預覽。
Hugging Face 的 AI 研究員 Adina Yakefu 表示,這種可能提高效率和性能的新架構是 U1 的脫穎而出之處。「這是一個更具雄心的方法,因為它仍面臨重大的實踐挑戰,」她說。「他們決定將其開源是件好事,這樣社群就可以更廣泛地探索和測試它。」該模型的大小也足以在個人電腦和手機上運行,使其在許多場景中都具有潛在用途。
林達華表示,商湯科技開發的這項技術在機器人領域將特別有用。當機器人試圖處理視覺世界時,它需要篩選海量資訊。「它必須思考:『我該如何處理這房間裡所有的雜物?如果我面前有一台複雜的機器,我該按哪個按鈕?』所有這些都是資訊形式,需要整合到模型的內部判斷中,」他說。由於它能原生理解影像,林達華希望商湯科技的技術能幫助機器人在複雜環境中行動更快、出錯更少。
中國正處於人形機器人的熱潮中。雖然商湯科技目前不開發自己的機器人,但林達華表示,公司正與由另一位商湯共同創辦人領導的新創公司加速進化(ACE Robotics)密切合作。該公司還在開發專注於地理空間理解或創建現實世界模擬的模型。
相關文章
其他收藏 · 0