空間智能的數據難題,或許能在這家企業身上看到機會。
作者| 皮爺
出品|產業家
2018年,一個名為InteriorNet的數據集在海外突然爆火。
爆火源于這是少有由可交互三維數據構成的數據集,也是全球最大室內場景認知深度學習數據集。為什么強調可交互三維數據。因為,在這個數據集之前,已經有不少知名數據集存在,比如李飛飛團隊的ImageNet。但這些數據集多數為靜態或不可交互數據??山换トS數據的海量獲取,在當時和今日都是一道世界難題。
彼時的硅谷科技企業們,正開始探索通過合成數據的方式去訓練智能體,InteriorNet數據集的出現,令他們眼前一亮。不過令人驚訝的是,這個數據集竟出自一家中國企業——群核科技。
第一個遞出橄欖枝的是某硅谷萬億級硬件巨頭,他們發送的郵件甚至一度被群核科技的科學家認定為是詐騙郵件,畢竟誰能相信硅谷巨頭會找到這樣一家杭州的“小公司”呢。團隊幾經驗證才發現這確實是一封來自大洋彼岸的合作郵件。而且此后幾年中,硅谷巨頭們及一批具身智能企業紛紛找到了群核,可交互三維數據這道題,似乎在這里找到了突破口。
說到這里,為什么破題的是這家公司?這得說回到創始人黃曉煌身上。
在美國伊利諾伊大學厄巴納-香檳分校讀博士時,黃曉煌的專業是用GPU來做高性能計算。當時的導師給他的課題是:當未來算力提升1000倍,要研究的方向是什么?當時的選項有兩個,一是模擬人腦的運行,二是模擬物理世界的運行。黃曉煌選擇的是后者,今天被熱議的空間智能便是對物理世界的模擬。
在過去13年的時間里,群核科技一邊堅持這條技術路線,一邊“賺錢養活公司”,跑出了一個群核式的增長飛輪:基于GPU集群,構建一個物理世界模擬器,通過仿真渲染、生產制造等過程應用到各類三維空間的過程中,沉淀了空間認知能力和大量物理正確的三維數據,又把這些空間智能技術再反哺給酷家樂等產品中。
群核的飛輪里,資本寒潮或是技術熱潮似乎影響都并不大,它只是在等一個時代的機會。
一 、硬科技創業的第一要義: 先活下來
一家硬科技公司,想要在中國創業土壤生存下去,是艱難的。尤其是誕生于模式創業盛行期的技術企業,在賽道不清晰且不足以說服資本市場的早期,他們不得不用技術之錘去嘗試各種各樣不同場景。
這一點,黃曉煌體驗真切。
群核科技這家公司成立已有13個年頭,但外界對它的定位卻像盲人摸象,一群人認為它是徹頭徹尾的家裝公司,但另一群人認為它是一家科技公司。背后的原因是群核科技走的并不是一條典型的技術創業路徑:從成立到到成長期都有一個清晰的模式驅動,群核是一家慢慢成長起來的公司,它有自己的技術堅持,也在創造市場需要的產品,重要的是在技術奇點到來之前,它沒讓自己倒下。
“在中國創業沒辦法太陽春白雪,要腳踏實地跟著時代走。”黃曉煌在最近一次分享中提到。
2011年,在NVIDIA負責CUDA開發的黃曉煌正式決定回國創業,創業方向是在博士期間一直鉆研的課題方向:用高性能計算模擬物理世界。但在當時如何同時降低算力成本和提升速度是個難題,于是他有了一個基于云端搭建GPU服務器的想法,基于云端高性能計算,實現仿真渲染。與他一起創業的,還有參加過「友盟」創業團隊的同窗好友陳航、朱皓。
但那時投資圈熱門的概念是移動互聯網、O2O,群核做的項目根本融不到錢。投資人根本不理解GPU 通用計算,更不要提物理仿真。“你們說可以做云端極速渲染,但這在美國都沒有實現,你們憑什么在中國做?”當黃曉煌在硅谷融資時,無一例外都遭到了拒絕。
面對理想和現實的沖突,黃曉煌、陳航、朱皓開始思考,一個能長期走下去的創業故事或者說技術曲線應該是怎樣的?在三個人的共同討論下,先活下去成為中心思想。為了活下來,他們幾經周折找到了一個“愿意為技術買單,也有付費能力”的場景——家裝設計。首先從創業模型來看,這個市場有足夠的容量。在2011年年底,包括自如等互聯網租房平臺相繼成立,家裝O2O的概念正盛,資本市場更容易“buy in”。從技術模型來看,家裝行業的信息壁壘較高,其對應的信息化、智能化水平也相對較低,正好給了新技術一個機會。
基于這個場景,群核推出第一款產品酷家樂,在那個出一張渲染圖要幾小時的年代,酷家樂因為能做到10秒快速渲染被稱為設計神器,并成為這個行業首選的設計軟件。但資本和市場的催化下,2014-2016年那幾年,家裝市場涌現出不少設計軟件。它們都在虎視眈眈盯著酷家樂的市場份額。
逐漸加劇的市場競爭迫使黃曉煌和創始團隊思考將群核的技術優勢往更難被復制的場景延伸:即工業4.0——打通從設計渲染到后端生產的全鏈路。 生產制造跟設計渲染有明顯不同,設計環節要求高效和逼真,生產環節需要的是精準。從技術視角來看看,設計環節還只是停留在數字世界里的模擬,但生產環節需要融合物理仿真、數字孿生等專業技術,通過系統把每一件商品自動拆解成一個個零件的數據,并無縫精準對接到工廠的生產線上。
在這些家裝渲染和工業4.0的摸索發展中,基于酷家樂這款產品的產業實踐,群核科技悄悄沉淀出一個如今看來最為核心的寶貴資產——基于空間智能的可交互三維數據和空間認知理解能力。一個統計數據是,截至目前,群核科技擁有超過3.2億3D模型,平均每月活躍訪問者達7780萬,在全球200多個國家地區落地。
商業化發展的同時,黃曉煌從來沒忘記過那把做世界模擬的技術錘子,群核的夢想可不只是一個酷家樂。在群核還不到200人規模時,它就已經建立第一個Research Lab,這在國內還比較少見。一位早期的員工回憶,“那時候覺得這部門很神秘,跟其他業務之間沒有太多互動,但每年都有在發一些重要論文,所以我們都說它是一個‘發論文的部門’”。一些業務部門的同事有時私下討論:發論文,能干嗎?這個問題,在本文開頭得到了很好的回答。發論文,幫群核等到了那個“Big Moment”。
二 、一家典型的空間智能企業
中國創業公司,大多有個標簽,比如中國版XXX之類,但是群核科技一直沒有。不是不想找,而是無奈沒找到,過去這么多年,因為它在家居場景獲得巨大的成功,因此一直被誤認為是一家“家裝公司”。
對黃曉煌來說,他的技術愿景遠不止于此,如何讓機器擁有類人的空間認知理解能力,并以此探索出更多的空間交互能力,才是他一直以來的夢想。
機會總會留給堅持而有準備的人。這個機會伴隨著“李飛飛“這個名字出現了。
今年溫哥華的TED大會上,人工智能領軍人李飛飛提出空間智能概念。李飛飛所研究的空間智能,包含幾大方向:3D 世界生成、空間理解和推理,以及行動等。這與群核一直以來的技術方向和技術愿景不謀而合。
首先,3D 世界生成技術通過創建高度逼真且遵循物理規律的3D 虛擬空間,為研究空間智能提供了理想的試驗場。
作為一款物理世界模擬器,群核圍繞著GPU渲染能力逐漸形成了一個強大的3D渲染引擎——群核啟真渲染引擎,支持用戶在云端實時生成包含幾何信息、物理參數、材質屬性等信息的3D空間。
基于 AI 技術和渲染技術的結合,群核啟真渲染引擎解決了傳統渲染器無法描述很多物理特性的問題。比如,人物、動物等有機生命體的真實感一直是渲染難點。通過AI寫實增強可有效對畫面光影、色彩進行真實感增強。并且,啟真渲染引擎通過AI算法和大量的數據訓練,可以渲染物理世界 99% 的材質。未來,群核科技可以生成更多領域、更豐富的3D場景,讓空間智能系統更直觀地感知空間信息。
不僅僅是感知,更重要是讓機器能掌握空間理解和推理能力。機器與人不同,人類的空間理解能力是與生俱來的,但機器人對空間的理解和推理能力則是通過計算和算法來實現的。比如在設計場景,過去AI在對設計圖紙進行閱讀時,缺少空間想象力,這是人所獨有的。
群核科技發布的多模態CAD大模型將很好推動這項研究。群核多模態CAD大模型能夠實現對空間更準確和結構化的表述,將物理世界產生的或存在的設計數據翻譯成AI能聽懂的語言,并讓AI自動生成物理正確的空間方案后,群核的幾何參數化引擎、BIM引擎再將方案轉換為標準化的生產和施工信息,最終對接回物理世界的生產施工環節,進一步推動智能制造升級。
舉個例子,在商業空間設計落地應用中,基于群核矩陣CAD引擎能力,用戶只需導入CAD圖紙,系統便能自動識別并生成參數化的空間方案,可精準呈現布局和家具尺寸和銜接落地施工。同時,通過AI識別,CAD圖塊可以直接轉換為成物理正確的模型,支持與生產環節的對接。
輸入CAD圖紙
自動識別并生成參數化的空間方案
空間智能的關鍵一步是推動機器能在三維空間中做交互。故而,具身智能被看作是空間智能的重要應用方向,因為具身智能有支持行動能力的載體。然而,當前AI的交互能力還更多體現數字世界,如何讓機器人進入物理世界做交互,讓機器人如何實現像人類一樣的通用操作能力?比如把人類疊被子、進工廠擰螺絲等。
這就需要建立物理世界與數字世界之間的映射。
三 、成為機器人的訓練道場
要完成數字世界與物理世界之間的映射,需要給機器人提供用來訓練的海量可交互三維數據。但這樣的數據獲取是一道世界難題,也是如今具身智能,以及整個AI大模型方向的困局。
“整個互聯網上能訓練的數據一共就沒有多少T,現在已經快不夠用了。”國內某頭部大模型廠商創始人告訴產業家,“現在大家更多的是用檢索增強來落地B端,C端還是需要基座模型的進化才能突破。”
更清晰的信號來自大洋彼岸。在剛剛連續直播12天的OpenAI對外信號中,盡管人們對于推理、項目管理、AI桌面等產品都保持驚嘆,但還是不少人抱有遺憾的態度:OpenAI并沒有公布GPT-5/4.5的任何信息。
一個真實的聲音是,截至目前,GPT-5的最大難題是訓練數據。
二維數據都難,更不用說是幫助機器更快走進物理世界的三維可交互數據了。
群核科技給這堵墻“打開”了一個口子。同樣是在今年的酷+科技峰會上,群核科技推出新版本的群核空間智能平臺SpatialVerse,基于海量三維模型和場景的空間數據資產,它能為AIGC、具身智能、AR/VR 等企業及科研單位提供多模態物理真實的空間數據資產,包括可交互模型等。
相較于如今正在趨向匱乏的數據,以及在真實場景中獲取數據的路徑,群核科技提供的是海量物理正確的可交互三維數據。相比真實的訓練環境,仿真訓練有極大優勢,包括低成本、高效率、多樣性和可泛化性。
舉個例子,在物理世界里,時空是確定的。從A點走到B點,可能需要十幾分鐘,但是在數字世界就是幾秒鐘。另外,基于合成數據模型,物理世界的一個空間參數可以被延展成多個類似的場景進行訓練,從而實現訓練機器人的舉一反三能力。
準確來說,群核空間智能數據平臺是國內乃至世界唯一一家能實現對室內空間有物理正確認知的平臺。而這種唯一性也更是填補了包括具身智能在內的諸多AI大模型的下一步發展的關鍵數據缺口。一個形象的比喻是,群核空間智能數據平臺將是AI智能體的訓練「道場」。
“合成數據這件事,沒有工具集成與長時間的積累,是很難去做的。”黃曉煌表示。群核空間智能數據平臺并非一日之功。除了在過去多年時間里,群核科技基于家裝場景構建了大量物理正確的3D模型和數據參數之外,更重要是群核在科技上的持續投入。
長期來看,對技術的投入確實很大程度上增強群核的競爭力,以及拓寬它的可能性。群核空間智能平臺的雛形便來自Research Lab的一篇論文探索。也就是文章開頭提到的那篇引起學術界關注的論文。
而也是在這次論文之后,一眾硅谷企業以及國內的具身智能企業紛紛向群核科技拋來合作橄欖枝,群核科技開始從中國認知走向世界認知。
四 、結語
AI聚光燈下,阿里、字節跳動、騰訊等大廠依然在“大象跳舞”,也有一眾新興企業在閃耀光環,比如包括智譜、月之暗面等一眾大模型廠商,正在探索AI大模型的最佳落地場景和適合中國的技術方向。
還有一類硬科技企業,它們在持續研發投入和逐步滿足市場需求的過程中,形成自己的核心壁壘,并在新技術趨勢下迸發出巨大能量。群核科技便是這樣一家企業,基于自身龐大的用戶基礎和應用場景,這家企業在底層引擎驅動下,上層的場景應用可以持續轉化為對企業的真實增量和商業價值,迅速驗證并跑通閉環。
值得一提的是,在群核科技內部,有一個名為“引擎思維”的理念,即在造新車子之前,群核的選擇不是先造外面的“皮”,而是先構建里面的引擎,盡量把核心技術能力引擎化、標準化,不為了解決單一問題而去投入研發。
基于這些被抽離成底層支持的引擎,群核科技長出了像酷家樂這樣的由空間智能技術賦能的產品,同時也將空間智能技術通過群核空間智能平臺,反哺給具身智能等技術賽道的探索。
但構成這種理念的是對技術的篤定,對商業的尊重克制。