本文來自微信公眾號“峰瑞資本”,經(jīng)授權發(fā)布。
時間處于“被挑戰(zhàn)”的狀態(tài)。2025年,是中國大模型發(fā)展的“破局之年”,DeepSeek橫空出世,撼動了全球大模型賽道的原有格局,也在全球范圍內(nèi)扛起了“開源”大旗。
回望2025年,全球AI行業(yè)步入了一個快速變化的周期。伴隨著模型范式的重構、算力建設的加速,以及應用的分化,世界模型與物理AI的出現(xiàn),讓智能逐漸逼近“可行動”與“可演”。
在這一年,AI產(chǎn)業(yè)的兩條主線格外清晰:一是美國和中國成為驅動全球AI發(fā)展的“雙核”,發(fā)展路徑各有特色;二是端側模型、智能體能力、世界模型等關鍵技術開始加速進入工程化階段,從“能力演示”邁向“系統(tǒng)整合”。
可能有一點遺憾的是,和2023年、2024年一樣,2025年依然是“模型能力提升”與“應用落地阻力”同時出現(xiàn)的年份。模型能力仍在進步,但當行業(yè)關鍵詞從“大模型”轉向“AI+”,也意味著人們對AI的期待已然從一種前沿技術,轉向其在真實世界的落地價值。2025年,AI應用側雖然不乏亮點,但是仍然面臨多重挑戰(zhàn)。
在這份報告里,我們試圖從模型演進、產(chǎn)業(yè)鏈與基礎設施、應用生態(tài)三個角度切入,試圖提供一份來自投資人視角的2025 AI產(chǎn)業(yè)底稿。我們希望回答如下問題:
模型技術的演進正在把行業(yè)推向何處?
AI產(chǎn)業(yè)鏈的上下游正在如何重組?
對 AI 領域的創(chuàng)業(yè)者而言,當下和未來有哪些創(chuàng)新機會,護城河又該如何建構?
這不僅是對AI領域過去一年的發(fā)展回顧,更是對AI發(fā)展走向的思考。2025年接近尾聲,我們也很好奇:
2026年的AI行業(yè)會迎來哪些新變量?
AI+會在哪些領域率先取得大進展?
AI能打破“生產(chǎn)率悖論”嗎?

希望能帶來新的思考角度。我們持續(xù)關注AI賽道的發(fā)展,如果你是AI領域的創(chuàng)業(yè)者或者從業(yè)者,歡迎聯(lián)系本文作者峰瑞資本投資合伙人陳石(chenshi@freesvc.com)


從全球競爭格局來看,美國憑借在算力、算法和人才方面的長期積累,在閉源領域占據(jù)主導地位;在中國,開源成為AI發(fā)展的重要方向。開源既有助于應對AI供應鏈的不確定性和外部制約,也幫助中國在AI競爭中實現(xiàn)了關鍵突破。歐洲等其他地區(qū)雖有布局,但整體仍處于追趕狀態(tài),尚未形成足以影響全局的模型體系。

由此可見,當前AI發(fā)展的主引擎已集中于中美兩國,一方以閉源引領創(chuàng)新邊界,另一方以開源構建生態(tài)縱深。
在大模型陣營中,OpenAI、Anthropic與Google形成“三駕馬車”之勢,各自采取差異化的戰(zhàn)略路徑。
OpenAI的GPT系列模型在綜合能力方面具備優(yōu)勢。它不僅持續(xù)引領技術前沿(如率先引入長鏈推理范式、發(fā)布視頻生成模型等),還通過ChatGPT等產(chǎn)品觸達終端用戶,展現(xiàn)出打造“一站式AI平臺” 的遠景。
與之相比,Anthropic更多地聚焦于專業(yè)場景與垂直應用,如代碼生成、網(wǎng)絡安全等,發(fā)布了Claude系列模型及Claude Code工具。近期Anthropic也在開發(fā)者工具方向與企業(yè)場景中加大投入,試圖搶占應用層先機。
Google的Gemini路線之前似乎更傾向于“全面而均衡”,其模型能力體現(xiàn)在長上下文、多模態(tài)輸入、科研/創(chuàng)意雙重導向等。近半年,Google通過Nano Banana Pro等熱門圖像生成/編輯模型,試圖在垂直創(chuàng)意與圖像生成賽道打開局面,加快形成差異化標簽。
2025年堪稱中國大模型發(fā)展的“破局之年”,其中極具標志性的事件是DeepSeek橫空出世。此前業(yè)界普遍認為中國會“先做應用,后攻模型”,但DeepSeek不僅提前完成了高性能基座大模型的構建,更在全球范圍內(nèi)率先以開源方式復現(xiàn)了具備“長鏈推理”能力的大模型。
尤為關鍵的是,DeepSeek通過創(chuàng)新訓練機制,將推理過程中的Token成本大幅壓縮,實現(xiàn)了在保持高性能的同時,顯著降低部署門檻。這種“低成本,長推理”的范式迅速引爆開發(fā)者社區(qū)。
除DeepSeek外,通義千問(Qwen)和Kimi等國產(chǎn)大模型也已陸續(xù)開源/開放權重,這些大模型正在共同探索一條兼具技術深度與生態(tài)廣度的新型開源路徑。
值得關注的是,開源對中國而言遠不止是技術選擇,或許還是一種系統(tǒng)性戰(zhàn)略。
一方面,由于外部閉源模型難以大規(guī)模進入中國市場,本土開源模型天然獲得了廣闊的應用試驗場。B端或許更愿意采用開源方案,其可微調(diào)、可審計、可定制,正契合對數(shù)據(jù)安全與技術自主的迫切需求。
另一方面,開源還激活了中國龐大的工程師紅利。在算力受限的現(xiàn)實約束下,國家可以將有限的資源集中于少數(shù)優(yōu)質(zhì)開源模型(如DeepSeek、Qwen),實現(xiàn)算力、數(shù)據(jù)與人才的高效協(xié)同。
不同于閉源模型依賴少數(shù)頂尖團隊,開源生態(tài)允許高校、中小企業(yè)乃至個體開發(fā)者在不同模型尺寸上貢獻算法優(yōu)化與應用場景創(chuàng)新。這種“眾人拾柴火焰高”的協(xié)作機制,本質(zhì)上是一種類似科研的開放創(chuàng)新范式——技術細節(jié)透明、成果快速傳播、社區(qū)互相提升,從而形成強大的正向循環(huán)。
然而,開源大模型發(fā)展并非坦途,其商業(yè)模式天然面臨挑戰(zhàn):變現(xiàn)周期長,中短期難以形成規(guī)模化收入,高度依賴大量資金支持與生態(tài)協(xié)同。
一種合理的方案或許是:開源大模型廠商不僅開放模型權重和代碼,也在云端提供基于token的售賣服務——既開源又收費,實現(xiàn)“一魚兩吃”。當前,Qwen和DeepSeek均同時在提供云端服務。但這一模式也面臨強勁的云服務商競爭、利潤空間壓縮、運營成本上升等壓力。
蘋果Apple Intelligence 、Google的Gemini Nano,以及國內(nèi)一些小參數(shù)模型,使端側模型初步具備了落地條件。
端側模型通常以幾億到數(shù)十億參數(shù)量級為主,可實現(xiàn)低延遲響應,其隱私保護能力較強,并且運行成本幾乎可以忽略不計。對模型體系而言,這意味著從“大一統(tǒng)大模型”轉變?yōu)椤霸?端協(xié)同”的多尺寸結構:云端負責復雜推理和跨任務協(xié)作,端側處理即時任務和近場感知。
家庭與辦公場景正在成為端側模型的典型載體,安防攝像頭、家用機器人、家電控制模組、桌面助手都開始依賴本地推理完成視覺理解、設備聯(lián)動和任務執(zhí)行;云端只在需要深度推理時介入。對模型廠商和應用開發(fā)者而言,端側AI不只是部署方式的變化,還是一次新的入口競爭——推理正在從云中心回流到本地環(huán)境之中。
近年來,大模型的發(fā)展已從單一文本能力邁向更復雜、更智能的綜合形態(tài)。當前,四大技術趨勢正重塑行業(yè)格局:原生多模態(tài)融合、推理能力、長上下文窗口與記憶機制,以及智能體能力(Agentic AI)。這些進展不僅提升了模型的基礎能力,而且正在重新定義人機交互的邊界。
過去,多模態(tài)系統(tǒng)通常依賴文本作為中介,例如通過CLIP等模型將圖像、音頻等映射到統(tǒng)一的文本語義空間,再進行處理。這種方式雖有效,但本質(zhì)上仍是以文本為核心,其他模態(tài)處于“被翻譯”的地位。
如今,前沿大模型正轉向原生多模態(tài)架構。所謂“原生”,是指模型在底層設計上就將圖像、語音、文本乃至視頻等多種模態(tài)嵌入同一個共享的向量表示空間,從而使不同模態(tài)間能夠自然對齊、無縫切換,無須經(jīng)過文本中轉,以實現(xiàn)更高效、更一致的理解與生成。
多模態(tài)生成模型也正在進入快速發(fā)展期,從實驗探索階段邁向以實際應用為導向。比如,Sora 2在視頻與音頻生成上實現(xiàn)物理逼真、鏡頭控制、音效同步等突破,Nano Banana Pro在圖像生成與編輯方面向前走了一大步,支持多圖融合、4K輸出、邏輯一致性與多語言文本渲染。
如果說多模態(tài)拓展了模型的感知邊界,那么推理能力則標志著其認知深度的躍升。2025年大模型的一大顯著特征便是“推理能力”正式成為核心標配。
過去,大語言模型主要專注于根據(jù)上下文語境生成文字;如今,趨勢正在改變。
一方面,在訓練階段,模型不再僅僅學習“下一個詞是什么”,而是學習“如何一步步思考”——借助鏈式思維(Chain-of-Thought)、結構化推理數(shù)據(jù)、強化學習微調(diào)等,使模型能拆解復雜問題,逐步推演。
另一方面,在推理階段,模型越來越多地采用“延長思考時間”或“動態(tài)調(diào)用額外計算資源”等機制(即測試時計算/推理時擴展)來提升判斷能力。
因此,如今的先進模型不僅“給你答案”,也“展示它如何思考”,從而提升準確性,增強解釋性,使其在處理復雜任務(如數(shù)學證明、代碼生成、科學推理)時表現(xiàn)更佳。
除了感知與推理,另一個“改變游戲規(guī)則”的進展是長上下文窗口與記憶機制(context + memory)被引入。
傳統(tǒng)的AI對話是一次性的:用戶提問,模型回答,會話結束即被遺忘。新一代模型通過支持超長上下文(如百萬級Token)并結合外部記憶存儲及檢索機制,能夠在多次交互中持續(xù)追蹤用戶身份、項目歷史、目標演變與個人偏好。這意味著AI不再是“不長記性的工具”,而是逐漸成為具備長期認知能力的數(shù)字伙伴。
這種能力對生產(chǎn)力工具、個性化服務和復雜協(xié)作場景尤為重要。例如,在軟件開發(fā)中,AI可記住整個項目的架構與編碼風格;在健康管理中,它能跟蹤用戶長期的癥狀變化。
除了多模態(tài)感知、高級推理與記憶機制,2025年大模型發(fā)展的又一關鍵方向是“智能體能力”。所謂“智能體能力”,是指模型不僅能夠理解和生成內(nèi)容,還能夠主動規(guī)劃、調(diào)用工具、執(zhí)行多步任務,并在一定程度自主決策、與環(huán)境互動。
在這種范式下,AI的角色不再局限于“你問,我答”的問答助手,而是升級為“你定目標,我來完成”的執(zhí)行伙伴。例如,面對一個復雜的任務,模型可自動拆解目標,選擇合適的工具(如數(shù)據(jù)庫查詢或API調(diào)用)、協(xié)調(diào)多個子任務的執(zhí)行順序、監(jiān)控中間結果,并根據(jù)反饋動態(tài)調(diào)整策略,甚至與其他智能體或人類協(xié)同工作。
智能體能力能夠應用的場景比較廣泛:生產(chǎn)力自動化,例如自動生成分析報告、跨平臺調(diào)度任務;企業(yè)流程優(yōu)化,支持跨部門協(xié)作流程的自動編排與執(zhí)行;個性化智能助手,協(xié)助用戶長期管理項目,制訂學習計劃等持續(xù)性目標。
如果把智能體能力與多模態(tài)感知、邏輯推理和長期記憶深度融合,大模型有望構建起“感知—理解—記憶—行動”的完整智能閉環(huán)。
然而,當前智能體能力仍處于早期發(fā)展階段。不少應用還停留在試點或概念驗證階段,其大規(guī)模商業(yè)化落地仍面臨多重挑戰(zhàn),包括工具調(diào)用的穩(wěn)定性、任務流程的可靠編排,以及在治理、責任歸屬和系統(tǒng)可靠性等方面的制度與技術難題。
隨著大模型技術進入深水區(qū),行業(yè)正經(jīng)歷一系列結構性轉變:從訓練重心的遷移,到使用成本的復雜博弈,再到底層架構的多元嘗試。這些變化不僅反映了技術本身的演進,也預示著未來AI發(fā)展路徑的更多可能性。
當前,大語言模型正在經(jīng)歷一場范式轉變:從過去以大規(guī)模預訓練為核心的單一路徑,逐步演進為融合后訓練精調(diào)與運行時計算增強的多階段協(xié)同體系。
正如英偉達CEO黃仁勛所指出的,先進 AI 模型的能力提升正遵循三條相互補充的“規(guī)模法則”:
1、預訓練規(guī)模法則(Pre-training Scaling Law)
通過海量文本數(shù)據(jù)與超大參數(shù)模型,以超大規(guī)模計算資源,構建強大的基礎語言理解與生成能力。這是模型泛化能力的“地基”,決定了其知識廣度與初始性能上限。
2、后訓練規(guī)模法則(Post-training Scaling Law)
在預訓練基礎上,借助監(jiān)督微調(diào)(SFT)、人類反饋強化學習(RLHF)、推理對齊等技術,注入任務導向的行為模式與價值觀對齊。這一階段使模型從“能生成”邁向“會思考、懂協(xié)作、守規(guī)則”。
3、測試時規(guī)模法則(Test-time / Inference-time Scaling Law)
在推理或部署階段,通過增加計算投入,如啟用思維鏈、多步推理、內(nèi)部搜索、自我驗證或工具調(diào)用等機制,讓模型“花更多時間思考”,從而提升模型的準確性與邏輯深度。

在底層架構層面,盡管Transformer依然是絕對主流,最近一年,研究者們也在積極探索多種替代或混合方案,比如:
線性注意力模型(Linear Attention):通過簡化注意力的計算復雜度,在保持性能的同時顯著提升推理速度,已成為輕量化部署的重要方向。
混合注意力機制(Hybrids Attention):結合傳統(tǒng)注意力機制與其他高效模塊(如狀態(tài)空間模型SSM、卷積等),試圖在長序列建模與計算效率之間取得更好的平衡。
文本擴散模型(Text Diffusion Models):借鑒圖像生成中擴散模型的思路,用于語言生成。與Transformer逐詞預測不同,擴散模型可并行預測多個位置,理論上具備更高吞吐效率。2025年,蘋果與俄亥俄州立大學的研究結果顯示,在小參數(shù)規(guī)模下,其生成速度優(yōu)勢明顯。不過,目前尚未被頭部大模型廣泛采用,仍處于探索階段。
此外,一些前沿項目甚至嘗試將世界模型理念融入架構設計,例如通過多模態(tài)感知與動態(tài)模擬來構建環(huán)境內(nèi)部表征。
過去幾年,人工智能的發(fā)展重心主要集中在語言模型與數(shù)字內(nèi)容生成上。AI學會了“閱讀”、“寫作”,甚至能“看圖生成圖像或視頻”。然而,隨著智能駕駛、具身機器人等技術的快速演進,AI正面臨一個更復雜的挑戰(zhàn):它不僅要處理文本和圖像,還必須在現(xiàn)實物理世界中“看見”、“行動”并“理解”環(huán)境。這意味著AI需要真正進入并適應物理世界。
在此背景下,世界模型(World Model)、物理AI(Physical AI)這些新范式逐漸成為行業(yè)焦點。所謂物理AI,是指能夠感知現(xiàn)實環(huán)境,理解物理規(guī)律,并據(jù)此采取有效行動的智能系統(tǒng)。楊立昆(Yann LeCun)、戴密斯·哈薩比斯(Demis Hassabis)等行業(yè)專家表示:“未來真正有價值的AI,將是那些能夠理解并遵守物理規(guī)律的系統(tǒng)。”
世界模型是AI在“腦海中構建的一個微型世界”,它不僅記錄當前通過傳感器獲取的信息(如圖像、聲音、位置等),還能模擬和預測未來狀態(tài):如果執(zhí)行某個動作,環(huán)境將如何變化?
換言之,AI不再只是簡單地從“輸入”映射到“輸出”,而是具備了“內(nèi)部模擬—預演—規(guī)劃”的能力。例如,AI可以先在虛擬環(huán)境中嘗試:“如果我推這把椅子,會發(fā)生什么?”“如果車輛在此時轉彎,是否會失控?”這種“腦內(nèi)預演”機制將提升系統(tǒng)的泛化能力、安全性和長期規(guī)劃水平。
這一機制人類早就有了。正如下圖這幅漫畫所描繪的,人類在騎自行車時并非僅依賴眼前的畫面做決策,還要依靠大腦中持續(xù)更新的“內(nèi)在世界模型”來預測轉彎、碰撞等行為的結果,從而避免在真正摔倒后才意識到危險。
當前物理AI的核心技術路線主要圍繞兩大方向:一是以VLA(視覺語言動作模型)為代表的端到端感知-行動模型,二是以世界模型為核心的環(huán)境建模與預測體系。
VLA是物理AI的重要分支之一,代表了傳統(tǒng)多模態(tài)大模型向行動能力的延伸。它將視覺、語言與動作指令融合,構建“多模態(tài)輸入→動作輸出”的端到端系統(tǒng),適用于“看到+理解指令→立即執(zhí)行”的任務場景。例如,機器人根據(jù)圖文提示完成抓取或搬運操作。這類場景對語義理解能力和跨場景泛化提出了較高要求。
相比之下,世界模型更強調(diào)對環(huán)境的內(nèi)部建模與動態(tài)預測能力。它不僅關注當前感知數(shù)據(jù),還構建包含隱含狀態(tài)、動力學規(guī)律和因果關系的表示體系,使智能體能在“腦中”模擬多種未來情境,并評估不同動作的潛在后果。
當環(huán)境復雜、情境不確定、需要規(guī)劃或適應時,世界模型可能會具備更強的靈活性與魯棒性。但當前世界模型的技術路線尚未成熟,還需要解決仿真與現(xiàn)實差異、物理一致性與長期規(guī)劃穩(wěn)定性等問題。
在應用層面,VLA更適合結構清晰、任務明確、響應迅速的短期操作(如倉儲物流、輔助駕駛),世界模型則更適用于需要深度推理、動態(tài)適應和長期目標導向的復雜任務(如自主導航、多步驟機器人操作、人機協(xié)作等)。
簡而言之,VLA更像“看到就做”,適合穩(wěn)定、結構化的任務;世界模型更像“先想好再做”,適合復雜、多變、需預測與規(guī)劃的場景。
當然,最近也有研究(如World VLA等)表明,VLA與世界模型并不是兩條互斥的路徑,而是可以融合為統(tǒng)一系統(tǒng)。使得 AI/智能體既可以通過視覺+語言直接生成動作 (VLA),也可以借助世界模型預測環(huán)境狀態(tài)與未來變化,從而實現(xiàn)感知—規(guī)劃—執(zhí)行的一體化智能閉環(huán)。
2025年,世界模型領域迎來多項標志性進展。
8月,DeepMind發(fā)布Genie3,展示了通過文本生成可交互3D環(huán)境的能力,被視為“交互式世界生成”的關鍵實驗。
9月,OpenAI推出Sora2,強化了“文本→視頻/物理場景”的生成能力。盡管它并非完整的世界模型,但已初步具備對動作、場景與物理狀態(tài)的聯(lián)合建模能力,可視為邁向世界模型的重要一步。
11月,由李飛飛參與創(chuàng)立的World Labs發(fā)布Marble,支持從文本、圖像、視頻乃至粗略3D布局生成高保真、可編輯的3D世界,被業(yè)界稱為“空間智能基礎設施”的探索。
此外,NVIDIA Isaac Sim作為融合物理AI、高保真仿真與世界模型的關鍵平臺,正日益獲得業(yè)界的廣泛關注。它提供逼真的物理引擎、傳感器模擬與合成數(shù)據(jù)生成能力,為機器人訓練、算法驗證及現(xiàn)實部署前的測試提供了強大支撐。
這些進展或許能夠表明,世界模型的研究與應用正從“視覺/3D 世界構建”起步,有望逐步邁向“仿真—物理環(huán)境—實際系統(tǒng)落地”的階段。
未來,世界模型將朝著三大方向演進:一是可交互性,支持用戶或智能體與虛擬世界動態(tài)互動;二是可規(guī)劃性,具備長期目標導向的推理與行動能力;三是物理一致性,在生成與預測中嚴格遵循物理規(guī)律。
物理AI有望成為機器人、自動駕駛、游戲引擎、數(shù)字孿生等領域的新型基礎設施。隨著多模態(tài)訓練效率提升、輕量化推理技術成熟,世界模型或許將逐步走出實驗室,實現(xiàn)規(guī)模化產(chǎn)業(yè)落地。
在算力基礎設施層面,英偉達的領先地位依然穩(wěn)固,其市值一度突破5萬億美元,成為AI時代最核心的硬件引擎。業(yè)界長期期待的從“單一贏家”向“多極共存”的格局轉變,進展相對緩慢。
多家科技巨頭與新興廠商正積極布局替代方案包括Google的TPU、AMD的Instinct MI芯片、華為昇騰、以及創(chuàng)業(yè)公司推出的專用加速芯片。目前,Google的TPU已在Google Cloud與自家AI基礎設施中實現(xiàn)規(guī)模化部署;AMD MI300系列也被部分數(shù)據(jù)中心和云服務商采用。
但目前,絕大多數(shù)AI服務仍依賴英偉達主導的GPU ,雖然市場上已經(jīng)有可用的替代方案,但它們尚未在全球范圍內(nèi)形成完善的基礎設施生態(tài)。換言之,多元化生態(tài)雖已萌芽,但遠未成熟。
在產(chǎn)業(yè)生態(tài)層面,一個值得關注的現(xiàn)象是:AI行業(yè)正從依賴少數(shù)云廠商支持,轉向多方參與的“循環(huán)式資金支持”模式。
過去,整個生態(tài)主要由微軟、谷歌、亞馬遜等頭部云服務商提供算力與資本支撐。但如今,越來越多的參與者開始反向“輸血”,不僅接受資源,也主動為生態(tài)注入動力。例如,英偉達通過投資、合作與生態(tài)扶持,成為行業(yè)的重要資金與算力輸出方。
這種相互支持、彼此背書的關系,形成了一個復雜的資金與資源的循環(huán)網(wǎng)絡。

資料來源:高盛報告《Top of Mind: AI: in a bubble?》
引人注目的是,這一生態(tài)目前呈現(xiàn)出“雙中心”結構:英偉達代表硬件端,OpenAI代表軟件與模型端,這兩家企業(yè)有些像AI時代的“Intel+Microsoft”,共同構成了驅動整個產(chǎn)業(yè)運轉的“軟硬雙核”。圍繞這兩大核心,眾多企業(yè)通過投資、合作、采購與共建等方式,持續(xù)為生態(tài)注入活力。
然而,如此大規(guī)模的投入也引發(fā)了業(yè)界關于“AI泡沫”的討論。根據(jù)高盛發(fā)布的報告,截至2025年8月,全球AI應用的年度經(jīng)常性收入(ARR)約300億美元。而據(jù)紅杉資本此前估算,若計入全鏈條成本(包括芯片、數(shù)據(jù)中心、人力與研發(fā)),行業(yè)需達到約6000億美元的年收入才能實現(xiàn)合理回報。這意味著當前AI行業(yè)仍存在高達數(shù)千億美元的虧損缺口。
隨著大模型能力的持續(xù)躍升,一個無法回避的問題是:如果絕大部分能力來自模型,那么AI應用的“護城河”是什么?這不僅關乎創(chuàng)業(yè)方向的選擇,也深刻影響著未來AI生態(tài)的權力分配。
以OpenAI為代表的大模型公司正通過雙重定位構建護城河。一方面,它打造“超級助手”,覆蓋日常任務,如日程管理、信息查詢、內(nèi)容生成等,強調(diào)通用性與易用性;另一方面,它塑造“T形人才”形象,在基礎能力之上提供高階技能,比如復雜編程、深度研究和知識整合,展現(xiàn)出專業(yè)級智能。
然而,OpenAI的野心遠不止于此。為了將這種能力真正轉化為用戶黏性和商業(yè)價值,它不僅推出了ChatGPT作為核心交互中樞,還陸續(xù)布局開發(fā)者工具、知識獲取產(chǎn)品(如DeepResearch)、AI搜索,甚至自建算力基礎設施。
OpenAI這樣做,不僅能直連用戶、快速變現(xiàn),還能反哺模型迭代所需的數(shù)據(jù)閉環(huán)。某種程度上,這類似于移動互聯(lián)網(wǎng)時代的“安卓模式”:操作系統(tǒng)廠商通過內(nèi)置核心服務,主導整個生態(tài)的走向。因此,大模型公司并非只想做“技術供應商”,而是希望成為下一代人機交互的入口掌控者。
面對如此強勢的擴張,獨立應用公司是否還有立足之地?答案是肯定的,但前提是必須找準位置。
大模型公司很難包攬所有應用。一方面,為每個垂直場景深度定制模型,將帶來巨大的工程與維護成本;另一方面,許多行業(yè)(如醫(yī)療、金融、法律)對數(shù)據(jù)隱私、合規(guī)性和本地化部署有嚴格要求,通用大模型難以滿足。此外,細分領域的快速迭代需求往往也超出通用平臺的響應速度。
正因如此,真正的機會恰恰存在于大模型邊界之外、具備業(yè)務縱深的垂直領域,也就是那些需要深度行業(yè)理解、復雜工作流整合或強用戶關系沉淀的場景。在這些地方,應用公司不僅能避開正面競爭,還能憑借對場景的深刻洞察構建獨特價值。
那么,創(chuàng)業(yè)者該如何在這一格局中突圍?實踐表明,成功的路徑往往包含三個關鍵策略。
首先,“搶跑”模型能力至關重要。由于大模型的“代際更新”需要時間,創(chuàng)業(yè)者或許可以在某項能力尚未被模型較好地支持時,通過工程手段(如規(guī)則引擎+微調(diào)+工具鏈)在有限場景中率先做到“能用”。一旦模型能力成熟,已有用戶基礎和產(chǎn)品認知的企業(yè)有可能迅速放大優(yōu)勢,形成先發(fā)壁壘。
其次,搭建好足夠靈活的腳手架。應用應盡量采用輕量化、模塊化設計,避免過度依賴特定模型版本的內(nèi)部結構。這樣能在模型持續(xù)升級的過程中保持兼容性,避免因底層變動而被迫大規(guī)模重構。
最后,當大模型的核心能力日趨同質(zhì)化,護城河將更有機會轉向用戶數(shù)據(jù)側。誰能積累更豐富的交互歷史、更精準的偏好畫像、更穩(wěn)定的使用習慣,或許誰就更有可能在競爭中勝出。換句話說,未來的勝負不僅取決于“用了多強的模型”,更取決于“是否真正懂用戶”。
當前,AI應用生態(tài)已初具規(guī)模,涌現(xiàn)出多個代表性品類:大模型效率助手(如ChatGPT)、陪伴型應用(如Character.ai)、AI編程工具(如Cursor、Lovable),以及AI瀏覽器與搜索(如夸克、Perplexity)。

其中,中國團隊的表現(xiàn)尤為亮眼。以夸克為例,根據(jù)美國風投機構a16z今年8月的統(tǒng)計,其全球網(wǎng)頁端訪問量已躋身第九,移動端(僅統(tǒng)計iOS手機客戶端)則位列第47,若計入安卓手機客戶端數(shù)據(jù),排名有望進一步提升。類似地,DeepSeek、字節(jié)、阿里等大廠孵化的應用也在海外市場快速滲透。

不過,亮眼的用戶數(shù)據(jù)并不等同于成熟的商業(yè)收入。根據(jù)高盛發(fā)布的報告,截至2025年8月,中國應用在全球市場中的年化收入大約為15億美元,其中80%以上來自海外市場。
對中國的AI軟件公司而言,這也反映出一個略顯尷尬的現(xiàn)實:在國內(nèi)市場變現(xiàn)仍然艱難。“出海”或許能暫時緩解這個困境,但真正的出路還是要打通ToB、ToC或ToP的商業(yè)路徑,真正把應用落地,讓用戶愿意為價值買單。
AI應用正在逐漸往智能化進階,從被動響應的對話工具,邁向具備目標感與自主性的智能體。
AI應用的發(fā)展軌跡,可以被分為四個階段。
1、對話階段(Chatbot):AI應用以問答形式存在,用戶輸入指令,模型做出回應。
2、Copilot階段:AI成為輔助者,在人類主導下完成特定任務(如代碼補全、文檔潤色),典型代表包括GitHub Copilot、Cursor等。
3、有限智能體階段:AI開始具備初步自主性,可在預設規(guī)則和安全圍欄內(nèi)執(zhí)行多步任務,但仍需人類監(jiān)督。
4、自主智能體階段:未來方向是完全自主運行的智能體,能感知環(huán)境,設定目標,規(guī)劃行動,調(diào)用工具并自我優(yōu)化——更像一個“有生命感”的數(shù)字實體。
如今,不少AI應用都在向智能體方向探索。或許當前智能體能力尚不成熟,但其核心特征已逐漸清晰:不再依賴人類一步步指導,而是能主動理解意圖、拆解任務、調(diào)用外部工具(如Computer Use能力),并形成“規(guī)劃—執(zhí)行—反饋”的閉環(huán)。
伴隨應用形態(tài)的升級,軟件開發(fā)方式也在發(fā)生根本性轉變。
過去,軟件1.0靠手寫代碼,2.0靠利用數(shù)據(jù)訓練模型;今天,AI原生應用的核心工作已轉向“上下文工程”,即動態(tài)編排提示詞、記憶、狀態(tài)與工具調(diào)用,構建一個能讓大模型高效完成任務的信息環(huán)境。

正如研究者安德魯·麥克洛斯基(Andrew McCloskey)所指出,編寫AI應用的本質(zhì)不再是傳統(tǒng)意義上的編程,而是設計一個動態(tài)信息系統(tǒng):在合適的時機,以合適的格式,向模型提供準確的上下文、長期/短期記憶、檢索信息及可用工具。
在AI的加持下,開發(fā)者雖仍會寫代碼,但主要變?yōu)?/span>“與模型多輪對話”,不斷調(diào)整提示策略和內(nèi)容。換言之,未來的軟件工程師,不僅是邏輯架構師,更是“AI協(xié)作導演”,其核心能力在于如何有效引導模型智能,而非僅僅實現(xiàn)功能邏輯。
一句話總結:“上下文工程”就是大模型時代軟硬件應用的“隱形核心代碼”!
盡管技術演進迅猛,AI應用的商業(yè)化落地卻面臨嚴峻挑戰(zhàn)。
MIT Nanda項目團隊的一項研究顯示:盡管全球企業(yè)在生成式AI上已投入300億至400億美元,但高達95%的組織未能獲得可衡量的商業(yè)回報,僅有5%的試點項目創(chuàng)造了實際價值。這一現(xiàn)象被稱作“生成式AI鴻溝”。
為何出現(xiàn)如此巨大的落差?
一是應用場景錯配。當前主流AI工具(如Copilot、客服助手)主要提升個人生產(chǎn)力,容錯率高,見效快,因此被一些企業(yè)試用。但這類工具難以直接轉化為企業(yè)級盈利,因為它們并未嵌入核心業(yè)務流程,缺乏對整體流程的支撐能力。一旦涉及多系統(tǒng)集成、數(shù)據(jù)打通或決策閉環(huán),工具的“脆弱性”便顯現(xiàn)出來。
二是難以捕捉隱性知識。在企業(yè)實際運營中,依賴大量未被文檔化的經(jīng)驗、規(guī)則與“上下文”,當前模型無法有效學習這些“隱性知識”,導致AI輸出與實際需求脫節(jié)。
當前,國內(nèi)AI應用創(chuàng)業(yè)面臨顯著挑戰(zhàn),核心原因之一在于缺乏新的硬件終端。由于沒有類似智能手機這樣的新入口,AI應用只能在用戶現(xiàn)有的手機或電腦生態(tài)中競爭。這樣的結果是,AI應用可能要跟幾乎所有App爭奪用戶的使用時間。
與此同時,中國市場的AI滲透率較高,競爭異常激烈,進一步加劇了生存壓力。
AI應用公司面臨的現(xiàn)實情況是,盡管單位Token的推理成本正在快速下降,但由于大部分情況需要做鏈式推理,Token的調(diào)用量大幅攀升,公司整體支出可能不降反升。這種“成本悖論”已對下游應用公司構成真實壓力。例如,像Cursor這樣的AI編程工具,就曾面臨高推理負載帶來的運營成本挑戰(zhàn)。這也促使行業(yè)重新思考:如何在性能與成本之間取得平衡?
傳統(tǒng)App所依賴的廣告模式也遭遇瓶頸。
過去,互聯(lián)網(wǎng)產(chǎn)品的發(fā)展很大程度上依靠“羊毛出在豬身上”的邏輯:通過免費服務吸引用戶,再以廣告變現(xiàn)。比如,阿里為商家提供廣告展示位獲得收入,騰訊雖有游戲和增值服務支撐,廣告也占較大比例。
但如今,這一模式對AI應用產(chǎn)品來說挑戰(zhàn)重重。一方面,App應用需不斷拉新促活,但獲取用戶的成本越來越高;另一方面,廣告單價普遍不高。在中國,除抖音、淘寶/天貓、微信等頭部App外,大部分軟件的千次廣告展示收入(eCPM)僅10~20元,甚至更低。若用戶高頻使用AI功能,服務成本(也就是消耗的token)可能遠超廣告收益,這個賬可能根本算不過來。
因此當前階段,AI創(chuàng)業(yè)者可能需要優(yōu)先思考廣告模式之外的其他商業(yè)收入模式。除此之外,對中國的AI創(chuàng)業(yè)者來說,也需要積極探索其他路徑,例如轉向海外市場、結合硬件打造閉環(huán)體驗等。
當前,中國AI軟件創(chuàng)業(yè)面臨一些挑戰(zhàn),比如用戶付費意愿較弱、純軟件模式變現(xiàn)困難;若轉向海外市場,則需直面高昂獲客成本與激烈競爭。與此同時,盡管國內(nèi)硬件產(chǎn)業(yè)鏈成熟,但原創(chuàng)性不足,“內(nèi)卷式競爭”較為普遍。
在這樣的背景下,“軟硬結合”或許成為一條值得探索的路徑。
以峰瑞早期投資的BodyPark公司為例,其最初聚焦軟件端,新冠疫情期間推出基于AI的動作捕捉技術,輔助健身教練遠程指導多名學員居家訓練。在此過程中,團隊逐步明確和構建起自己的商業(yè)模式、運營方法,積累了相關核心技術,同時也鍛煉了隊伍。但是如上所述,純軟件的AI應用在中國面臨商業(yè)化的壓力。
后來,BodyPark與一家硬件公司合并,在原有軟件基礎上加入硬件基因,并推出軟硬結合的產(chǎn)品“ATOM”,近期在海外眾籌表現(xiàn)十分亮眼。創(chuàng)始人阿立說:“BodyPark這幾年積累的核心能力,比如AI動捕算法、課程體系、Agent架構、教練SaaS授課工具、真人教練供給體系等等,正是ATOM能快速順利落地的底氣。”
我們從BodyPark的發(fā)展中,得到關于AI應用創(chuàng)業(yè)的三點觀察:
從軟件切入,夯實技術與商業(yè)模式基礎,避免過早陷入硬件的高成本與低壁壘競爭;
在能力積累到臨界點后,再引入硬件載體,實現(xiàn)“軟件定義硬件”的協(xié)同效應;
通過硬件提升用戶體驗與產(chǎn)品感知,拓展服務邊界,構筑更高競爭壁壘。
值得一提的是,軟硬結合并非簡單疊加,而是以軟件能力為內(nèi)核,以硬件為放大器,這或許是中國AI創(chuàng)業(yè)的一條新路徑。
另一個典型的軟硬結合的熱點賽道是智能硬件。中國擁有成熟且高效的消費電子制造鏈,以及完善的芯片/傳感器產(chǎn)業(yè)與供應鏈基礎,這為智能硬件創(chuàng)業(yè)提供了天然優(yōu)勢。再加上近年來AI算法的進步、端側算力的提升與成本的下降,使得有AI賦能的“軟硬一體”智能產(chǎn)品成為可能。
峰瑞在AI硬件方向有較多布局,所投公司陸續(xù)推出的AI智能硬件產(chǎn)品包括零零科技的飛行相機、AeroBand的智能樂器、清智元視的高速攝影機、萌友智能的AI情感陪伴寵物機器人、聲智科技的AI耳機等。
當前大模型的一個局限在于當某一個大模型訓練完成后,參數(shù)就會被“凍結”,無法在部署后自主更新知識。盡管通過長上下文窗口、外部工具調(diào)用和提示工程(即“上下文工程”),模型能在單次交互中“臨時學習”。但這種機制本質(zhì)上仍是靜態(tài)的,所有信息必須在每次對話中重新注入,既低效又受限。
對此,強化學習先驅、圖靈獎得主理查德·薩頓(Richard Sutton)曾提出一種觀點:“Welcome to the Era of Experience.”(歡迎來到經(jīng)驗的時代)。他主張,真正的智能來自與環(huán)境的持續(xù)互動。
這種模式有點兒像人類或者某些動物所展現(xiàn)的“終身學習”的模式,大模型或者智能體在線持續(xù)地學習、感知反饋、自我調(diào)整,甚至動態(tài)改寫自身策略。但目前,這種自主學習的模式可能缺乏成熟的算法框架支持,我們期待2026年算法層面會有新的變化,模型的智能能夠進一步提升。
回顧歷史,前兩次工業(yè)革命帶來了全要素生產(chǎn)率的長期躍升。相比之下,盡管計算機與互聯(lián)網(wǎng)在過去幾十年無處不在,卻似乎未能顯著提升宏觀生產(chǎn)率數(shù)據(jù),這一現(xiàn)象被稱為“索洛生產(chǎn)率悖論”。
為什么會這樣?其中一種解釋是:信息技術主要優(yōu)化了信息傳遞效率,而非直接替代人類的核心智力勞動。它連接了世界,但未真正“解放”生產(chǎn)力。
AI的出現(xiàn)可能正在改變這一局面。當大模型承擔越多越多的智力工作(比如編程、法律分析),當機器人逐步接管體力任務(比如搬運、危險場所勘探),人類或許會實現(xiàn)對智力與體力的雙重解放。這種變革若能滲透至制造、能源、科研等關鍵領域,或許能夠推動全要素生產(chǎn)率的提升。
當然,這一進程可能也伴隨一些挑戰(zhàn)。當效率提升了,GDP總量增長了,但大量勞動力被替代,就業(yè)結構與收入分配將面臨劇烈調(diào)整。我們需要持續(xù)關注,AI是否會加劇失業(yè)或不平等。
在過去的2023年、2024年這兩年,AI領域的資金主要被三大方向吸納——大模型、算力/芯片與具身智能,以及相關基礎設施項目。這一階段,投資邏輯更多基于技術敘事,即“技術能否突破”及“誰能在模型、芯片或智能機器人范疇搶得先機”。
然而,隨著市場逐步走向理性、資金回籠期的延長,以及AI行業(yè)邁進應用落地的階段,投資者的關注焦點正在發(fā)生轉變。相比于單純的“技術敘事”,投資者也開始在乎項目的“商業(yè)模式基本面”:項目是否具備真實競爭壁壘?是否有清晰且可持續(xù)的經(jīng)濟模型?用戶切換成本是否較高?是否具備規(guī)模效應或網(wǎng)絡效應?能否通過數(shù)據(jù)積累、用戶反饋、閉環(huán)機制構建“數(shù)據(jù)飛輪”?
對創(chuàng)業(yè)者而言,這意味著只講“我們有最先進的模型”“技術領先”已不夠,你必須拿出一個能穿越模型迭代周期、在實戰(zhàn)中能站穩(wěn)腳跟的商業(yè)結構,包括可復制的產(chǎn)品化路徑、可預見的收入模式,以及穩(wěn)定增長的用戶體系,等等。簡而言之,從“我們能做什么”轉向“我們怎么賺錢并持續(xù)增長”。
縱觀2025年的AI行業(yè),我們看到的是技術加速、產(chǎn)業(yè)重構、商業(yè)模式尚未定型的多重疊加。
進入2026年,行業(yè)的關鍵變量將不再是“模型能力能否再推高一個層級”——拼模型規(guī)模的時代或許已經(jīng)結束。接下來,影響AI未來走向的關鍵議題包括:
AI能否實現(xiàn)在線持續(xù)學習,突破“凍結參數(shù)”帶來的結構性限制;
AI能否真正進入物理世界,成為具身智能、機器人、自動駕駛等領域的新型基礎設施;
AI應用能否在善用模型能力的同時和模型保持距離,在特定領域構建自己的壁壘,而非困于短期成本壓力與高昂獲客困境。
整體而言,AI是一條長坡厚雪的賽道。正如那句穿越周期的箴言所言:“人們總是高估技術的短期影響,而低估其長期潛力。”
當前,中國的AI行業(yè)正走出一條獨特的路徑:以開源模型突破技術封鎖,以應用出海打開市場空間。這條路并不容易,既需要耐心,也需要定力。如果我們能以自主研發(fā)的大模型為智能源頭,AI賦能千行百業(yè)(包括AI軟件、智能硬件、自動駕駛、具身智能)就不再只是遠景,而是正在展開的現(xiàn)實。
封面圖片:Illustration by VectorElements on Unsplash