精品国产国产综合精品|亚洲欧美日韩一级在线|日韩国产欧美制服中文|亚洲亚洲大片亚洲一级高清

    • <s id="zrrtk"><nobr id="zrrtk"><ins id="zrrtk"></ins></nobr></s>
      <s id="zrrtk"></s>

        硅谷不眠夜:DeepSeek為何震動美國科技界?

        專題:DeepSeek為何能震動全球AI圈

          來源:?DeepTech深科技

          DeepSeek 給硅谷帶來的震撼還在持續(xù),并不見降溫的跡象。如果和幾個月前的《黑神話·悟空》在歐美受到的追捧相比,DeepSeek 的出現(xiàn)可謂是“石破天驚”,充滿了各種不可能、不合理。它講述了一個如何在層層封 鎖、勁敵環(huán)伺的背景下鐵樹生花的故事,讓美國精心設(shè)置的人工智能技術(shù)小院高墻展現(xiàn)出了坍塌的風(fēng)險。

          “我們正生活在一個特殊的時代:一家非美國公司在真正踐行著 OpenAI 最初的使命——開展真正開放的前沿研究,為所有人賦能。這看似不合常理,但最富戲劇性的往往最可能發(fā)生。”這是英偉達(dá)高級研究科學(xué)家 Jim Fan 在社交媒體上發(fā)出的感慨。

          就在最近,這家一年多前還名不見經(jīng)傳的中國 AI 公司, 這個模型不僅在性能上比肩甚至超越了 OpenAI 的 o1,并完全開源,且以極低的成本實現(xiàn)了這一突破。這一事件迅速觸動了美國科技界的神經(jīng)。

          微軟 CEO Satya Nadella 在達(dá)沃斯世界經(jīng)濟(jì)論壇上直言:“DeepSeek 新模型的表現(xiàn)令人印象深刻,尤其是在模型推理效率方面。我們必須認(rèn)真對待來自中國的這些發(fā)展。”Scale AI 的 CEO Alexandr Wang 甚至將其稱為一款“震撼世界的模型(earth-shattering model)”。“我們發(fā)現(xiàn) DeepSeek...... 的性能與美國最好的模型不相上下。”

          事實上,DeepSeek-R1 的出現(xiàn)確實引發(fā)了硅谷的一場小型地震。沃頓商學(xué)院教授 Ethan Mollick 對 R1 的內(nèi)部思考過程贊嘆不已:“DeepSeek 的原始思維鏈非常迷人。它真的讀起來就像一個人在大聲思考。既迷人又奇特”。著名風(fēng)險投資人、Mosaic 瀏覽器聯(lián)合發(fā)明人馬克·安德森也表示:“DeepSeek R1 是我見過的最令人驚嘆和印象深刻的突破之一,作為開源項目,這是給世界的一份重要禮物。”這種開源精神甚至讓一位軟件工程師將“OGOpenAI.com”域名重定向到了 DeepSeek,以此暗示 DeepSeek 更像早期的 OpenAI,踐行著開源 AI 的理念。

          最直接的沖擊體現(xiàn)在同樣倡導(dǎo)開源的 Meta 上。據(jù)美國匿名職場社區(qū) teamblind 爆料,DeepSeek 的一系列動作已經(jīng)讓 Meta 的生成式 AI 團(tuán)隊陷入恐慌。一位 Meta 員工在帖子中寫道:“工程師們正在瘋狂地分析 DeepSeek,試圖從中復(fù)制任何可能的東西。這一點都不夸張?!备钏麄儞?dān)憂的是,“當(dāng)生成式 AI 組織中的每個‘領(lǐng)導(dǎo)’的薪資都比訓(xùn)練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的‘領(lǐng)導(dǎo)’時,他們要如何面對高層?”

          盡管 Meta 的首席 AI 科學(xué)家 Yann LeCun 強(qiáng)調(diào),這不應(yīng)被解讀為“中國在 AI 領(lǐng)域超越美國”,而是“開源模型正在超越專有模型”。然而,扎克伯格隨后的舉措還是暴露了 Meta 的焦慮:宣布加速研發(fā) Llama 4,計劃投資 650 億美元擴(kuò)建數(shù)據(jù)中心,并部署 130 萬枚 GPU 以“確保 2025 年 Meta AI 成為全球領(lǐng)先模型”。

          艾倫人工智能研究所的研究科學(xué)家 Nathan Lambert 稱,“在這一點上,Meta 絕非個例”他認(rèn)為,R1 的發(fā)布標(biāo)志著推理模型研究的一個重要轉(zhuǎn)折點。在此之前,推理模型一直是工業(yè)研究的重要領(lǐng)域,但缺乏一篇開創(chuàng)性的論文。就像 GPT-2 對預(yù)訓(xùn)練的重要性,或者 InstructGPT 對后訓(xùn)練的影響一樣,我們一直在等待一個推理模型研究的里程碑。Lambert 指出:“推理研究和進(jìn)展現(xiàn)在已經(jīng)鎖定——預(yù)計 2025 年將有巨大的進(jìn)展,而且更多將是公開的?!?/p>

          那么,是什么讓 DeepSeek-R1 如此特別?R1-zero 采用的訓(xùn)練策略證明了僅通過強(qiáng)化學(xué)習(xí)(RL,Reinforcement Learning),無監(jiān)督式微調(diào)(SFT,Supervised Fine-Tun-ing),大模型也可以有強(qiáng)大的推理能力。Hyperbolic 聯(lián)合創(chuàng)始人兼 CTO Yuchen Jin 將這一突破與 AlphaGo 進(jìn)行類比:“就像 AlphaGo 使用純 RL 下了無數(shù)盤圍棋并優(yōu)化其策略以獲勝一樣,DeepSeek 正在使用相同的方法來提升其能力。2025 年可能會成為 RL 的元年。”

          不過,R1-Zero 在可用性方面存在的一些小問題表明,要訓(xùn)練出一個出色的推理模型,需要的不僅僅是大規(guī)模的 RL。

          在 R1-Zero 的基礎(chǔ)上,團(tuán)隊針對 R1 采用了一個四階段的訓(xùn)練方案:首先是對合成推理數(shù)據(jù)進(jìn)行“冷啟動”監(jiān)督微調(diào);其次是對推理問題進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,直到收斂;第三是對 3/4 的推理問題和 1/4 的一般查詢進(jìn)行拒絕采樣,開始向通用模型過渡;最后是混合推理問題和一般偏好調(diào)整的強(qiáng)化學(xué)習(xí)訓(xùn)練。這個過程不僅實現(xiàn)了高效的訓(xùn)練,還保持了模型的可讀性和最終性能。

          圖丨 DeepSeek 采用的 GRPO(Group Relative Policy Optimization)算法框架(來源:arXiv)

          更關(guān)鍵的是,DeepSeek 通過創(chuàng)新性的方法,在有限的計算資源下實現(xiàn)了這些突破。正如微軟 AI 前沿研究實驗室首席研究員 Dimitris Papailiopoulos 所說,R1 最令人驚訝的是其工程簡單性:“DeepSeek 追求準(zhǔn)確的答案,而不是詳細(xì)說明每個邏輯步驟,這顯著減少了計算時間,同時保持了高效率?!?/p>

          盡管 R1 備受關(guān)注,DeepSeek 仍然相對神秘。創(chuàng)立于 2023 年 7 月的 DeepSeek 一直是一家低調(diào)的公司。公司創(chuàng)始人梁文鋒畢業(yè)于浙江大學(xué)信息與電子工程專業(yè),此前創(chuàng)立了管理約 80 億美元資產(chǎn)的對沖基金幻方量化(High-Flyer)。與 OpenAI 的 Sam Altman 類似,梁文鋒的目標(biāo)也是構(gòu)建通用人工智能(AGI)。

          DeepSeek 的成功與其獨(dú)特的發(fā)展策略密不可分。在美國實施芯片出口管制之前,梁文鋒就收購了大量英偉達(dá) A100 芯片。據(jù)有關(guān)媒體報道,公司庫存超過 1 萬塊,而 AI 研究咨詢公司 SemiAnalysis 創(chuàng)始人 Dylan Patel 預(yù)估這個數(shù)量至少是 5 萬塊。這種前瞻性的布局為該公司的技術(shù)突破奠定了基礎(chǔ)。

          更重要的是,面對芯片限制,DeepSeek 將挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機(jī)遇。美國西北大學(xué)計算機(jī)科學(xué)博士生、前 DeepSeek 員工 Zihan Wang 告訴《麻省理工科技評論》:“整個團(tuán)隊熱衷于將硬件挑戰(zhàn)轉(zhuǎn)化為創(chuàng)新機(jī)會?!彼a(bǔ)充說,在 DeepSeek 工作期間,他能夠獲得充足的計算資源并有自由進(jìn)行實驗,“這是大多數(shù)應(yīng)屆畢業(yè)生在任何公司都不會得到的待遇?!?/p>

          這種創(chuàng)新精神體現(xiàn)在效率的提升上。在 2024 年 7 月接受采訪時,梁文鋒承認(rèn)中國公司在 AI 工程技術(shù)方面相對落后:“我們必須消耗兩倍的計算力才能達(dá)到相同的結(jié)果。再加上數(shù)據(jù)效率差距,這可能意味著需要四倍的計算力。我們的目標(biāo)是不斷縮小這些差距?!绷何匿h本人也深度參與研究過程,與團(tuán)隊一起進(jìn)行實驗。

          而 DeepSeek 最終找到了減少內(nèi)存使用和加快計算速度的方法,同時沒有明顯犧牲準(zhǔn)確性。

          實際上,中國公司在這方面已經(jīng)形成了某種共識,他們不僅追求效率,而且也在越來越多地?fù)肀ч_源原則。阿里云已發(fā)布了超過 100 個新的開源 AI 模型,支持 29 種語言,涵蓋編程和數(shù)學(xué)等各種應(yīng)用。據(jù)中國信息通信研究院的白皮書顯示,全球 AI 大語言模型數(shù)量已達(dá) 1,328 個,其中 36% 來自中國,使中國成為僅次于美國的第二大 AI 技術(shù)貢獻(xiàn)國。

          “這一代中國年輕研究者特別認(rèn)同開源文化,因為他們從中獲益良多,”塔夫茨大學(xué)技術(shù)政策助理教授 Thomas Qitong Cao 說。

          卡內(nèi)基國際和平基金會的 AI 研究員 Matt Sheehan 則指出:“美國的出口管制反而逼得中國公司不得不想辦法提高效率,把有限的算力用到極致。考慮到算力短缺,我們可能會看到更多企業(yè)開始抱團(tuán)取暖?!?/p>

          “在 AI 行業(yè)出現(xiàn)一定的分工是很自然的事情,也更節(jié)省資源,”Cao 補(bǔ)充說,“AI 發(fā)展得太快了,中國企業(yè)必須保持靈活才能適應(yīng)?!?/p>

          隨著 DeepSeek 等中國公司在 AI 領(lǐng)域的崛起,全球 AI 競爭格局正在發(fā)生微妙變化。如果中國公司能夠以更低的成本實現(xiàn)同等或更好的性能,而且這些模型還大都開源,美國公司賴以維持的技術(shù)優(yōu)勢和高估值可能會受到挑戰(zhàn)。這種擔(dān)憂已經(jīng)反映在英偉達(dá)等 AI 概念公司的股價上,有分析師甚至指出:“事實上,中國量化基金的一群超級天才將導(dǎo)致納斯達(dá)克崩盤,但目前還沒有人意識到這一點?!?/p>

          不過,現(xiàn)在就高呼“中國 AI 已經(jīng)超越美國”或“遙遙領(lǐng)先”還為時過早。如清華大學(xué)計算機(jī)系長聘副教授劉知遠(yuǎn)所說:“DeepSeek 的突破確實證明了中國 AI 通過有限資源的極致高效利用,實現(xiàn)以少勝多的獨(dú)特優(yōu)勢,中美 AI 差距正在縮小?!?/p>

          但現(xiàn)在還遠(yuǎn)未到“勝券在握”的時候。劉知遠(yuǎn)認(rèn)為:“AGI 新技術(shù)還在加速演進(jìn),未來發(fā)展路徑還不明確。中國仍在追趕階段,已經(jīng)不是望塵莫及,但也只能說尚可望其項背。在別人已經(jīng)探索出的路上跟隨快跑還是相對容易的,接下來如何在迷霧中開拓新路,才是更大的挑戰(zhàn)。”

          從大疆到宇樹,再到當(dāng)紅的 DeepSeek,越來越多的中國科技公司成為美國科技界繞不過去的熱門話題,一方面體現(xiàn)出中國公司在供應(yīng)鏈優(yōu)勢下對成本的極致敏感,這加速了技術(shù)民主化的趨勢;更體現(xiàn)出技術(shù)競爭的魅力,如果切換一下視角則會發(fā)現(xiàn),硅谷這段時間感受到的震撼則是過去兩年中國同行的常態(tài)。

          參考資料:

          1.https://www.technologyreview.com/2025/01/24/1110526/china-deepseek-top-ai-despite-sanctions/

          2.https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

          3.https://www.interconnects.ai/p/deepseek-r1-recipe-for-o1

          4.https://techcrunch.com/2025/01/22/someone-bought-the-domain-ogopenai-and-redirected-it-to-a-chinese-ai-lab/

          5.https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html

        轉(zhuǎn)載原創(chuàng)文章請注明,轉(zhuǎn)載自資陽天行健機(jī)車配件有限公司,原文地址:http://www.yuanzhouxinwen.cn/post/37667.html

        上一篇:A股,熱點突變!

        下一篇:機(jī)構(gòu):2024第三季度全球NAND閃存產(chǎn)業(yè)營收增長4.8%

        評論

        ◎歡迎參與討論,請在這里發(fā)表您的看法、交流您的觀點。