爆火國(guó)產(chǎn)AI大模型背后的年輕人

稿源：南方人物周刊 | 作者：南方人物周刊特約撰稿藍(lán)曹日期： 2025-01-20

DeepSeek大模型發(fā)布之后，便如同一頭年輕的野獸，沖入公眾視野，攪動(dòng)整個(gè)AI圈（本文首發(fā)于南方人物周刊）

（視覺(jué)中國(guó)/圖）

2024年歲末，DeepSeek-V3大模型發(fā)布，迅速成為全球人工智能（AI）領(lǐng)域的焦點(diǎn)，刷屏科技圈，很多人化身“自來(lái)水”，在各大社交媒體、科技論壇上發(fā)帖討論，不吝溢美之詞。

在全球范圍內(nèi)的行業(yè)基準(zhǔn)測(cè)試中，DeepSeek-V3達(dá)到與Llama 3（開(kāi)源大模型標(biāo)桿，由扎克伯格的Meta公司開(kāi)發(fā)）、GPT-4o（OpenAI大模型）相當(dāng)?shù)乃?，闖入了多個(gè)AI大模型排行榜單前列。聊天機(jī)器人競(jìng)技場(chǎng)（Chatbot Arena）最新數(shù)據(jù)顯示，DeepSeek-V3位列開(kāi)源模型榜第一，在全模型榜單里排名第七，也是中國(guó)模型中排名最高的。更令人詫異的是，DeepSeek-V3模型訓(xùn)練所消耗的算力，只有Llama的1/11。

DeepSeek-V3轟動(dòng)AI圈，背后的中國(guó)公司深度求索（DeepSeek）也“浮出水面”。硅谷同行稱其為“東方神秘力量”，對(duì)DeepSeek團(tuán)隊(duì)表現(xiàn)出濃厚的興趣。而在國(guó)內(nèi)，“雷軍千萬(wàn)年薪挖角DeepSeek研究員羅福莉”的話題也上了社交平臺(tái)熱搜。

不管是AI圈，還是“吃瓜群眾”，都在好奇，DeepSeek-V3大模型的背后，到底是一支什么樣的團(tuán)隊(duì)？

羅福莉（羅福莉個(gè)人公眾號(hào)/圖）

走出校園不久的年輕人

2024年12月底，有媒體報(bào)道，雷軍以千萬(wàn)年薪招攬一名“天才AI少女”來(lái)領(lǐng)導(dǎo)小米的AI大模型團(tuán)隊(duì)。這位95后“少女”名叫羅福莉，過(guò)去兩年供職于DeepSeek團(tuán)隊(duì)，曾參與DeepSeek大模型的關(guān)鍵研發(fā)。

羅福莉在北京大學(xué)讀計(jì)算語(yǔ)言學(xué)碩士期間，曾因在ACL（國(guó)際計(jì)算語(yǔ)言學(xué)協(xié)會(huì)）學(xué)術(shù)會(huì)議上發(fā)表多篇論文而受到關(guān)注。畢業(yè)后，她進(jìn)入阿里巴巴達(dá)摩院，從事預(yù)訓(xùn)練語(yǔ)言模型相關(guān)的工作。2022年加入深度求索母公司幻方量化，之后成為DeepSeek大模型項(xiàng)目成員。

DeepSeek-v3的出現(xiàn)，讓很多人以為，DeepSeek團(tuán)隊(duì)必然有“大?！弊?zhèn)。但羅福莉走紅卻讓外界發(fā)現(xiàn)，真正的“大?！笔悄切┫袼粯拥哪贻p人。

2023年5月，DeepSeek-V2發(fā)布，相比于國(guó)內(nèi)外主流大模型，大幅減少了計(jì)算量和推理顯存，一問(wèn)世就備受關(guān)注。做出這一突破性創(chuàng)新的，是年輕的高華佐和曾旺丁等人。

兩人都剛從學(xué)校出來(lái)沒(méi)幾年。高華佐來(lái)自廣東，2012年在華南師范大學(xué)附屬中學(xué)就讀時(shí)，曾獲第29屆全國(guó)中學(xué)生物理競(jìng)賽一等獎(jiǎng)，并于次年保送至北京大學(xué)物理學(xué)院學(xué)習(xí)。曾旺丁來(lái)自湖南省新化縣，2017年至2023年就讀于北京郵電大學(xué)人工智能學(xué)院，碩士期間主要學(xué)習(xí)人工智能方向，導(dǎo)師為張洪剛，2018年曾獲全國(guó)大學(xué)生數(shù)學(xué)競(jìng)賽（非數(shù)學(xué)類）二等獎(jiǎng)。

DeepSeek大模型的另一大突破，是通過(guò)一種名為GRPO的算法，創(chuàng)新訓(xùn)練方法，大大降低了成本。其中的主角，依然是這些看似缺少經(jīng)驗(yàn)的年輕人。

核心成員之一邵智宏此前是清華大學(xué)交互式人工智能（CoAI）課題組博士生，主要研究自然語(yǔ)言處理、深度學(xué)習(xí)，對(duì)構(gòu)建穩(wěn)健且可擴(kuò)展的AI系統(tǒng)有著獨(dú)特見(jiàn)解。他曾服務(wù)于微軟研究院，加入DeepSeek團(tuán)隊(duì)之后，參與了多個(gè)重要項(xiàng)目的研發(fā)，包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO算法創(chuàng)新的另一重要貢獻(xiàn)者是朱琪豪。這位北京大學(xué)計(jì)算機(jī)學(xué)院2024屆的博士畢業(yè)生，專注于深度代碼學(xué)習(xí)研究。在校期間，他展現(xiàn)了驚人的學(xué)術(shù)能力，發(fā)表CCF（中國(guó)計(jì)算機(jī)學(xué)會(huì)）-A類論文16篇，獲得了軟件工程領(lǐng)域頂級(jí)會(huì)議（ESEC/FSE）杰出論文獎(jiǎng)。他的博士論文《語(yǔ)言定義感知的深度代碼學(xué)習(xí)技術(shù)及應(yīng)用》入選了2024CCF軟件工程專業(yè)委員會(huì)博士學(xué)位論文激勵(lì)計(jì)劃。他在DeepSeek團(tuán)隊(duì)最重要的工作，正是基于自己的博士論文，主導(dǎo)開(kāi)發(fā)DeepSeek大模型的一個(gè)關(guān)鍵項(xiàng)目。

他的同學(xué)代達(dá)勱則在更早的時(shí)候加入這個(gè)團(tuán)隊(duì)，參與了DeepSeek大模型從V1到V3每一代的研發(fā)，已經(jīng)是元老級(jí)研發(fā)人員，也在學(xué)生時(shí)代獲得多項(xiàng)論文獎(jiǎng)。

負(fù)責(zé)DeepSeek大模型訓(xùn)練及推理基礎(chǔ)架構(gòu)的，是同樣剛畢業(yè)的工程師趙成鋼。加入DeepSeek之前，他曾在英偉達(dá)公司實(shí)習(xí)。趙成鋼在學(xué)生時(shí)代就取得過(guò)令人艷羨的成績(jī)。在河北衡水中學(xué)就讀時(shí)，他是信息學(xué)競(jìng)賽班成員，2016年獲得全國(guó)青少年信息學(xué)奧林匹克競(jìng)賽銀牌。在清華大學(xué)讀大二時(shí)，他成為學(xué)生超算團(tuán)隊(duì)正式成員，三次獲得世界大學(xué)生超算競(jìng)賽冠軍。

DeepSeek團(tuán)隊(duì)規(guī)模并不大，不到140人，工程師和研發(fā)人員幾乎都來(lái)自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國(guó)內(nèi)頂尖高校，鮮有“海歸”，而且工作時(shí)間都不長(zhǎng)，不少還是在讀博士。即便是團(tuán)隊(duì)的管理者，也非常年輕。

吳俁是DeepSeek后訓(xùn)練團(tuán)隊(duì)的負(fù)責(zé)人，在進(jìn)入深度求索之前，只有4年工作經(jīng)驗(yàn)。他曾在微軟亞洲研究院工作，參與了小冰（AI聊天機(jī)器人）和必應(yīng)百科項(xiàng)目。他是北京航空航天大學(xué)計(jì)算機(jī)學(xué)院2019屆博士。

“我們的核心技術(shù)崗位，基本以應(yīng)屆和畢業(yè)一兩年的人為主?！鄙疃惹笏鲃?chuàng)始人梁文鋒此前向媒體表示，做一件長(zhǎng)期的事，經(jīng)驗(yàn)其實(shí)沒(méi)那么重要，相比之下基礎(chǔ)能力、創(chuàng)造性和熱愛(ài)等更重要。因此，在組建DeepSeek團(tuán)隊(duì)時(shí)，他招人的原則是“看能力，而不是看經(jīng)驗(yàn)”。他認(rèn)為，或許目前世界排名前50的頂尖AI人才還不在中國(guó)，“但我們能自己打造這樣的人?！?/p>

而這些一邊搞研發(fā)一邊寫論文的年輕人，也一次又一次帶給他驚喜。

代達(dá)勱（北京大學(xué)計(jì)算機(jī)學(xué)院公眾號(hào)/圖）

便宜的大模型

DeepSeek大模型發(fā)布之后，便如同一頭年輕的野獸，沖入公眾視野，攪動(dòng)整個(gè)AI圈。

2024年5月，Deepseek-V2推出后，不僅一鳴驚人，還掀起了一場(chǎng)AI大模型價(jià)格戰(zhàn)。這款開(kāi)源模型的推理成本僅為每百萬(wàn)Token（詞元，語(yǔ)言模型中用數(shù)字來(lái)表示單詞的最小語(yǔ)義單位，一個(gè)漢字約等于兩個(gè)詞元）1元人民幣，只有Llama 3的1/7，GPT-4 Turbo（OpenAI最新的語(yǔ)言模型）的1/70。

面對(duì)如此巨大的成本差，國(guó)內(nèi)主流大模型不得不“忍痛”降價(jià)，包括騰訊、百度、阿里巴巴、字節(jié)跳動(dòng)等公司相繼更新了價(jià)格。僅僅半年之后，Deepseek-V3模型發(fā)布，輸入價(jià)格降至0.5元/百萬(wàn)Token，又推動(dòng)了新一輪的國(guó)產(chǎn)大模型降價(jià)潮。2024年12月，字節(jié)跳動(dòng)下調(diào)旗下豆包視覺(jué)理解模型輸入價(jià)格，相比行業(yè)平均水平降低85%。

DeepSeek因此有“價(jià)格屠夫”之稱，也有人稱之為“AI界的拼多多”，甚至DeepSeek聊天機(jī)器人也用這一稱呼描述自己。

然而，與一些廠商依靠“燒錢”補(bǔ)貼維持低價(jià)不同，DeepSeek大模型雖然更便宜，但依然有利潤(rùn)?！拔覀冎皇前凑兆约旱牟秸{(diào)來(lái)做事，然后核算成本定價(jià)。”梁文鋒稱，DeepSeek不小心成了一條“鯰魚(yú)”。

Deepseek大模型的“便宜”源于技術(shù)的突破。深度求索公布的信息顯示，DeepSeek-V3模型全程訓(xùn)練只用了不到280萬(wàn)個(gè)GPU小時(shí)（圖形處理器使用時(shí)間），而Meta公司的Llama 3 405B模型訓(xùn)練時(shí)長(zhǎng)是3080萬(wàn)GPU小時(shí)。

訓(xùn)練效率的大幅提升，來(lái)自于DeepSeek團(tuán)隊(duì)在模型架構(gòu)和訓(xùn)練方法上的創(chuàng)新。

2024年，高華佐和曾旺丁等人在Transformer架構(gòu)（一種采用“注意力機(jī)制”的深度學(xué)習(xí)模型，2017年由谷歌推出后，成為各類AI大模型的首選架構(gòu)）的基礎(chǔ)上，用新的MLA（多頭潛在注意力機(jī)制）替代了傳統(tǒng)的多頭注意力機(jī)制，壓縮數(shù)據(jù)，把推理顯存降至此前常用MHA架構(gòu)的5%-13%；還借助自研的DeepSeekMoE結(jié)構(gòu)，在保持性能的前提下，極大減少了計(jì)算量。這種架構(gòu)層面的創(chuàng)新，在國(guó)內(nèi)大模型公司中極為罕見(jiàn)。

與此同時(shí)，DeepSeek利用算法，把數(shù)據(jù)進(jìn)行總結(jié)和分類，經(jīng)過(guò)選擇性處理之后，輸送給大模型，提高了訓(xùn)練效率。而此前如OpenAI的訓(xùn)練方法則是“大水漫灌式”，拿海量數(shù)據(jù)喂，需消耗更多資源。這種訓(xùn)練方法的創(chuàng)新，也降低了DeepSeek的成本。

深度求索官方信息顯示，DeepSeek-V3大模型訓(xùn)練僅耗時(shí)不到兩個(gè)月，花費(fèi)了557.6萬(wàn)美元和2048塊GPU（圖形處理器）。而斯坦福大學(xué)HAI研究院發(fā)布的《2024年人工智能指數(shù)報(bào)告》預(yù)估，OpenAI的GPT-4模型訓(xùn)練成本約為7800萬(wàn)美元，GPT-4o則為1億美元；谷歌Gemini Ultra的計(jì)算成本為1.91億美元。Meta于2024年7月發(fā)布的開(kāi)源模型Llama3.1-405B，則消耗了1.6萬(wàn)塊GPU用于訓(xùn)練。

DeepSeek-V3的出現(xiàn)，實(shí)現(xiàn)了高性能與低成本的平衡，給大模型發(fā)展提供了新的可能性?！拔磥?lái)或許不需要超大規(guī)模的GPU集群了?！監(jiān)penAI創(chuàng)始成員Andrej Karpathy表示。

也有學(xué)術(shù)專家認(rèn)為不宜過(guò)高評(píng)價(jià)DeepSeek-V3的創(chuàng)新，因?yàn)槠涑晒Ω嗟靡嬗谡锨叭艘延械募夹g(shù)，缺乏底層原理的創(chuàng)新。

站在“巨人”的肩膀上，DeepSeek團(tuán)隊(duì)也樂(lè)意將自己的創(chuàng)新共享給更多人。DeepSeek-V3上線時(shí)，深度求索也同步開(kāi)放源代碼，并發(fā)布了53頁(yè)論文，將模型的關(guān)鍵技術(shù)和訓(xùn)練細(xì)節(jié)全部分享給外界。

朱琪豪（北京大學(xué)計(jì)算機(jī)學(xué)院公眾號(hào)/圖）

在新技術(shù)浪潮中成為創(chuàng)新貢獻(xiàn)者

2023年5月，梁文鋒成立了新公司“深度求索”。他對(duì)外宣布，要做“真正人類級(jí)別的人工智能”。在此之前，他是私募基金“幻方量化”的創(chuàng)始人。

那時(shí)候，網(wǎng)上已有傳聞稱，中國(guó)持有高性能GPU最多的機(jī)構(gòu)不是人工智能公司，而是一家量化私募。據(jù)《財(cái)經(jīng)》報(bào)道，2023年，中國(guó)擁有1萬(wàn)張以上GPU的企業(yè)不超過(guò)5家，只有幻方量化不是科技“大廠”。

這顛覆了很多人的想法。跟錢打交道的基金經(jīng)理，為什么如此執(zhí)著于人工智能？

1980年代，梁文鋒出生于廣東一座五線城市。他的父親是一位小學(xué)老師，那個(gè)時(shí)候，常有家長(zhǎng)跑到他家，表示“讀書沒(méi)用”，不想讓孩子繼續(xù)念書，因?yàn)橛X(jué)得廣東充滿了賺錢的機(jī)會(huì)。但受父親的影響，梁文鋒對(duì)知識(shí)一直充滿渴望。

在浙江大學(xué)攻讀信息與電子工程學(xué)本科和碩士時(shí)，他對(duì)人工智能產(chǎn)生了濃厚的興趣，篤信“人工智能一定會(huì)改變世界”。2008年畢業(yè)之后，他和朋友一起做量化投資，嘗試通過(guò)數(shù)學(xué)模型，用計(jì)算機(jī)程序進(jìn)行交易。

持續(xù)多年在量化投資領(lǐng)域的探索，讓他對(duì)技術(shù)驅(qū)動(dòng)型創(chuàng)新越發(fā)有了信心。2015年，他與校友徐進(jìn)成立“幻方量化”。后者是浙江大學(xué)信號(hào)與信息處理博士，曾任職于華為技術(shù)有限公司上海研究所。他們買了不少GPU，打造研究室，開(kāi)始嘗試借助AI技術(shù)構(gòu)建投資策略。這幫助幻方量化在4年時(shí)間里成長(zhǎng)為一家管理資金規(guī)模過(guò)百億的私募公司。

2019年，他們成立了AI公司，投資超過(guò)10億元，先后研發(fā)了AI超級(jí)計(jì)算機(jī)“螢火一號(hào)”和“螢火二號(hào)”。其中，“螢火二號(hào)”搭載了約1萬(wàn)張英偉達(dá)A100顯卡，算力超過(guò)72萬(wàn)臺(tái)個(gè)人電腦。借助AI超級(jí)計(jì)算機(jī)，幻方量化管理的資產(chǎn)在2021年突破1000億元。

2022年底，ChatGPT的橫空出世讓已經(jīng)積累多年的梁文峰下定決心做通用人工智能。“我們建了一個(gè)名為深度求索的新公司，從語(yǔ)言大模型開(kāi)始，后邊也會(huì)有視覺(jué)等?！睂?shí)際上，OpenAI公開(kāi)論文和代碼后，國(guó)內(nèi)外出現(xiàn)了許多大模型公司。梁文峰認(rèn)為，在未來(lái)20年，大廠和創(chuàng)業(yè)公司都有機(jī)會(huì)。

不過(guò)，直到第三代大模型發(fā)布，DeepSeek團(tuán)隊(duì)依然沒(méi)有上線相應(yīng)的應(yīng)用，尚未全面考慮商業(yè)化，而且與多數(shù)國(guó)產(chǎn)大模型不同，他們選擇了開(kāi)源路線。

梁文峰向媒體透露，他和團(tuán)隊(duì)的目標(biāo)并不是做一個(gè)應(yīng)用，而是進(jìn)行基礎(chǔ)研究，只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新。

在互聯(lián)網(wǎng)時(shí)代，很多人都會(huì)有一種慣性思維，認(rèn)為歐美科技圈擅長(zhǎng)從0到1的技術(shù)創(chuàng)新，而中國(guó)人更習(xí)慣從1到N，在應(yīng)用層面發(fā)力。“很多中國(guó)公司習(xí)慣follow（跟隨）而不是創(chuàng)新?！绷何姆逭J(rèn)為，過(guò)去30年，這些企業(yè)更強(qiáng)調(diào)賺錢，忽視了創(chuàng)新。

他相信中國(guó)AI不會(huì)“永遠(yuǎn)處于跟隨的位置”，希望深度求索以創(chuàng)新貢獻(xiàn)者的身份加入新的技術(shù)浪潮之中。“創(chuàng)新首先需要自信。”他說(shuō)。

爆火國(guó)產(chǎn)AI大模型背后的年輕人

走出校園不久的年輕人

便宜的大模型

在新技術(shù)浪潮中成為創(chuàng)新貢獻(xiàn)者

網(wǎng)友評(píng)論