“東方神秘力量” 爆火國產AI大模型背後的年輕人

2025-01-23 01:32:13 來源:南方人物週刊

▲圖/視覺中國

▲圖/視覺中國

2024年歲末,DeepSeek-V3大模型釋出,迅速成為全球人工智慧(AI)領域的焦點,刷屏科技圈,很多人化身“自來水”,在各大社交媒體、科技論壇上發帖討論,不吝溢美之詞。

在全球範圍內的行業基準測試中,DeepSeek-V3達到與Llama 3(開源大模型標杆,由扎克伯格的Meta公司開發)、GPT-4o(OpenAI大模型)相當的水平,闖入了多個AI大模型排行榜單前列。聊天機器人競技場(Chatbot Arena)最新資料顯示,DeepSeek-V3位列開源模型榜第一,在全模型榜單裡排名第七,也是中國模型中排名最高的。更令人詫異的是,DeepSeek-V3模型訓練所消耗的算力,只有Llama的1/11。

DeepSeek-V3轟動AI圈,背後的中國公司深度求索(DeepSeek)也“浮出水面”。矽谷同行稱其為“東方神秘力量”,對DeepSeek團隊表現出濃厚的興趣。而在國內,“雷軍千萬年薪挖角DeepSeek研究員羅福莉”的話題也上了社交平臺熱搜。

不管是AI圈,還是“吃瓜群眾”,都在好奇,DeepSeek-V3大模型的背後,到底是一支什麼樣的團隊?

走出校園不久的年輕人

2024年12月底,有媒體報道,雷軍以千萬年薪招攬一名“天才AI少女”來領導小米的AI大模型團隊。這位95後“少女”名叫羅福莉,過去兩年供職於DeepSeek團隊,曾參與DeepSeek大模型的關鍵研發。

羅福莉在北京大學讀計算語言學碩士期間,曾因在ACL(國際計算語言學協會)學術會議上發表多篇論文而受到關注。畢業後,她進入阿里巴巴達摩院,從事預訓練語言模型相關的工作。2022年加入深度求索母公司幻方量化,之後成為DeepSeek大模型專案成員。

DeepSeek-v3的出現,讓很多人以為,DeepSeek團隊必然有“大牛”坐鎮。但羅福莉走紅卻讓外界發現,真正的“大牛”是那些像她一樣的年輕人。

▲羅福莉 圖/羅福莉個人公眾號

▲羅福莉 圖/羅福莉個人公眾號

2023年5月,DeepSeek-V2釋出,相比於國內外主流大模型,大幅減少了計算量和推理視訊記憶體,一問世就備受關注。做出這一突破性創新的,是年輕的高華佐和曾旺丁等人。

兩人都剛從學校出來沒幾年。高華佐來自廣東,2012年在華南師範大學附屬中學就讀時,曾獲第29屆全國中學生物理競賽一等獎,並於次年保送至北京大學物理學院學習。曾旺丁來自湖南省新化縣,2017年至2023年就讀於北京郵電大學人工智慧學院,碩士期間主要學習人工智慧方向,導師為張洪剛,2018年曾獲全國大學生數學競賽(非數學類)二等獎。

DeepSeek大模型的另一大突破,是透過一種名為GRPO的演算法,創新訓練方法,大大降低了成本。其中的主角,依然是這些看似缺少經驗的年輕人。

核心成員之一邵智宏此前是清華大學互動式人工智慧(CoAI)課題組博士生,主要研究自然語言處理、深度學習,對構建穩健且可擴充套件的AI系統有著獨特見解。他曾服務於微軟研究院,加入DeepSeek團隊之後,參與了多個重要專案的研發,包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。

GRPO演算法創新的另一重要貢獻者是朱琪豪。這位北京大學計算機學院2024屆的博士畢業生,專注於深度程式碼學習研究。在校期間,他展現了驚人的學術能力,發表CCF(中國計算機學會)-A類論文16篇,獲得了軟體工程領域頂級會議(ESEC/FSE)傑出論文獎。他的博士論文《語言定義感知的深度程式碼學習技術及應用》入選了2024CCF軟體工程專業委員會博士學位論文激勵計劃。他在DeepSeek團隊最重要的工作,正是基於自己的博士論文,主導開發DeepSeek大模型的一個關鍵專案。

他的同學代達勱則在更早的時候加入這個團隊,參與了DeepSeek大模型從V1到V3每一代的研發,已經是元老級研發人員,也在學生時代獲得多項論文獎。

▲朱琪豪 圖/北京大學計算機學院公眾號

▲朱琪豪 圖/北京大學計算機學院公眾號

▲代達勱 圖/北京大學計算機學院公眾號

▲代達勱 圖/北京大學計算機學院公眾號

負責DeepSeek大模型訓練及推理基礎架構的,是同樣剛畢業的工程師趙成鋼。加入DeepSeek之前,他曾在英偉達公司實習。趙成鋼在學生時代就取得過令人豔羨的成績。在河北衡水中學就讀時,他是資訊學競賽班成員,2016年獲得全國青少年資訊學奧林匹克競賽銀牌。在清華大學讀大二時,他成為學生超算團隊正式成員,三次獲得世界大學生超算競賽冠軍。

DeepSeek團隊規模並不大,不到140人,工程師和研發人員幾乎都來自清華大學、北京大學、中山大學、北京郵電大學等國內頂尖高校,鮮有“海歸”,而且工作時間都不長,不少還是在讀博士。即便是團隊的管理者,也非常年輕。

吳俁是DeepSeek後訓練團隊的負責人,在進入深度求索之前,只有4年工作經驗。他曾在微軟亞洲研究院工作,參與了小冰(AI聊天機器人)和必應百科專案。他是北京航空航天大學計算機學院2019屆博士。

“我們的核心技術崗位,基本以應屆和畢業一兩年的人為主。”深度求索創始人梁文鋒此前向媒體表示,做一件長期的事,經驗其實沒那麼重要,相比之下基礎能力、創造性和熱愛等更重要。因此,在組建DeepSeek團隊時,他招人的原則是“看能力,而不是看經驗”。他認為,或許目前世界排名前50的頂尖AI人才還不在中國,“但我們能自己打造這樣的人。”

而這些一邊搞研發一邊寫論文的年輕人,也一次又一次帶給他驚喜。

便宜的大模型

DeepSeek大模型釋出之後,便如同一頭年輕的野獸,衝入公眾視野,攪動整個AI圈。

2024年5月,Deepseek-V2推出後,不僅一鳴驚人,還掀起了一場AI大模型價格戰。這款開源模型的推理成本僅為每百萬Token(詞元,語言模型中用數字來表示單詞的最小語義單位,一個漢字約等於兩個詞元)1元人民幣,只有Llama 3的1/7,GPT-4 Turbo(OpenAI最新的語言模型)的1/70。

面對如此巨大的成本差,國內主流大模型不得不“忍痛”降價,包括騰訊、百度、阿里巴巴、位元組跳動等公司相繼更新了價格。僅僅半年之後,Deepseek-V3模型釋出,輸入價格降至0.5元/百萬Token,又推動了新一輪的國產大模型降價潮。2024年12月,位元組跳動下調旗下豆包視覺理解模型輸入價格,相比行業平均水平降低85%。

DeepSeek因此有“價格屠夫”之稱,也有人稱之為“AI界的拼多多”,甚至DeepSeek聊天機器人也用這一稱呼描述自己。

然而,與一些廠商依靠“燒錢”補貼維持低價不同,DeepSeek大模型雖然更便宜,但依然有利潤。“我們只是按照自己的步調來做事,然後核算成本定價。”梁文鋒稱,DeepSeek不小心成了一條“鯰魚”。

Deepseek大模型的“便宜”源於技術的突破。深度求索公佈的資訊顯示,DeepSeek-V3模型全程訓練只用了不到280萬個GPU小時(圖形處理器使用時間),而Meta公司的Llama 3 405B模型訓練時長是3080萬GPU小時。

訓練效率的大幅提升,來自於DeepSeek團隊在模型架構和訓練方法上的創新。

2024年,高華佐和曾旺丁等人在Transformer架構(一種採用“注意力機制”的深度學習模型,2017年由谷歌推出後,成為各類AI大模型的首選架構)的基礎上,用新的MLA(多頭潛在注意力機制)替代了傳統的多頭注意力機制,壓縮資料,把推理視訊記憶體降至此前常用MHA架構的5%-13%;還藉助自研的DeepSeekMoE結構,在保持效能的前提下,極大減少了計算量。這種架構層面的創新,在國內大模型公司中極為罕見。

與此同時,DeepSeek利用演算法,把資料進行總結和分類,經過選擇性處理之後,輸送給大模型,提高了訓練效率。而此前如OpenAI的訓練方法則是“大水漫灌式”,拿海量資料喂,需消耗更多資源。這種訓練方法的創新,也降低了DeepSeek的成本。

深度求索官方資訊顯示,DeepSeek-V3大模型訓練僅耗時不到兩個月,花費了557.6萬美元和2048塊GPU(圖形處理器)。而斯坦福大學HAI研究院釋出的《2024年人工智慧指數報告》預估,OpenAI的GPT-4模型訓練成本約為7800萬美元,GPT-4o則為1億美元;谷歌Gemini Ultra的計算成本為1.91億美元。Meta於2024年7月釋出的開源模型Llama3.1-405B,則消耗了1.6萬塊GPU用於訓練。

DeepSeek-V3的出現,實現了高效能與低成本的平衡,給大模型發展提供了新的可能性。“未來或許不需要超大規模的GPU叢集了。”OpenAI創始成員Andrej Karpathy表示。

也有學術專家認為不宜過高評價DeepSeek-V3的創新,因為其成功更多得益於整合前人已有的技術,缺乏底層原理的創新。

站在“巨人”的肩膀上,DeepSeek團隊也樂意將自己的創新共享給更多人。DeepSeek-V3上線時,深度求索也同步開放原始碼,併發布了53頁論文,將模型的關鍵技術和訓練細節全部分享給外界。

在新技術浪潮中成為創新貢獻者

2023年5月,梁文鋒成立了新公司“深度求索”。他對外宣佈,要做“真正人類級別的人工智慧”。在此之前,他是私募基金“幻方量化”的創始人。

那時候,網上已有傳聞稱,中國持有高效能GPU最多的機構不是人工智慧公司,而是一家量化私募。據《財經》報道,2023年,中國擁有1萬張以上GPU的企業不超過5家,只有幻方量化不是科技“大廠”。

這顛覆了很多人的想法。跟錢打交道的基金經理,為什麼如此執著於人工智慧?

1980年代,梁文鋒出生於廣東一座五線城市。他的父親是一位小學老師,那個時候,常有家長跑到他家,表示“讀書沒用”,不想讓孩子繼續唸書,因為覺得廣東充滿了賺錢的機會。但受父親的影響,梁文鋒對知識一直充滿渴望。

在浙江大學攻讀資訊與電子工程學本科和碩士時,他對人工智慧產生了濃厚的興趣,篤信“人工智慧一定會改變世界”。2008年畢業之後,他和朋友一起做量化投資,嘗試透過數學模型,用計算機程式進行交易。

持續多年在量化投資領域的探索,讓他對技術驅動型創新越發有了信心。2015年,他與校友徐進成立“幻方量化”。後者是浙江大學訊號與資訊處理博士,曾任職於華為技術有限公司上海研究所。他們買了不少GPU,打造研究室,開始嘗試藉助AI技術構建投資策略。這幫助幻方量化在4年時間裡成長為一家管理資金規模過百億的私募公司。

2019年,他們成立了AI公司,投資超過10億元,先後研發了AI超級計算機“螢火一號”和“螢火二號”。其中,“螢火二號”搭載了約1萬張英偉達A100顯示卡,算力超過72萬臺個人電腦。藉助AI超級計算機,幻方量化管理的資產在2021年突破1000億元。

2022年底,ChatGPT的橫空出世讓已經積累多年的梁文峰下定決心做通用人工智慧。“我們建了一個名為深度求索的新公司,從語言大模型開始,後邊也會有視覺等。”實際上,OpenAI公開論文和程式碼後,國內外出現了許多大模型公司。梁文峰認為,在未來20年,大廠和創業公司都有機會。

不過,直到第三代大模型釋出,DeepSeek團隊依然沒有上線相應的應用,尚未全面考慮商業化,而且與多數國產大模型不同,他們選擇了開源路線。

梁文峰向媒體透露,他和團隊的目標並不是做一個應用,而是進行基礎研究,只負責基礎模型和前沿的創新。

在網際網路時代,很多人都會有一種慣性思維,認為歐美科技圈擅長從0到1的技術創新,而中國人更習慣從1到N,在應用層面發力。“很多中國公司習慣follow(跟隨)而不是創新。”梁文峰認為,過去30年,這些企業更強調賺錢,忽視了創新。

他相信中國AI不會“永遠處於跟隨的位置”,希望深度求索以創新貢獻者的身份加入新的技術浪潮之中。“創新首先需要自信。”他說。

24小時熱文

編輯推薦

最新推薦