日产精品久久久久婷婷,国产精品1区,超碰95资源站,乱码Av一区二区三区,懂色蜜偷拍,亚洲69精品,精品久久久污污,亚洲成人人体久久久,欧美色图五月天

報(bào)告服務(wù)熱線400-068-7188

DeepSeek連開(kāi)三源,解開(kāi)訓(xùn)練省錢之謎

分享到:
20 直面派 ? 2025-02-27 14:00:58  來(lái)源:直面AI E10647G0

作者|畢安娣 來(lái)源|直面AI(ID:wujicaijing)

“DeepSeek有效地駁斥了頻繁出現(xiàn)的在訓(xùn)練方面‘他們?nèi)鲋e了’的言論。”

舊金山人工智能行業(yè)解決方案提供商 Dragonscale Industries 的首席技術(shù)官 Stephen Pimentel在X上如是評(píng)論DeepSeek“開(kāi)源周”。

“是的。以及關(guān)于5萬(wàn)張H100的虛假傳聞(也被駁斥了)……”全球咨詢公司DGA Group合伙人、中美技術(shù)問(wèn)題專家Paul Triolo也附和道。

1

DeepSeek“開(kāi)源周”從2月24日至2月28日,共持續(xù)5天。會(huì)陸續(xù)開(kāi)源5個(gè)項(xiàng)目。

過(guò)去三天的開(kāi)源項(xiàng)目分別是:

l Day1:FlashMLA,針對(duì)英偉達(dá)Hopper架構(gòu)GPU的高效MLA(多頭潛在注意力)解碼內(nèi)核;

l Day2:DeepEP,首個(gè)用于MoE(混合專家)模型訓(xùn)練和推理的開(kāi)源EP(專家并行)通信庫(kù);

l Day3: DeepGEMM,支持稠密和MoE模型的FP8計(jì)算庫(kù),可為V3/R1的訓(xùn)練和推理提供強(qiáng)大支持。

剛進(jìn)行到第三天,“開(kāi)源周”已經(jīng)讓懷疑DeepSeek在訓(xùn)練成本上“撒謊”的人噤聲了。因?yàn)槊總€(gè)開(kāi)源項(xiàng)目都在向世界展示DeepSeek極致壓榨英偉達(dá)芯片的功力。

還有什么比“貼臉開(kāi)大”更能打敗質(zhì)疑的呢?

我們先來(lái)看看DeepSeek最新開(kāi)源的DeepGEMM,只能說(shuō),在壓榨英偉達(dá)芯片、AI性能效率提高這方面,DeepSeek已經(jīng)出神入化。

這是當(dāng)初團(tuán)隊(duì)專門給V3模型用的,現(xiàn)在就這么水靈靈地開(kāi)源了,要不怎么說(shuō)DeepSeek的誠(chéng)意實(shí)在感人呢。

在GitHub上發(fā)布不到10個(gè)小時(shí),就已經(jīng)有2.6千個(gè)星星了。要知道一般來(lái)說(shuō),在GitHub上獲得幾千星星就已經(jīng)算很成功了。

1

“DeepGEMM像是數(shù)學(xué)領(lǐng)域的超級(jí)英雄,快過(guò)超速計(jì)算器,強(qiáng)過(guò)多項(xiàng)式方程。我嘗試使用DeepGEMM時(shí),現(xiàn)在我的GPU在計(jì)算時(shí)以每秒超過(guò)1350 TFLOPS(萬(wàn)億次浮點(diǎn)運(yùn)算)的速度運(yùn)轉(zhuǎn),好像已經(jīng)準(zhǔn)備好參加AI奧運(yùn)會(huì)了!”一位開(kāi)發(fā)者興奮地在X上表示。

1

DeepSeek新開(kāi)源的DeepGEMM究竟是什么、意味著什么?

DeepSeek官方介紹DeepGEMM是一個(gè)支持密集型和MoE 模型的FP8 GEMM庫(kù):

l 無(wú)重度依賴,像教程一樣簡(jiǎn)潔;

l 完全JIT(即時(shí)編譯)

l 核心邏輯約300行代碼,在大多數(shù)矩陣尺寸下優(yōu)于經(jīng)過(guò)專家調(diào)優(yōu)的內(nèi)核

l 同時(shí)支持密集布局和兩種MoE布局

一句話定義:DeepGEMM是一款專注于FP8高效通用矩陣乘法(GEMM)的庫(kù),主要滿足普通矩陣計(jì)算以及混合專家(MoE)分組場(chǎng)景下的計(jì)算需求。

利用該庫(kù),能夠動(dòng)態(tài)優(yōu)化資源分配,從而顯著提升算力效率。

在深度學(xué)習(xí)中,F(xiàn)P8(8位浮點(diǎn)數(shù))可以減少存儲(chǔ)和計(jì)算的開(kāi)銷,但是缺點(diǎn)(特點(diǎn))也有,那就是精度比較低。如果說(shuō)高精度格式是無(wú)損壓縮,那FP8就是有損壓縮。大幅減少存儲(chǔ)空間但需要特殊的處理方法來(lái)維持質(zhì)量。而由于精度低,就可能產(chǎn)生量化誤差,影響模型訓(xùn)練的穩(wěn)定性。

在報(bào)告中DeepSeek介紹:“目前,DeepGEMM僅支持英偉達(dá)Hopper張量核心。為了解決FP8張量核心積累的精度問(wèn)題,它采用了CUDA核心的兩級(jí)積累(提升)方法。”

而DeepSeek為了讓FP8這種速度快但精度偏低的計(jì)算方式變得更準(zhǔn)確,利用了CUDA核心做了兩次累加,先用FP8做大批量乘法,然后再做高精度匯總,以此防止誤差累積。既大幅減少空間,同時(shí)又保有精度,效率也就由此提升。

JIT(即時(shí)編譯)和Hooper張量核心也是絕配。

Hopper張量核心是專門為高效執(zhí)行深度學(xué)習(xí)任務(wù)而設(shè)計(jì)的硬件單元,而JIT則意味著允許程序在運(yùn)行時(shí)根據(jù)當(dāng)前硬件的實(shí)際情況,動(dòng)態(tài)地編譯和優(yōu)化代碼。比如,JIT編譯器可以根據(jù)具體的GPU架構(gòu)、內(nèi)存布局、計(jì)算資源等實(shí)時(shí)信息來(lái)生成最適合的指令集,從而充分發(fā)揮硬件性能。

最最最驚人的是,這一切,都被DeepSeek塞進(jìn)了約300行代碼當(dāng)中。

DeepSeek自己也說(shuō):“雖然它借鑒了一些CUTLASS和CuTe的概念,但避免了對(duì)它們模板或代數(shù)的過(guò)度依賴。相反,該庫(kù)設(shè)計(jì)簡(jiǎn)單,只有一個(gè)核心內(nèi)核函數(shù),代碼大約有300行左右。這使得它成為一個(gè)簡(jiǎn)潔且易于學(xué)習(xí)的資源,適用于學(xué)習(xí)Hopper FP8矩陣乘法和優(yōu)化技術(shù)。”

CUTLASS是英偉達(dá)自家的CUDA架構(gòu),專門給英偉達(dá)GPU來(lái)加速矩陣計(jì)算。畢竟官方出品,它的確非常好用。但它同時(shí)也很大很沉,如果手里的卡不太行,那還真不一定跑得了。

吃不上的饅頭再想也沒(méi)用啊,而DeepSeek的極致壓榨哲學(xué)就在這里閃爍光芒了。優(yōu)化更激進(jìn)、更聚焦,也更輕。

輕的同時(shí)表現(xiàn)也很好,在報(bào)告中,DeepSeek表示,DeepGEMM比英偉達(dá)CLUTLASS 3.6的速度提升了2.7倍。

1

還記得DeepSeek在春節(jié)時(shí)大火,人們使用后都在為其“科技浪漫”風(fēng)觸動(dòng)不已。

如今看來(lái),DeepSeek的“科技浪漫”絕不僅僅在最終呈現(xiàn)給用戶的文字當(dāng)中,DeepGEMM就像一把鋒利的小刀,在英偉達(dá)芯片上雕出漂亮的小花,線條簡(jiǎn)潔又優(yōu)雅。

不僅是DeepGEMM,DeepSeek前兩個(gè)開(kāi)源項(xiàng)目也將其“科技美學(xué)”體現(xiàn)得淋漓盡致。

第一天,DeepSeek開(kāi)源了FlashMLA。

用DeepSeek的話說(shuō),這是“用于Hopper GPU的高效MLA解碼內(nèi)核,針對(duì)可變長(zhǎng)度序列進(jìn)行了優(yōu)化。”

略過(guò)技術(shù)細(xì)節(jié),我們來(lái)看看FlashMLA如何發(fā)揮作用。

首先,在大型語(yǔ)言模型推理時(shí),高效的序列解碼對(duì)于減少延遲和提高吞吐量至關(guān)重要。FlashMLA針對(duì)變長(zhǎng)序列和分頁(yè)KV緩存的優(yōu)化,使其非常適合此類任務(wù)。

其次,像聊天機(jī)器人、翻譯服務(wù)或語(yǔ)音助手等應(yīng)用需要低延遲響應(yīng)。FlashMLA的高內(nèi)存帶寬和計(jì)算吞吐量確保這些應(yīng)用能夠快速高效地返回結(jié)果。

以及,在需要同時(shí)處理多個(gè)序列的場(chǎng)景(如批量推理)中,F(xiàn)lashMLA能夠高效地處理變長(zhǎng)序列并進(jìn)行內(nèi)存管理,從而確保最佳性能。

最后,研究人員在進(jìn)行新的AI模型或算法實(shí)驗(yàn)時(shí),可以使用FlashMLA加速實(shí)驗(yàn)和原型開(kāi)發(fā),尤其是在處理大規(guī)模模型和數(shù)據(jù)集時(shí)。

還是兩個(gè)字:壓榨。在報(bào)告當(dāng)中,DeepSeek表示,這個(gè)工具專門針對(duì)英偉達(dá)H800做優(yōu)化——在H800 SXM5平臺(tái)上,如內(nèi)存受限最高可以達(dá)到3000GB/s,如計(jì)算受限可達(dá)峰值580 TFLOPS。

第二天,DeepSeek開(kāi)源了DeepEP。

用DeepSeek的話說(shuō),這是“首個(gè)用于 MoE 模型訓(xùn)練和推理的開(kāi)源 EP 通信庫(kù)”。

MoE即混合專家(Mixture of Experts),這種架構(gòu)利用多個(gè)“專家”子模型來(lái)處理不同的任務(wù)。和使用單一大模型處理所有任務(wù)不同,MoE根據(jù)輸入選擇性地激活一部分專家,從而使模型更高效。

順帶一提,MoE和前文提到的MLA(多頭潛在注意力)正是DeepSeek所使用的降低成本的關(guān)鍵先進(jìn)技術(shù)。

而DeepEP當(dāng)中的EP則是指專家并行(Expert Parallelism),是MoE中的一種技術(shù),讓多個(gè)“專家”子模型并行工作。

DeepEP這個(gè)庫(kù),可以在加速和改善計(jì)算機(jī)(或GPU)之間在處理復(fù)雜機(jī)器學(xué)習(xí)任務(wù)時(shí)的通信,特別是在涉及混合專家(MoE)模型時(shí)。這些模型使用多個(gè)“專家”(專門的子模型)來(lái)處理問(wèn)題的不同部分,而DeepEP確保數(shù)據(jù)在這些專家之間快速而高效地傳遞。

就像是機(jī)器學(xué)習(xí)系統(tǒng)中一個(gè)聰明的交通管理員,確保所有“專家”能夠按時(shí)收到數(shù)據(jù)并協(xié)同工作,避免延遲,使系統(tǒng)更加高效和快速。

假設(shè)你有一個(gè)大型數(shù)據(jù)集,并且想讓不同的模型(或?qū)<遥┨幚頂?shù)據(jù)的不同部分,DeepEP會(huì)將數(shù)據(jù)在合適的時(shí)機(jī)發(fā)送給正確的專家,讓他們無(wú)需等待或造成延遲。如果你在多個(gè)GPU(強(qiáng)大的處理器)上訓(xùn)練機(jī)器學(xué)習(xí)模型,你需要在這些GPU之間傳遞數(shù)據(jù)。DeepEP優(yōu)化了數(shù)據(jù)在它們之間的傳輸方式,確保數(shù)據(jù)流動(dòng)迅速而順暢。

即便你不是一個(gè)開(kāi)發(fā)者,對(duì)以上內(nèi)容并不完全理解,也能從中讀出兩個(gè)字來(lái):高效。

這正是DeepSeek開(kāi)源周所展現(xiàn)的核心實(shí)力——這家公司究竟是怎樣最大化利用有限的資源的。

自從DeepSeek開(kāi)啟開(kāi)源周,就不怎么見(jiàn)到此前對(duì)其發(fā)出質(zhì)疑的人再有什么評(píng)論了。

正如本文開(kāi)頭引用Pimentel的辣評(píng):“DeepSeek有效地駁斥了頻繁出現(xiàn)的在訓(xùn)練方面‘他們?nèi)鲋e了’的言論。”

在去年12月關(guān)于V3的技術(shù)報(bào)告中,DeepSeek表示該模型使用了大約2000塊英偉達(dá)H800進(jìn)行訓(xùn)練,成本約為600萬(wàn)美元。這個(gè)成本遠(yuǎn)低于規(guī)模更大的競(jìng)爭(zhēng)對(duì)手,后者動(dòng)輒就是幾十億、上萬(wàn)億美元的投入,OpenAI甚至在DeepSeek的R1模型走紅前,剛剛和甲骨文、軟銀攜手宣布了5000億美元的合資項(xiàng)目。

這也引發(fā)了對(duì)DeepSeek在開(kāi)發(fā)成本方面誤導(dǎo)公眾的指控。

持有懷疑態(tài)度的包括但不限于Anthropic創(chuàng)始人達(dá)里奧·阿莫迪(Dario Amodei)、Oculus VR的創(chuàng)始人帕爾默·盧基(Palmer Luckey)。Oculus已經(jīng)被Meta收購(gòu)。

盧基就稱,DeepSeek的預(yù)算是“虛假的”,而阿莫迪干脆撰寫檄文呼吁美國(guó)加強(qiáng)芯片出口管制,指責(zé)DeepSeek“偷偷”用了大量更先進(jìn)的芯片。

這些批評(píng)聲并不相信DeepSeek自己的表態(tài)——DeepSeek 在其技術(shù)報(bào)告中表示,高效訓(xùn)練的秘訣是多種創(chuàng)新的結(jié)合,從MoE混合專家架構(gòu)到MLA多頭潛在注意力技術(shù)。

如今,DeepSeek開(kāi)源周零幀起手,就從這些技術(shù)的深度優(yōu)化方面做開(kāi)源。

Bindu Reddy在X上表達(dá)振奮的心情:“DeepSeek正在圍繞MoE模型訓(xùn)練和推理開(kāi)源極高效的技術(shù)。感謝DeepSeek,推動(dòng)AGI的發(fā)展,造福全人類。”Reddy曾在谷歌擔(dān)任產(chǎn)品經(jīng)理、在AWS擔(dān)任人工智能垂直領(lǐng)域總經(jīng)理并,后創(chuàng)辦Abacus AI,是開(kāi)源路線的信仰者。

1

有媒體評(píng)論道:“對(duì)于熱愛(ài)人工智能的人來(lái)說(shuō),F(xiàn)lashMLA就像一股清新的空氣。它不僅關(guān)乎速度,還為創(chuàng)造力和協(xié)作開(kāi)辟了新途徑。”

在Github相關(guān)開(kāi)源項(xiàng)目的交流區(qū),不僅有技術(shù)交流,也有不少贊美之聲,甚至有中文的“到此一游”打卡貼。在中文互聯(lián)網(wǎng)上,人們已經(jīng)開(kāi)始把DeepSeek稱為“源神”。

1

DeepSeek有自己的難題嗎?當(dāng)然有,比如商業(yè)化這個(gè)老大難問(wèn)題,DeepSeek或許也得面對(duì)。但在那之前,它先將壓力給到了對(duì)手。

同樣是在Github的交流區(qū),不少人想起了OpenAI,將DeepSeek稱為“真正的OpenAI”。OpenAI已經(jīng)走上閉源之路好幾年,甚至被戲稱為“CloseAI”,直到DeepSeek出現(xiàn),OpenAI的CEO山姆·奧特曼(Sam Altman)才終于松口,稱在開(kāi)源/閉源的問(wèn)題上,自己或許站在了歷史錯(cuò)誤的一邊。

一周前,他曾經(jīng)在X上發(fā)起投票,詢問(wèn)粉絲希望OpenAI的下一個(gè)開(kāi)源項(xiàng)目是什么類型的。

不過(guò)到目前為止,這一切都還在承諾中,并未見(jiàn)之于世。

另一邊,馬斯克的xAI,仍然在新一代發(fā)布時(shí),開(kāi)源上一代大模型。剛剛發(fā)布了Grok 3,宣布會(huì)開(kāi)源Grok 2。

與此同時(shí),DeepSeek的開(kāi)源周,讓更多人擔(dān)心起英偉達(dá),這個(gè)在AI浪潮中最大的受益者之一。

有人看著DeepSeek的開(kāi)源項(xiàng)目一個(gè)接一個(gè)發(fā)布,在X上表示:“這是第三天看到我的英偉達(dá)股票正在火上烤。”

北京時(shí)間2月27日,既是DeepSeek開(kāi)源周的第四天,是OpenAI放出開(kāi)源信號(hào)的第九天,也是英偉達(dá)財(cái)報(bào)發(fā)布的日子。

OpenAI的開(kāi)源項(xiàng)目會(huì)來(lái)嗎?英偉達(dá)的股價(jià)能穩(wěn)住嗎?DeepSeek還將開(kāi)源什么?人工智能戰(zhàn)場(chǎng)上,總是不缺少令人期待答案的問(wèn)號(hào)。

編者按:本文轉(zhuǎn)載自微信公眾號(hào):直面AI(ID:wujicaijing),作者:畢安娣 

本文來(lái)源直面AI,內(nèi)容僅代表作者本人觀點(diǎn),不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p19 q0 我要投稿

分享:
標(biāo)簽: DeepSeek 開(kāi)發(fā)者

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J
三亚市| 万宁市| 永吉县| 河南省| 赣榆县| 新河县| 岫岩| 铜梁县| 驻马店市| 罗源县| 汽车| 昭平县| 金寨县| 汽车| 县级市| 滨海县| 黄龙县| 临清市| 大城县| 阳朔县| 讷河市| 勐海县| 凌源市| 丹巴县| 永安市| 云南省| 江山市| 望谟县| 运城市| 永兴县| 石景山区| 忻城县| 土默特右旗| 金坛市| 丹巴县| 太原市| 政和县| 威信县| 南涧| 旌德县| 双流县|