您的位置: 首頁(yè) > 新聞 > 電腦配件 > 新聞詳情

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

時(shí)間:2024-03-19 17:26:58
  • 來(lái)源:快科技
  • 作者:上方文Q
  • 編輯:liyunfei

今天(3月19日)凌晨,黃仁勛正式拿出了新一代Blackwell GPU架構(gòu),以及基于此的B100/B200 GPU芯片、GB200超級(jí)芯片、DGX超級(jí)計(jì)算機(jī),再次將“戰(zhàn)術(shù)核彈”提升了全新的境界,傲視全球。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

Blackwell B200 GPU首次采用了chiplet晶粒封裝,包含兩顆B100,而B200之間再通過(guò)帶寬翻倍達(dá)1.8TB/s的第五代NVLink 5總線互連,最多可連接576塊。

B100采用專門定制的臺(tái)積電4NP工藝制造(H100/RTX 40 4N工藝的增強(qiáng)版),已經(jīng)達(dá)到雙倍光刻極限尺寸,彼此通過(guò)10TB/s帶寬的片間互聯(lián)帶寬,連接成一塊統(tǒng)一的B200 GPU。

B100集成多達(dá)1040億個(gè)晶體管,比上代H100 800億個(gè)增加了足足30%,B200整體就是2080億個(gè)晶體管。核心面積未公布,考慮到工藝極限應(yīng)該不會(huì)比814平方毫米的H100大太多。CUDA核心數(shù)量也沒(méi)說(shuō),但肯定會(huì)大大超過(guò)H100 16896個(gè),不知道能不能突破2萬(wàn)個(gè)?

每顆B100連接四顆24GB HBM3E顯存/內(nèi)存,等效頻率8GHz,位寬4096-bit,帶寬達(dá)4TB/s。如此一來(lái),B200就有多達(dá)192GB HBM3E,總位寬8096-bit,總帶寬8TB/s,相比H100分別增加1.4倍、58%、1.4倍。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

性能方面,B200新增支持FP4 Tensor數(shù)據(jù)格式,性能達(dá)到9PFlops(每秒9千萬(wàn)億次),INT/FP8、FP16、TF32 Tensor性能分別達(dá)到4.5、2.25、1.1PFlops,分別提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依賴GB200),F(xiàn)P32、FP64 Vector性能則未公布。

Blackwell GPU還支持第二代Transformer引擎,支持全新的微張量縮放,在搭配TensorRT-LLM、NeMo Megatron框架中的先進(jìn)動(dòng)態(tài)范圍管理算法,從而在新型4位浮點(diǎn)AI推理能力下實(shí)現(xiàn)算力和模型大小的翻倍。

其他還有RAS可靠性專用引擎、安全AI、解壓縮引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200則首次達(dá)到了1000W。英偉達(dá)宣稱,Blackwell GPU能夠在10萬(wàn)億參數(shù)的大模型上實(shí)現(xiàn)AI訓(xùn)練和實(shí)時(shí)大語(yǔ)言模型推理。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

GB200 Grace Blackwell是繼Grace Hopper之后的新一代超級(jí)芯片(Superchip),從單顆GPU+單顆CPU升級(jí)為兩顆GPU加一顆CPU,其中GPU部分就是B200,CPU部分不變還是Grace,彼此通過(guò)900GB/s的帶寬實(shí)現(xiàn)超低功耗片間互聯(lián)。

在大語(yǔ)言模型推理工作負(fù)載方面,GB200超級(jí)芯片的性能對(duì)比H100提升了多達(dá)30倍。不過(guò)代價(jià)也很大,GB200的功耗最高可達(dá)2700W,可以使用分冷,更推薦使用液冷。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

基于GB200超級(jí)芯片,英偉達(dá)打造了新一代的AI超級(jí)計(jì)算機(jī)“DGX SuperPOD”,配備36塊超級(jí)芯片,也就是包含36顆Grace CPU、72顆B200 GPU,彼此通過(guò)NVLink 5組合在一起,還有多達(dá)240TB HBM3E。

這臺(tái)AI超級(jí)計(jì)算機(jī)可以處理萬(wàn)億參數(shù)的大模型,能保證超大規(guī)模生成式AI訓(xùn)練和推理工作負(fù)載的持續(xù)運(yùn)行,FP4精度下的性能高達(dá)11.5EFlops(每秒1150億億次)。

DGX SuperPOD還具有極強(qiáng)的擴(kuò)展性,可通過(guò)Quantum-X800 InfiniBand網(wǎng)絡(luò)連接,擴(kuò)展到數(shù)萬(wàn)顆GB200超級(jí)芯片,并加入BlueField-3 DPU數(shù)據(jù)處理單元,而每顆GPU都能獲得1.8TB/s的高帶寬。

第四代可擴(kuò)展分層聚合和規(guī)約協(xié)議(SHARP)技術(shù),可提供14.4TFlops的網(wǎng)絡(luò)計(jì)算能力,比上代提升4倍。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

此外,英偉達(dá)還發(fā)布了第六代通用AI超級(jí)計(jì)算平臺(tái)“DGX B200”,包含兩顆Intel五代至強(qiáng)處理器、八顆B200 GPU,具備1.4TB HBM3E、64TB/s帶寬,F(xiàn)P4精度性能144PFlops(每秒14億億次),萬(wàn)億參數(shù)模型實(shí)時(shí)推理速度提升15倍。

DGX B200系統(tǒng)還集成八個(gè)英偉達(dá)ConnectX-7網(wǎng)卡、兩個(gè)BlueField-3 DPU高性能網(wǎng)絡(luò),每個(gè)連接帶寬高達(dá)400Gb/s,可通過(guò)Quantum-2 InfiniBand、Spectrum?-X以太網(wǎng)網(wǎng)絡(luò)平臺(tái),擴(kuò)展支持更高的AI性能。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

基于Blackwell GPU的產(chǎn)品將在今年晚些時(shí)候陸續(xù)上市,亞馬遜云、戴爾、谷歌、Meta、微軟、OpenAI、甲骨文、特斯拉、xAI等都會(huì)采納。

亞馬遜云、谷歌云、微軟Azeure、甲骨文云將是首批提供Blackwell GPU驅(qū)動(dòng)實(shí)例的云服務(wù)提供商,英偉達(dá)云合作伙伴計(jì)劃的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也將提供上述服務(wù)。

Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文歐盟主權(quán)云、甲骨文美國(guó)/英國(guó)/澳大利亞政府云、Scaleway、新加坡電信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主權(quán)AI云,也將提供基于Blackwell架構(gòu)的云服務(wù)和基礎(chǔ)設(shè)施。

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

老黃拋出2700W功耗真核彈 還有240TB顯存的AI超級(jí)計(jì)算機(jī)

0

玩家點(diǎn)評(píng) 0人參與,0條評(píng)論)

收藏
違法和不良信息舉報(bào)
分享:

熱門評(píng)論

全部評(píng)論

他們都在說(shuō) 再看看
3DM自運(yùn)營(yíng)游戲推薦 更多+