3月21日,中國本土AI創(chuàng)新企業(yè)寒武紀正式發(fā)布了新款訓練加速卡“MLU370-X8”,搭載雙芯片四芯粒封裝的思元370,集成寒武紀MLU-Link多芯互聯(lián)技術,主要面向AI訓練任務。
寒武紀MLU370-X8智能加速卡首次整合了雙芯片四芯粒的思元370,也就是每張卡兩顆芯片,每顆芯片內封裝兩個Die,因此可提供兩倍于思元370加速卡的內存、編解碼資源。
架構基于Cambricon MLUarch03,支持AI訓練加速中常見的FP32、FP16、BF16、INT16、INT8、INT4數(shù)據(jù)格式計算,峰值性能分別為32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops。
該卡采用7nm制造工藝,集成48GB LPDDR5內存,內存帶寬614.4GB/s,PCIe 4.0 x16系統(tǒng)接口,整卡最大訓練功耗250W,全高全長雙插槽設計,系統(tǒng)被動散熱。
通過MLU-Link多芯互聯(lián)技術,提供卡內、卡間互聯(lián)功能,并專門設計了MLU-Link橋接卡,可實現(xiàn)4張加速卡為一組、8顆思元370芯片全互聯(lián)。
每張加速卡通訊吞吐性能200GB/s,帶寬為PCIe 4.0的大約3.1倍,可高效執(zhí)行多芯多卡訓練、分布式推理任務。(作者:上方文Q)