7月26日,世界人工智能大會(huì)(WAIC)在上海正式拉開帷幕。
在展會(huì)現(xiàn)場(chǎng),具身智能無疑是最備受矚目的行業(yè)。從靈活完成格斗動(dòng)作的人形機(jī)器人,到能精準(zhǔn)執(zhí)行家務(wù)、康復(fù)輔助的服務(wù)型機(jī)器人,這些具備物理交互能力的智能體憑借流暢的動(dòng)作、自然的交互賺足了觀眾眼球。
然而,在這場(chǎng)科技盛宴中,當(dāng)人們沉浸在具身智能帶來的震撼體驗(yàn)時(shí),人工智能產(chǎn)業(yè)的核心底座——以芯片、板卡、服務(wù)器、計(jì)算集群等為核心構(gòu)成的算力基礎(chǔ)設(shè)施,依然是整個(gè)行業(yè)繞不開的關(guān)鍵話題。
與往屆大會(huì)相比,今年算力基礎(chǔ)設(shè)施展區(qū)呈現(xiàn)出截然不同的風(fēng)貌。
往年展臺(tái)上隨處可見的“參數(shù)競(jìng)賽”已悄然淡去,各廠商送展的芯片和服務(wù)器展品中,很少再有將某項(xiàng)極致性能參數(shù)用醒目字體刻意標(biāo)記出來的情況。
曾經(jīng)被重點(diǎn)標(biāo)注的技術(shù)指標(biāo),如今更多地融入到具體的產(chǎn)業(yè)解決方案中,或是隱藏在真實(shí)的應(yīng)用場(chǎng)景演示里。
現(xiàn)場(chǎng)的討論也多是基于“碎片化算力資源統(tǒng)籌”、“低功耗與低成本”與“垂類產(chǎn)品軟硬件整合”這些非常務(wù)實(shí)的話題。
全鏈路國產(chǎn)化進(jìn)行時(shí)
在算力基礎(chǔ)設(shè)施的務(wù)實(shí)轉(zhuǎn)型浪潮中,“全鏈路國產(chǎn)化”的推進(jìn)節(jié)奏尤為引人關(guān)注。
過去幾年,全球供應(yīng)鏈波動(dòng)引發(fā)的芯片斷供風(fēng)險(xiǎn),以及核心技術(shù)“卡脖子”的現(xiàn)實(shí)挑戰(zhàn),反復(fù)挑動(dòng)著國內(nèi)人工智能產(chǎn)業(yè)的神經(jīng)。在全行業(yè)已默契達(dá)成“居安思危”共識(shí)的背景下,即便部分產(chǎn)品應(yīng)用尚未受到外部限制,國內(nèi)算力基礎(chǔ)設(shè)施廠商也主動(dòng)將國產(chǎn)化的邊界從單一芯片突破,拓展至從架構(gòu)設(shè)計(jì)、軟硬件生態(tài)到產(chǎn)業(yè)落地的全鏈路自主可控。
這種主動(dòng)出擊的國產(chǎn)化實(shí)踐,在本屆 WAIC 的展臺(tái)間隨處可見。
從芯片底層架構(gòu)的自主研發(fā),到操作系統(tǒng)、編譯器等軟件工具鏈的國產(chǎn)化適配,再到與本土服務(wù)器廠商、行業(yè)應(yīng)用企業(yè)的深度協(xié)同,一條貫穿“芯片—軟件—整機(jī)—場(chǎng)景” 的國產(chǎn)化鏈條正在加速成型。
剛剛提交上市輔導(dǎo)備案的沐曦,算是其中較為典型的代表。
本屆展會(huì)上,沐曦首次公開展示了其最新研發(fā)的訓(xùn)推一體GPU曦云C600。據(jù)悉,其采用自研的XCORE 1.5架構(gòu)及指令集,面向云端人工智能訓(xùn)練與推理、通用計(jì)算、AI for Science等計(jì)算任務(wù),且擁有豐富的標(biāo)量、矢量和張量計(jì)算單元,支持多種混合精度計(jì)算。
雖然現(xiàn)場(chǎng)并沒有關(guān)于曦云C600的性能參數(shù)介紹,但據(jù)展臺(tái)工作人員透露,這枚芯片搭載了當(dāng)前業(yè)界前沿的HBM3e顯存。這一關(guān)鍵配置勢(shì)必會(huì)大幅提高顯存帶寬,為大模型訓(xùn)練及推理時(shí)的海量數(shù)據(jù)吞吐提供強(qiáng)力支撐。
鑒于曦云C600在本月剛剛回片,展會(huì)上并未出現(xiàn)基于這枚芯片打造的板卡及服務(wù)器。
而基于上代產(chǎn)品曦云C500系列芯片,沐曦在現(xiàn)場(chǎng)展示了PCIe服務(wù)器、OAM服務(wù)器和光互連服務(wù)器解決方案,這些服務(wù)器基本都實(shí)現(xiàn)了“全鏈路國產(chǎn)化”,即從編譯器、驅(qū)動(dòng)程序,再到卡間互聯(lián)協(xié)議完全自研,或是第三方國內(nèi)合作伙伴打造。
還有廠商則展示了不同于GPU的另一條高性能計(jì)算路線,比如國內(nèi)唯一實(shí)現(xiàn)TPU量產(chǎn)的中昊芯英。
該公司打造的“剎那”系列TPU,采用完全可控的IP核與自研指令集、計(jì)算平臺(tái),其可重構(gòu)多級(jí)存儲(chǔ)、存算一體的設(shè)計(jì),配合Chiplet技術(shù)實(shí)現(xiàn)2.5D封裝,在相同AI計(jì)算任務(wù)下能耗可降低三成。
另外,該枚芯片還有較強(qiáng)的集群擴(kuò)展能力,最高支持1024片芯片高速互聯(lián),基于“剎那”打造的“泰則”計(jì)算集群系統(tǒng),單集群最大浮點(diǎn)運(yùn)算能力在稀疏算力下達(dá)400P(TF32)以上,可支撐超千億參數(shù)的AI大模型計(jì)算。
據(jù)現(xiàn)場(chǎng)工作人員介紹,目前“泰則”計(jì)算集群系統(tǒng),已完成對(duì)AIGC大模型計(jì)算、高級(jí)無人駕駛模型訓(xùn)練、蛋白質(zhì)結(jié)構(gòu)精密預(yù)測(cè)在內(nèi)的各類高強(qiáng)度運(yùn)算場(chǎng)景的適配。
下沉到場(chǎng)景中
在兩個(gè)月前的鯤鵬昇騰開發(fā)者大會(huì)上,作為華為今年來在算力基礎(chǔ)設(shè)施上的集大成者,“384超節(jié)點(diǎn)”被首次公開,基于昇騰超節(jié)點(diǎn)技術(shù),實(shí)現(xiàn)了業(yè)界規(guī)模最大的384卡高速總線互聯(lián)。
本次展會(huì)上,“384超節(jié)點(diǎn)”真機(jī)完成了在公眾面前的首次亮相,而該系統(tǒng)在大模型適配上的進(jìn)度也令人矚目。據(jù)悉,目前業(yè)界已基于昇騰適配和開發(fā)超過80個(gè)大模型,在基礎(chǔ)大模型方面多個(gè)技術(shù)方向均有積累,如訊飛星火認(rèn)知、DeepSeek、Qwen、鵬城、LLaMA等。
在場(chǎng)景適配上,基于昇騰軟硬件能力、訓(xùn)練與推理解決方案及開源開放的軟硬件生態(tài),華為聯(lián)合伙伴展示互聯(lián)網(wǎng)、運(yùn)營商、金融、政務(wù)、醫(yī)療、油氣、交通等行業(yè)解決方案實(shí)踐。
另一家國產(chǎn)GPU企業(yè)摩爾線程,在現(xiàn)場(chǎng)展示的場(chǎng)景適配上則要更加細(xì)致。
在摩爾線程展位,該公司共帶來了包括生命科學(xué)、物理仿真、空間智能、視頻超分在內(nèi)的12項(xiàng)面對(duì)不同行業(yè)打造的Demo。
令筆者印象較為深刻的是視頻超分技術(shù)MTVSR。該技術(shù)可在端側(cè)提供2-4倍的視頻實(shí)時(shí)超分,并提供多檔質(zhì)量設(shè)定,能夠顯著提升低分辨率視頻在高分辨率屏幕下的播放清晰度,且以SDK形式支持播放器、瀏覽器等APP集成調(diào)用,可為終端用戶提供無縫的視頻超分體驗(yàn)。
不同于一般的行業(yè)垂直解決方案,視頻場(chǎng)景中的端則軟件技術(shù),由于其廣泛的應(yīng)用性,一方面能夠有效調(diào)動(dòng)行業(yè)應(yīng)用,比如降低內(nèi)容創(chuàng)作者獲取高質(zhì)量素材的成本,提高內(nèi)容生產(chǎn)效率;另一方面還能夠有效刺激產(chǎn)業(yè)生態(tài)構(gòu)建,主動(dòng)吸引視頻播放軟件、游戲開發(fā)商、監(jiān)控設(shè)備制造商等多方協(xié)同。
華為以超節(jié)點(diǎn)技術(shù)夯實(shí)大模型訓(xùn)練的算力底座,通過廣泛的行業(yè)適配構(gòu)建生態(tài)護(hù)城河;摩爾線程則聚焦細(xì)分場(chǎng)景,用輕量化技術(shù)方案打通算力應(yīng)用的“最后一公里”。兩者雖聚焦不同層面,但卻很好地反映出了眼下國產(chǎn)算力基礎(chǔ)設(shè)施所呈現(xiàn)出“高低搭配、全域覆蓋”的發(fā)展態(tài)勢(shì)。