OCP峰會揭曉AMD資料中心新戰略
AMD於2025年OCP(Open Compute Project)全球峰會上發表Helios機架級AI硬體平台,這是AMD首款完整的機架規模解決方案,整合運算、記憶體、互連、冷卻於單一系統。Helios針對AI工作負載深度優化,直接挑戰NVIDIA在資料中心AI加速器市場的主導地位。AMD強調Helios在記憶體容量、維護便利性、能源效率等方面的優勢,為企業與雲端服務商提供NVIDIA之外的高效能選擇。
Helios平台技術架構
機架級整合設計
Helios採用機架規模(rack-scale)設計理念,將傳統需分散配置的運算、儲存、網路元件整合至標準42U機架:
高密度運算節點: 單一42U機架可容納64-128個運算節點,每節點搭載8-16片MI450 Instinct GPU與2-4顆EPYC處理器。總計單機架可提供超過1,000片GPU的運算能力。
統一冷卻系統: 採用液冷技術,將冷卻液直接導入GPU與CPU模組,散熱效率較傳統風冷提升3-5倍。這讓AMD能提高晶片功耗上限,釋放更高效能。
模組化維護: 節點採用熱插拔設計,故障元件可在不停機情況下更換。相較NVIDIA方案需整櫃下線維修,Helios大幅降低停機時間與維護成本。
MI450 Instinct GPU
Helios的核心是AMD最新的MI450 Instinct GPU(代號”Antares”),基於CDNA 4架構:
運算效能:
- FP64(雙精度浮點): 100 TFLOPS
- FP32(單精度浮點): 200 TFLOPS
- FP16/BF16(半精度): 1.6 PFLOPS
- INT8(整數): 3.2 POPS
這些數據使MI450在訓練大型語言模型時,效能接近或超越NVIDIA H200 GPU。
記憶體系統: 每片MI450配備288GB HBM3e(高頻寬記憶體),頻寬達8 TB/s。相較NVIDIA H200的141GB HBM3,AMD記憶體容量優勢超過一倍。
互連技術: 採用第四代Infinity Fabric互連,支援GPU間點對點通訊,頻寬達900 GB/s。配合AMD Infinity Architecture,實現高效能分散式訓練。
能效優化: 採用台積電3奈米製程,TDP(熱設計功耗)750W。雖高於NVIDIA H200的700W,但考量記憶體容量優勢,每GB記憶體功耗更低。
EPYC處理器整合
第五代EPYC “Turin”: Helios搭載96核心EPYC 9005系列處理器,負責系統管理、資料預處理、I/O控制。Zen 5架構提供強大單執行緒效能與AI加速指令。
CXL記憶體擴展: 支援CXL 3.0(Compute Express Link),允許CPU與GPU共享記憶體池,減少資料搬運,提升大型模型訓練效率。
安全特性: 整合AMD Secure Processor與SEV-SNP(Secure Encrypted Virtualization),保護雲端多租戶環境中的AI工作負載,防止資料洩漏。
50%記憶體容量優勢解析
為何記憶體是AI瓶頸
模型規模爆炸: GPT-4擁有約1.76兆參數,GPT-5預計達10兆以上。以FP16精度儲存,10兆參數需要20TB記憶體。即使單片GPU有288GB,仍需70+片GPU才能載入完整模型。
批次處理需求: 訓練時需要同時處理數千筆資料樣本(batch size),每筆樣本包含數千tokens。大batch size提升訓練效率,但成倍增加記憶體需求。
中間結果暫存: 深度神經網路訓練過程中,需儲存每層的激活值(activations)供反向傳播使用。模型越深,暫存需求越大,可能超過參數本身。
Helios的記憶體優勢
單節點容量: 配置8片MI450的節點,總記憶體達2.3TB,較配置8片H200(1.1TB)多一倍。這讓單節點能訓練更大模型或更大batch size。
減少通訊開銷: 更大記憶體讓模型切分成更少部分,跨節點通訊頻率降低,減少通訊延遲對訓練速度的影響。
推論吞吐量: 推論階段,大記憶體允許同時載入多個模型版本或服務更多並發請求,提升吞吐量與資源利用率。
與NVIDIA Vera Rubin比較
NVIDIA Vera Rubin: NVIDIA預計2026年推出的Vera Rubin平台,基於Blackwell架構GB300 GPU,單片記憶體約192GB。
AMD Helios優勢: Helios的288GB記憶體較Vera Rubin多50%,這個差距在大模型訓練中至關重要。更大記憶體可能讓同樣任務需要更少GPU,降低總擁有成本。
NVIDIA可能反擊: NVIDIA可能在Vera Rubin上採用HBM4記憶體,提升至256GB或更高。記憶體容量競賽將持續升級。
維護性與營運效率
傳統資料中心痛點
故障停機成本: AI訓練任務可能持續數週至數月,單一GPU故障就可能中斷整個任務。傳統方案需下線整個機櫃檢修,停機損失以小時計算數萬至數十萬美元。
人力密集維護: 資料中心需要大量技術人員監控、診斷、更換故障零件。人力成本佔資料中心營運支出20-30%。
元件更換週期: GPU、電源、風扇等元件壽命有限。大規模資料中心每天可能有數十起故障,維護工作持續不斷。
Helios的維護性改進
熱插拔設計: 所有運算節點、電源模組、網路交換器都支援熱插拔。技術人員可在系統運行中更換故障元件,其他節點繼續工作。
故障隔離: Helios平台能自動偵測故障節點,將工作負載遷移至健康節點,隔離故障區域。這種容錯設計最大化系統可用性。
遠端診斷: 整合遠端管理工具,可透過網路診斷問題、更新韌體、調整配置,減少現場維護需求。
預測性維護: AI演算法分析元件溫度、電壓、錯誤率等指標,預測潛在故障,提前更換元件,避免計畫外停機。
營運成本節省
AMD估計,Helios的維護性改進可降低資料中心營運成本15-25%:
停機時間減少: 故障修復時間從小時降至分鐘級,年度可用性從99.9%提升至99.99%以上。
人力需求降低: 自動化診斷與遠端管理減少現場技術人員需求,單位GPU人力成本下降30%。
備用硬體減少: 容錯設計降低備用硬體需求,資本支出優化10-15%。
Oracle合作案詳情
50,000片MI450 GPU部署
AMD與Oracle宣布戰略合作,部署50,000片MI450 Instinct GPU建構AI超級叢集:
規模龐大: 50,000片MI450相當於625個80-GPU節點,總記憶體容量達14.4PB,FP16運算能力超過80 exaFLOPS。這是全球最大的單一AI訓練叢集之一。
部署時程: 分階段部署,2026年第一季首批10,000片上線,2026年底完成全部部署。每階段上線後立即提供Oracle Cloud客戶租用。
地理分布: 分散部署於Oracle全球資料中心,包括美國、歐洲、亞太地區,降低延遲,符合資料主權要求。
Oracle Cloud OCI服務
AI訓練即服務: 企業客戶可透過Oracle Cloud Infrastructure租用MI450 GPU叢集,訓練大型語言模型、電腦視覺、推薦系統等AI應用。
定價策略: Oracle宣稱MI450實例價格較同級NVIDIA H100實例低30-40%,吸引成本敏感的企業客戶。
軟體生態支援: 支援PyTorch、TensorFlow、JAX等主流AI框架,預裝ROCm(AMD的CUDA替代方案),降低開發者遷移門檻。
目標客戶群
企業AI實驗室: 財富500強企業建立內部AI能力,需要大規模運算資源訓練客製化模型。
AI新創公司: 資金有限的新創公司,利用Oracle Cloud彈性租用GPU,避免大筆資本支出。
研究機構: 大學、研究所進行前沿AI研究,需要最新硬體支援實驗。
主權AI需求: 政府與國防機構要求AI運算在境內進行,Oracle本地資料中心滿足合規需求。
軟體生態挑戰
CUDA壟斷困境
NVIDIA護城河: CUDA生態發展15年,累積數百萬開發者、數千套優化函式庫、完整工具鏈。AI開發者習慣CUDA,遷移成本高。
主流框架綁定: PyTorch、TensorFlow雖支援多後端,但大量高級功能與優化針對CUDA。AMD需投入大量資源確保功能對等。
第三方軟體支援: 眾多商業AI軟體(如RAPIDS、TensorRT、DeepSpeed)優先或僅支援CUDA。AMD需說服供應商支援ROCm。
AMD ROCm進展
開源策略: ROCm完全開源,鼓勵社群貢獻。開放性吸引重視技術自主的企業與機構。
效能優化: AMD針對MI系列GPU深度優化ROCm,在部分工作負載上效能已接近或超越CUDA。
工具鏈完善: ROCm提供編譯器、剖析工具、除錯器、函式庫,覆蓋AI開發全流程。持續更新縮小與CUDA差距。
企業支援: AMD提供企業級技術支援,協助客戶遷移CUDA程式碼至ROCm,降低轉換風險。
成功案例
Meta的MTIA: Meta內部AI訓練部分採用AMD GPU,證明大規模生產環境可行性。
橡樹嶺國家實驗室Frontier超級電腦: 採用MI250X GPU,是全球首台exascale超級電腦,證明AMD技術可靠性。
Microsoft Azure: Azure雲端提供MI300X實例,企業客戶實際部署驗證效能。
競爭態勢分析
NVIDIA的優勢
市場主導地位: NVIDIA在AI加速器市場佔有率超過80%,品牌認知度高,客戶慣性強。
完整產品線: 從入門級T4到旗艦H200,涵蓋推論、訓練、邊緣運算全場景。
軟體生態: CUDA、cuDNN、TensorRT等工具成熟穩定,開發者資源豐富。
合作夥伴網路: 與AWS、Google Cloud、Microsoft Azure深度合作,佔據雲端市場主要份額。
AMD的機會
價格競爭力: MI450價格較H200低20-30%,記憶體容量更大,性價比優勢明顯。
供應鏈多元化: 客戶不願完全依賴單一供應商,AMD提供降低風險的選擇。
開放標準: 支援開放標準(OpenCL、SYCL、HIP),吸引重視技術中立的客戶。
CPU+GPU整合: AMD同時提供EPYC CPU與Instinct GPU,整合方案可能在總擁有成本上優於NVIDIA+Intel組合。
Intel的威脅
Ponte Vecchio/Falcon Shores: Intel推出資料中心GPU,搭配Xeon處理器,形成CPU+GPU組合。
oneAPI生態: Intel投資oneAPI統一編程模型,降低異構運算門檻。
製造能力: Intel自有晶圓廠,供應鏈掌控度高,可能在地緣政治風險情境下獲益。
能源效率與永續性
資料中心能耗危機
電力需求爆炸: AI訓練叢集功耗可達數十MW(百萬瓦),相當於小型城市用電。全球資料中心耗電量佔總發電量2-3%,且快速增長。
冷卻挑戰: 高功率密度GPU產生大量熱能,冷卻系統耗電可能與運算本身相當。傳統風冷已達極限。
碳排放壓力: 企業面臨ESG(環境、社會、治理)壓力,需降低AI運算碳足跡。再生能源供應有限,提升能效是關鍵。
Helios的節能設計
液冷效率: 液冷散熱效率較風冷高3-5倍,冷卻系統功耗降低40-60%。整體PUE(電源使用效率)從1.5-1.8降至1.1-1.3。
智慧功耗管理: AI演算法動態調整GPU時脈與電壓,根據工作負載最佳化功耗。閒置時大幅降頻,減少浪費。
熱能回收: Helios可將廢熱導出用於建築供暖或其他用途,進一步提升整體能源利用率。
永續性目標
AMD承諾到2030年資料中心產品能效提升30倍(相對2020年基準),Helios是實現這個目標的重要里程碑。透過高效能運算與節能設計,協助客戶降低AI運算的環境衝擊。
市場前景與挑戰
市場機會
AI需求持續增長: 生成式AI、大型語言模型、自動駕駛等應用推動AI晶片需求。市場預估2025-2030年CAGR(複合年增長率)超過30%。
資料中心升級週期: 企業加速AI轉型,淘汰舊設備升級至AI加速器。這個替換週期可能持續5-10年。
主權AI趨勢: 政府與關鍵產業要求AI運算在境內進行,推動本地資料中心建設。AMD作為美國公司,在部分市場相較台灣製造的NVIDIA GPU具優勢。
挑戰與風險
NVIDIA反擊: NVIDIA可能降價、提前推出新品、強化軟體綁定反制AMD。價格戰可能壓縮雙方利潤。
軟體生態差距: 即使硬體效能相當,CUDA生態慣性仍是AMD最大障礙。需持續投資ROCm,但短期內難以完全追平。
製造產能: MI450採用台積電3奈米,需與Apple、NVIDIA、AMD自家Ryzen/EPYC競爭產能。供應緊張可能限制出貨量。
經濟週期: 若科技業進入衰退,企業削減IT支出,AI硬體需求可能放緩,影響Helios銷售。
對台灣產業影響
台積電訂單
先進製程需求: MI450採用3奈米,未來MI500可能採用2奈米。AMD訂單與Apple、NVIDIA疊加,支撐台積電先進製程產能利用率。
封裝技術: MI450採用2.5D封裝整合HBM記憶體,需要CoWoS等先進封裝技術。台積電先進封裝產能持續緊張。
供應鏈機會
記憶體: SK海力士、三星、美光供應HBM3e記憶體。
基板: 欣興、南電等台灣廠商供應高階IC載板。
散熱: 雙鴻、奇鋐等散熱模組廠可能受益於液冷方案需求。
連接器: 正崴、宣德等廠商供應高速連接器。
競爭壓力
聯發科、瑞昱: AMD、NVIDIA在AI晶片市場競爭,可能擠壓台灣本土AI晶片廠商生存空間。台廠需找到差異化定位,如邊緣AI、垂直領域應用。
總結
AMD Helios機架級AI硬體平台的發布,標誌著AMD全面挑戰NVIDIA資料中心霸主地位的決心。透過50%記憶體容量優勢、更簡易維護性、液冷節能設計,Helios為企業與雲端服務商提供具競爭力的NVIDIA替代方案。與Oracle的50,000片GPU合作案,展現市場對AMD技術的信心。然而,CUDA生態的強大慣性、NVIDIA的市場主導地位、軟體工具差距,仍是AMD需克服的艱鉅挑戰。Helios能否真正撼動市場格局,取決於AMD持續的技術創新、生態建設投入與客戶採用意願。無論結果如何,AMD的積極競爭為市場帶來更多選擇,推動AI硬體技術進步與價格合理化,最終受益的是整個產業與使用者。