MLPerf Training 2.0 已經發布。按照慣例,MLPerf 培訓主要是針對 NVIDIA 及其服務器 OEM 的練習。此時的 MLPerf 訓練具有完全或幾乎完全是 NVIDIA 基準的測試。儘管如此,還有更多的提交,所以我們將專注於這些。

“Google TPUv4 選擇性加入 NVIDIA MLPerf Training 2.0”


Google TPUv4 選擇性加入 NVIDIA MLPerf Training 2.0
MLPerf Training 2.0 結果中最酷的條目可能是 Google TPUv4 結果。Google 針對 NVIDIA 的大型本地集群運行大型 TPUv4 機器集群,並展示了一些令人印象深刻的性能:

谷歌將微軟 Azure 視為其競爭對手,因此它顯示了以高達 4096 個加速器芯片進行訓練的成本:

這與英特爾 Habana Gaudi2 一起是最有趣的數據點。

只是為了了解一下以 NVIDIA 為中心的 MLPerf 在這一點上的表現:
ResNet ImageNet 具有最大的多樣性。在這一次中,英特爾 Habana Gaudi2結果似乎表明,與 NVIDIA MxNet 結果的分數相比,尤其是使用 8x Gaudi2 芯片和 TensorFlow 2.8 時,它是一種快速的解決方案。此處添加了 Google TPUv4,其中包含數千個 TPUv4 的兩個結果。
KiTS19 醫學圖像分割結果均為 NVIDIA-only 在封閉分區
RetinaNet 輕量級對象檢測僅在封閉部門中使用 NVIDIA
COCO 重量級物體檢測是 NVIDIA-only 在封閉部門
LibriSpeech RNN-T 在封閉部門中是 NVIDIA 獨有的
迄今為止,BERT Wikipedia NLP 的多樣性最為豐富。
英特爾 Habana Gaudi2 再次看起來像是 NVIDIA A100 的重要競爭對手(儘管考慮到 Gaudi2 在 A100 生命週期中推出的位置,它們實際上是不同代的顯卡。)
Graphcore 機器在列表中的表現令人印象深刻。
Microsoft Azure 及其 NVIDIA A100 機器和 Google GCP 及其 TPUv4 進入了有趣的基準集群。或許真正的競爭是在 Google Cloud TPUv4 和 NVIDIA 自己的大規模集群 A100 基準測試之間,因為這兩個解決方案在本次測試中都擴展到了 4000 多個加速器
推薦引擎 DLRM 測試只有 128 個加速器下基於 NVIDIA 的提交。谷歌有一個 128 TPUv4 提交,無法以有意義的方式與任何東西進行比較。不同規模的單一結果是唯一不使其成為僅限 NVIDIA 的測試的原因。
Reinforcement MiniGo 基準測試僅適用於 NVIDIA。
MLPerf 訓練確實缺乏多樣性。幸運的是,推理工作似乎具有更好的代表性。

最後的話
由於 MLPerf 訓練的競爭如此之少,我們現在將其稱為 NVIDIA MLPerf 訓練基準。NVIDIA 不僅擁有 MLPerf Training 2.0 的大部分結果,而且如果不是針對單個 TPUv4 DLRM 測試(上面提到的不同集群規模),封閉部門中整整 75% 的工作負載將只有 NVIDIA-基於加速器提交。我們使用“基於 NVIDIA”來涵蓋 NVIDIA 提交或 NVIDIA 提供支持的 NVIDIA 合作夥伴提交。即使我們稱單個 TPUv4 結果在被測系統中的多樣性,仍然有 5/8 的基準測試只有 NVIDIA 加速器結果。

由於沒有真正的比賽,因此訓練練習應該只是稱為“NVIDIA MLPerf 訓練”測試。幸運的是,谷歌與英特爾 Habana 的人一起加入了一些有趣的事情,使這變得有趣。實際上,NVIDIA 多年來一直擁有 AI 培訓,這也是其中的一部分。此外,Graphcore 在 MLPerf 訓練中的糟糕結果可能使其他一些解決方案無法進行。Gaudi2 當然看起來也很有趣。
我們會注意到,在開放部門有五個提交的系統,每個系統都在八個基準中的一個上進行了測試,但是很難將它們用作比較點,因為那裡很少。
——文章作者 Cliff Robinson