Wenn Sie planen, NVIDIA H100 GPUs für AI-Training oder -Inference zu verwenden, müssen Sie eine wichtige Entscheidung bezüglich des Sockel-Formfaktors treffen. Wählen Sie PCIe oder benötigen Sie die zusätzliche Leistung von SXM?
Lassen Sie uns überprüfen, wie sich die PCIe- und SXM5-Formfaktoren der NVIDIA H100 in Bezug auf Spezifikationen und Leistung vergleichen.
Warum die H100 in PCIe- und SXM5-Formfaktoren kommt
Die Nachfrage nach Hochleistungs-GPUs ist so hoch wie nie zuvor. Es scheint, als würden alle, von Unternehmensunternehmen über Hyperscaler bis hin zu neuen AI-Startups, dieselben GPUs suchen, um ihren Rechenbedarf zu decken. Als Reaktion darauf hat NVIDIA sowohl PCIe- als auch SXM-Formfaktoren der H100 auf den Markt gebracht. Indem NVIDIA mehr
Flexibilität für verschiedene Anwendungsfälle bietet, hat das Unternehmen die H100 zur leistungsstärksten GPU in vielen Anwendungsbereichen gemacht, einschließlich Hochleistungsrechnen (HPC) und AI-Training und -Inference.
Was ist PCIe?
PCIe (Peripheral Component Interconnect Express) ist ein Hochgeschwindigkeitsschnittstellenstandard, der verwendet wird, um verschiedene Hardwarekomponenten mit dem Motherboard eines Computers zu verbinden. PCI wurde ursprünglich von Intel entwickelt und 1992 eingeführt. PCIe (wobei "e" für Express steht) wurde 2003 auf den Markt gebracht.
PCIe arbeitet mit Lanes, das sind Kabelpaare, die Daten zwischen dem Motherboard und dem Peripheriegerät übertragen. Jeder PCIe-Steckplatz kann mehrere Lanes haben (x1, x4, x8, x16 usw.), wobei x16 am häufigsten für GPUs verwendet wird und die höchste Bandbreite bietet.
Was ist SXM?
SXM ist ein benutzerdefinierter Sockel-Formfaktor, der von NVIDIA speziell für Hochleistungsrechnen und intensive maschinelle Lernaufgaben entwickelt wurde. Ursprünglich mit den P100-GPUs im Jahr 2016 eingeführt, bietet es eine höhere Dichte und Leistung durch eine engere Integration der GPUs mit der Systemplatine.
SXM steht für Server PCI Express Module. Es ist darauf ausgelegt, mit den NVLink-Verbindungen von NVIDIA für die direkte GPU-zu-GPU-Kommunikation mit höherer Bandbreite zu arbeiten, bis zu 900 GB/s pro Verbindung. Bis zu 8 GPUs können mit einer einzelnen SXM-Platine verbunden werden.
Vergleich der Spezifikationen von H100 PCIe und SXM5
Merkmal | H100 PCIe | H100 SXM5 |
---|---|---|
Formfaktor | PCIe Gen 5 | SXM5 |
Speicherbandbreite | 2 TB/s | 3,35 TB/s |
L2 Cache | 50 MB | 50 MB |
Transistoren | 80 Milliarden | 80 Milliarden |
GPU-Speicher | 80 GB | 80 GB |
Speicherinterface | 5120-bit HBM2e | 5120-bit HBM3 |
Verbindung | - NVLink: 600 GB/s<br>- PCIe Gen5 128 GB/s | - NVLink: 900 GB/s<br>- PCIe Gen5 128 GB/s |
Maximale thermische Verlustleistung | 300-350W | Bis zu 700W |
H100 PCIe Formfaktor
Die PCIe-Version der H100 ist darauf ausgelegt, in Standard-Server-Racks installiert zu werden, was sie zu einer vielseitigen Option für viele Rechenzentren macht. Es handelt sich um eine vollwertige, volle Höhe, doppelbreite Karte, die sich leicht in bestehende Infrastrukturen integrieren lässt.
Eines der herausragenden Merkmale der H100 PCIe ist die Unterstützung für PCIe Gen 5. Dieser neueste Standard bietet eine deutlich verbesserte Bandbreite im Vergleich zu früheren Generationen von GPUs wie der A100 oder V100 und ermöglicht Übertragungsgeschwindigkeiten von bis zu 120 GB/s zwischen der GPU und dem Rest Ihres Systems.
Viele der Elemente des H100 PCIe-Formfaktors sind identisch mit SXM, einschließlich 80 Milliarden Transistoren, 50 MB L2 Cache und 80 GB GPU-Speicher. Die PCIe-Version der H100 ist mit einer HBM2e-Schnittstelle ausgestattet und verfügt über eine niedrigere Speicherbandbreite von 2 TB/s und eine thermische Verlustleistung von 300-350W.
H100 SXM5 Formfaktor
Das SXM5-Modul ist darauf ausgelegt, direkt in spezialisierte Serverplatinen integriert zu werden. Mit einer 5120-bit HBM3-Schnittstelle ist die H100 SXM5 in der Lage, eine Speicherbandbreite von bis zu 3,35 TB/s zu erreichen.
Es unterstützt die vierte Generation der NVLink-Technologie von NVIDIA, die eine GPU-zu-GPU-Verbindungsbandbreite von 900 GB/s ermöglicht. In Kombination mit dem dritten Generation NVSwitch können Sie unglaublich leistungsstarke Multi-GPU-Systeme erstellen, die eine höhere maximale TDP von 700W nutzen.
H100 PCIe vs SXM5 Leistungs-Vergleich
Spitzenwert | NVIDIA H100 PCIe | NVIDIA H100 SXM5 |
---|---|---|
Spitzenwert FP64 | 24 TFLOPS | 30 TFLOPS |
Spitzenwert FP64 Tensor Core | 48 TFLOPS | 60 TFLOPS |
Spitzenwert FP32 | 48 TFLOPS | 60 TFLOPS |
Spitzenwert FP16 | 96 TFLOPS | 120 TFLOPS |
Spitzenwert BF16 | 96 TFLOPS | 120 TFLOPS |
Spitzenwert TF32 Tensor Core | 400 TFLOPS | 800 TFLOPS* |
Spitzenwert FP16 Tensor Core | 800 TFLOPS | 1600 TFLOPS* |
Spitzenwert BF16 Tensor Core | 800 TFLOPS | 1600 TFLOPS* |
Spitzenwert FP8 Tensor Core | 1600 TFLOPS | 3200 TFLOPS* |
Spitzenwert INT8 Tensor Core | 1600 TOPS | 3200 TOPS* |
*mit Sparsität
Die Spitzenleistungsspezifikationen des SXM5 sind nicht wesentlich besser als die des PCIe. Der Hauptunterschied besteht darin, dass Sie mit der NVLink-Technologie und der 900 GB/s-Verbindung bis zu 8 H100 SXM-GPUs effektiv als eine massive GPU nutzen können.
Für das Training großer Sprachmodelle, bei denen wahrscheinlich mehr als eine GPU verwendet wird, schneidet die SXM5-Version erheblich besser ab als die PCIe. Bei speicherintensiven Aufgaben wie dem Training von KI-Modellen führt die Speicherbandbreite von 3,35 TB/s der SXM5 auch zu deutlich schnelleren Trainingsgeschwindigkeiten.
H100 PCIe vs. SXM5 im MLPerf-Benchmark
Um die Leistungslücke zwischen den SXM5- und PCIe-Formfaktoren zu veranschaulichen, haben wir ihre Inferenzleistung im MLPerf Machine Learning Benchmark bewertet, wobei wir uns auf zwei beliebte Aufgaben konzentrierten:
LLM-Inferenz mit dem Llama 2 70B LoRA Modell und
Bildgenerierung mit Stable Diffusion XL.
Für beide Aufgaben verwendeten wir Konfigurationen mit 8 GPUs, die jeweils mit 80 GB Speicher ausgestattet sind.
Die Ergebnisse zeigen deutlich die Vorteile des SXM5-Formfaktors. SXM5 liefert eine beeindruckende 2,6-fache Beschleunigung bei der LLM-Inferenz im Vergleich zu PCIe. Bei der Bildgenerierung übertrifft SXM5 PCIe immer noch um das 1,6-Fache, obwohl der Leistungsunterschied weniger ausgeprägt ist. Diese Erkenntnisse unterstreichen den erheblichen Vorteil von SXM5 gegenüber PCIe, insbesondere bei großen, modernen Deep-Learning-Modellen.
H100 SXM5 Anwendungsfälle
Die SXM5-Version der H100 ist ideal für Hochleistungsrechnen (HPC) und groß angelegte KI-Trainingsaufgaben geeignet, die die absolute Spitzenleistung der GPU erfordern. Sie gedeiht in Multi-GPU-Skalierungen und Hochgeschwindigkeits-Inter-GPU-Kommunikationen.
Für HPC-Anwendungen macht die überlegene Leistung der SXM5 bei Aufgaben wie Gitter-QCD und 3D-FFT sie zur ersten Wahl. Die Möglichkeit, NVLink für schnelle GPU-zu-GPU-Kommunikation zu nutzen, kann komplexe wissenschaftliche Berechnungen, die häufigen Datenaustausch zwischen GPUs erfordern, erheblich beschleunigen.
In KI-Training und -Inference-Anwendungsfällen ist die SXM5 viel leistungsstärker beim Training massiver KI-Modelle, insbesondere in der Verarbeitung natürlicher Sprache. Wenn Sie beispielsweise mit sehr großen Sprachmodellen arbeiten, können die erweiterten Multi-GPU-Skalierungsfähigkeiten der SXM5 die Trainingszeiten erheblich verkürzen.
Die SXM5 ist auch für KI-Anwendungen geeignet, die die Verarbeitung riesiger Datensätze oder die gleichzeitige Handhabung mehrerer KI-Aufgaben erfordern. Ihre höhere Speicherbandbreite und bessere Skalierung machen sie optimal für diese datenintensiven, rechnerisch komplexen Aufgaben.
DataCrunch verwendet ausschließlich SXM-Technologie in der A100- und H100-GPU-Serie.
H100 PCIe Anwendungsfälle
Die PCIe-Version der H100, obwohl immer noch äußerst leistungsstark, ist besser geeignet für flexiblere und vielfältigere Einsatzszenarien. Sie ist eine ausgezeichnete Wahl für Organisationen, die ihre bestehende Infrastruktur aufrüsten müssen, ohne ihre Serverarchitektur vollständig zu überholen.
Für KI-Inferenz-Arbeitslasten, insbesondere solche, die keine umfangreiche Multi-GPU-Kommunikation erfordern, kann die PCIe-Version ein Gleichgewicht zwischen Leistung und Kosteneffizienz bieten. Sie eignet sich gut für den Einsatz von Produktions-KI-Modellen in Szenarien wie Empfehlungssystemen, natürlichem Sprachverständnis oder Computer Vision-Anwendungen, bei denen die Leistung einer einzelnen GPU ausreicht.
Der PCIe-Formfaktor könnte auch für kleinere KI-Trainingsaufgaben oder für Organisationen geeignet sein, die ihre Rechenressourcen auf mehrere Standorte verteilen müssen. Beispielsweise ist sie gut geeignet für Edge-Computing-Szenarien, bei denen leistungsstarke GPU-Berechnungen näher an der Datenquelle erforderlich sind, wie in intelligenten Fertigungsanlagen oder Testeinrichtungen für autonome Fahrzeuge.
Fazit zu PCIe vs SXM5
Letztendlich hängt die Wahl zwischen SXM5 und PCIe von Ihren Leistungsanforderungen, Ihrer Infrastruktur, Ihren Skalierungsanforderungen und Ihrem Budget ab. Die SXM5 bietet überlegene Leistung für die anspruchsvollsten Arbeitslasten, während die PCIe eine flexiblere, weitgehend kompatible Option bietet, die immer noch beeindruckende Leistung in einem breiten Spektrum von KI- und HPC-Anwendungen liefert.
Lassen Sie uns mit einer guten Nachricht abschließen. Die Verfügbarkeit von NVIDIA Tensor Core GPUs wie der A100 und H100 verbessert sich auf Premium-Cloud-GPU-Plattformen. Sie müssen keine massive Infrastrukturinvestition tätigen, um die Fähigkeiten einer oder mehrerer H100 für Ihre Bedürfnisse zu testen. Starten Sie eine Instanz mit DataCrunch oder fordern Sie ein maßgeschneidertes Angebot an.