Available soon H200 clusters

Vergleich von PCIe und SXM5 für NVIDIA H100 Tensor-Core Grafikprozessor

6 min read
Vergleich von PCIe und SXM5 für NVIDIA H100 Tensor-Core Grafikprozessor

Wenn Sie planen, NVIDIA H100 GPUs für AI-Training oder -Inference zu verwenden, müssen Sie eine wichtige Entscheidung bezüglich des Sockel-Formfaktors treffen. Wählen Sie PCIe oder benötigen Sie die zusätzliche Leistung von SXM?

Lassen Sie uns überprüfen, wie sich die PCIe- und SXM5-Formfaktoren der NVIDIA H100 in Bezug auf Spezifikationen und Leistung vergleichen.

Warum die H100 in PCIe- und SXM5-Formfaktoren kommt

Die Nachfrage nach Hochleistungs-GPUs ist so hoch wie nie zuvor. Es scheint, als würden alle, von Unternehmensunternehmen über Hyperscaler bis hin zu neuen AI-Startups, dieselben GPUs suchen, um ihren Rechenbedarf zu decken. Als Reaktion darauf hat NVIDIA sowohl PCIe- als auch SXM-Formfaktoren der H100 auf den Markt gebracht. Indem NVIDIA mehr

Flexibilität für verschiedene Anwendungsfälle bietet, hat das Unternehmen die H100 zur leistungsstärksten GPU in vielen Anwendungsbereichen gemacht, einschließlich Hochleistungsrechnen (HPC) und AI-Training und -Inference.

Was ist PCIe?

PCIe (Peripheral Component Interconnect Express) ist ein Hochgeschwindigkeitsschnittstellenstandard, der verwendet wird, um verschiedene Hardwarekomponenten mit dem Motherboard eines Computers zu verbinden. PCI wurde ursprünglich von Intel entwickelt und 1992 eingeführt. PCIe (wobei "e" für Express steht) wurde 2003 auf den Markt gebracht.

PCIe arbeitet mit Lanes, das sind Kabelpaare, die Daten zwischen dem Motherboard und dem Peripheriegerät übertragen. Jeder PCIe-Steckplatz kann mehrere Lanes haben (x1, x4, x8, x16 usw.), wobei x16 am häufigsten für GPUs verwendet wird und die höchste Bandbreite bietet.

Was ist SXM?

SXM ist ein benutzerdefinierter Sockel-Formfaktor, der von NVIDIA speziell für Hochleistungsrechnen und intensive maschinelle Lernaufgaben entwickelt wurde. Ursprünglich mit den P100-GPUs im Jahr 2016 eingeführt, bietet es eine höhere Dichte und Leistung durch eine engere Integration der GPUs mit der Systemplatine.

SXM steht für Server PCI Express Module. Es ist darauf ausgelegt, mit den NVLink-Verbindungen von NVIDIA für die direkte GPU-zu-GPU-Kommunikation mit höherer Bandbreite zu arbeiten, bis zu 900 GB/s pro Verbindung. Bis zu 8 GPUs können mit einer einzelnen SXM-Platine verbunden werden.

Vergleich der Spezifikationen von H100 PCIe und SXM5

Merkmal

H100 PCIe

H100 SXM5

Formfaktor

PCIe Gen 5

SXM5

Speicherbandbreite

2 TB/s

3,35 TB/s

L2 Cache

50 MB

50 MB

Transistoren

80 Milliarden

80 Milliarden

GPU-Speicher

80 GB

80 GB

Speicherinterface

5120-bit HBM2e

5120-bit HBM3

Verbindung

- NVLink: 600 GB/s<br>- PCIe Gen5 128 GB/s

- NVLink: 900 GB/s<br>- PCIe Gen5 128 GB/s

Maximale thermische Verlustleistung

300-350W

Bis zu 700W

H100 PCIe Formfaktor

Die PCIe-Version der H100 ist darauf ausgelegt, in Standard-Server-Racks installiert zu werden, was sie zu einer vielseitigen Option für viele Rechenzentren macht. Es handelt sich um eine vollwertige, volle Höhe, doppelbreite Karte, die sich leicht in bestehende Infrastrukturen integrieren lässt.

Eines der herausragenden Merkmale der H100 PCIe ist die Unterstützung für PCIe Gen 5. Dieser neueste Standard bietet eine deutlich verbesserte Bandbreite im Vergleich zu früheren Generationen von GPUs wie der A100 oder V100 und ermöglicht Übertragungsgeschwindigkeiten von bis zu 120 GB/s zwischen der GPU und dem Rest Ihres Systems.

Viele der Elemente des H100 PCIe-Formfaktors sind identisch mit SXM, einschließlich 80 Milliarden Transistoren, 50 MB L2 Cache und 80 GB GPU-Speicher. Die PCIe-Version der H100 ist mit einer HBM2e-Schnittstelle ausgestattet und verfügt über eine niedrigere Speicherbandbreite von 2 TB/s und eine thermische Verlustleistung von 300-350W.

H100 SXM5 Formfaktor

Das SXM5-Modul ist darauf ausgelegt, direkt in spezialisierte Serverplatinen integriert zu werden. Mit einer 5120-bit HBM3-Schnittstelle ist die H100 SXM5 in der Lage, eine Speicherbandbreite von bis zu 3,35 TB/s zu erreichen.

Es unterstützt die vierte Generation der NVLink-Technologie von NVIDIA, die eine GPU-zu-GPU-Verbindungsbandbreite von 900 GB/s ermöglicht. In Kombination mit dem dritten Generation NVSwitch können Sie unglaublich leistungsstarke Multi-GPU-Systeme erstellen, die eine höhere maximale TDP von 700W nutzen.

H100 PCIe vs SXM5 Leistungs-Vergleich

Spitzenwert

NVIDIA H100 PCIe

NVIDIA H100 SXM5

Spitzenwert FP64

24 TFLOPS

30 TFLOPS

Spitzenwert FP64 Tensor Core

48 TFLOPS

60 TFLOPS

Spitzenwert FP32

48 TFLOPS

60 TFLOPS

Spitzenwert FP16

96 TFLOPS

120 TFLOPS

Spitzenwert BF16

96 TFLOPS

120 TFLOPS

Spitzenwert TF32 Tensor Core

400 TFLOPS

800 TFLOPS*

Spitzenwert FP16 Tensor Core

800 TFLOPS

1600 TFLOPS*

Spitzenwert BF16 Tensor Core

800 TFLOPS

1600 TFLOPS*

Spitzenwert FP8 Tensor Core

1600 TFLOPS

3200 TFLOPS*

Spitzenwert INT8 Tensor Core

1600 TOPS

3200 TOPS*

*mit Sparsität

Die Spitzenleistungsspezifikationen des SXM5 sind nicht wesentlich besser als die des PCIe. Der Hauptunterschied besteht darin, dass Sie mit der NVLink-Technologie und der 900 GB/s-Verbindung bis zu 8 H100 SXM-GPUs effektiv als eine massive GPU nutzen können.

Für das Training großer Sprachmodelle, bei denen wahrscheinlich mehr als eine GPU verwendet wird, schneidet die SXM5-Version erheblich besser ab als die PCIe. Bei speicherintensiven Aufgaben wie dem Training von KI-Modellen führt die Speicherbandbreite von 3,35 TB/s der SXM5 auch zu deutlich schnelleren Trainingsgeschwindigkeiten.

NVIDIA A100 vs H100 LEISTUNGSVERGLEICH

H100 SXM5 Anwendungsfälle

Die SXM5-Version der H100 ist ideal für Hochleistungsrechnen (HPC) und groß angelegte KI-Trainingsaufgaben geeignet, die die absolute Spitzenleistung der GPU erfordern. Sie gedeiht in Multi-GPU-Skalierungen und Hochgeschwindigkeits-Inter-GPU-Kommunikationen.

Für HPC-Anwendungen macht die überlegene Leistung der SXM5 bei Aufgaben wie Gitter-QCD und 3D-FFT sie zur ersten Wahl. Die Möglichkeit, NVLink für schnelle GPU-zu-GPU-Kommunikation zu nutzen, kann komplexe wissenschaftliche Berechnungen, die häufigen Datenaustausch zwischen GPUs erfordern, erheblich beschleunigen.

In KI-Training und -Inference-Anwendungsfällen ist die SXM5 viel leistungsstärker beim Training massiver KI-Modelle, insbesondere in der Verarbeitung natürlicher Sprache. Wenn Sie beispielsweise mit sehr großen Sprachmodellen arbeiten, können die erweiterten Multi-GPU-Skalierungsfähigkeiten der SXM5 die Trainingszeiten erheblich verkürzen.

Die SXM5 ist auch für KI-Anwendungen geeignet, die die Verarbeitung riesiger Datensätze oder die gleichzeitige Handhabung mehrerer KI-Aufgaben erfordern. Ihre höhere Speicherbandbreite und bessere Skalierung machen sie optimal für diese datenintensiven, rechnerisch komplexen Aufgaben.

DataCrunch verwendet ausschließlich SXM-Technologie in der A100- und H100-GPU-Serie.

H100 PCIe Anwendungsfälle

Die PCIe-Version der H100, obwohl immer noch äußerst leistungsstark, ist besser geeignet für flexiblere und vielfältigere Einsatzszenarien. Sie ist eine ausgezeichnete Wahl für Organisationen, die ihre bestehende Infrastruktur aufrüsten müssen, ohne ihre Serverarchitektur vollständig zu überholen.

Für KI-Inferenz-Arbeitslasten, insbesondere solche, die keine umfangreiche Multi-GPU-Kommunikation erfordern, kann die PCIe-Version ein Gleichgewicht zwischen Leistung und Kosteneffizienz bieten. Sie eignet sich gut für den Einsatz von Produktions-KI-Modellen in Szenarien wie Empfehlungssystemen, natürlichem Sprachverständnis oder Computer Vision-Anwendungen, bei denen die Leistung einer einzelnen GPU ausreicht.

Der PCIe-Formfaktor könnte auch für kleinere KI-Trainingsaufgaben oder für Organisationen geeignet sein, die ihre Rechenressourcen auf mehrere Standorte verteilen müssen. Beispielsweise ist sie gut geeignet für Edge-Computing-Szenarien, bei denen leistungsstarke GPU-Berechnungen näher an der Datenquelle erforderlich sind, wie in intelligenten Fertigungsanlagen oder Testeinrichtungen für autonome Fahrzeuge.

Fazit zu PCIe vs SXM5

Letztendlich hängt die Wahl zwischen SXM5 und PCIe von Ihren Leistungsanforderungen, Ihrer Infrastruktur, Ihren Skalierungsanforderungen und Ihrem Budget ab. Die SXM5 bietet überlegene Leistung für die anspruchsvollsten Arbeitslasten, während die PCIe eine flexiblere, weitgehend kompatible Option bietet, die immer noch beeindruckende Leistung in einem breiten Spektrum von KI- und HPC-Anwendungen liefert.

Lassen Sie uns mit einer guten Nachricht abschließen. Die Verfügbarkeit von NVIDIA Tensor Core GPUs wie der A100 und H100 verbessert sich auf Premium-Cloud-GPU-Plattformen. Sie müssen keine massive Infrastrukturinvestition tätigen, um die Fähigkeiten einer oder mehrerer H100 für Ihre Bedürfnisse zu testen. Starten Sie eine Instanz mit DataCrunch oder fordern Sie ein maßgeschneidertes Angebot an.