NVidia L40S

| Nowości SupermicroNowości

Przedstawienie NVidia L40S (GPU-NVL40S)

 

NVidia L40S

Specyfikacja Nvidia L40S
GPU Architecture  NVIDIA Ada Lovelace architecture
GPU Memory  48GB GDDR6 with ECC
Memory Bandwidth  864GB/s
Interconnect Interface  PCIe Gen4 x16: 64GB/s bidirectional
 NVIDIA Ada Lovelace Architecture-Based CUDA® Cores  18,176
 NVIDIA Third-Generation RT Cores  142
 NVIDIA Fourth-Generation Tensor Cores  568
 RT Core Performance TFLOPS  212 
 FP32 TFLOPS  91.6
 TF32 Tensor Core TFLOPS  183 I 366*
 BFLOAT16 Tensor Core TFLOPS  362.05 I 733*
 FP16 Tensor Core  362.05 I 733*
 FP8 Tensor Core  733 I 1,466*
 Peak INT8 Tensor TOPS  733 I 1,466*
Peak INT4 Tensor TOPS  733 I 1,466*
Form Factor  4.4" (H) x 10.5" (L), dual slot
Display Ports  4x DisplayPort 1.4a
Max Power Consumption  350W
Power Connector  16-pin
Thermal  Passive
Virtual GPU (vGPU) Software Support  Yes
vGPU Profiles Supported  See virtual GPU licensing guide
NVENC I NVDEC  3x l 3x (includes AV1 encode and decode)
Secure Boot With Root of Trust  Yes
NEBS Ready  Level 3
Multi-Instance GPU (MIG) Support  No
NVIDIA® NVLink® Support  No
*With Sparsity
  • Nowa architektura Ada Lovelace obejmuje nowy wieloprocesor strumieniowy, rdzenie Tensor czwartej generacji, rdzenie RT trzeciej generacji i 91,6 Wydajność teraFLOPS FP32.
  • Doświadcz mocy generatywnej sztucznej inteligencji, szkolenia LLM i wnioskowania dzięki funkcjom takim jak Transformer Engine — FP8, wydajność tensorowa ponad 1,5 petaFLOPS* i duża pamięć podręczna L2.
  • Uwolnij niezrównane możliwości grafiki 3D i renderowania dzięki wydajności rdzenia RT 212 teraFLOPS, DLSS 3.0 do generowania ramek AI i zmianie kolejności wykonywania modułów cieniujących.
  • Zwiększ akcelerację multimediów dzięki 3 silnikom kodowania i dekodowania, 4 dekoderom JPEG oraz obsłudze kodowania i dekodowania AV1.

Dlaczego NVidia L40S - Kluczowe korzyści

  • Imponująca wydajność. Dla LLM, lepsza wydajność niż nawet HGX A100 w wielu scenariuszach, w tym na poziomie GPT-170B, z wyjątkiem szkolenia na masową skalę od zera
  • Idealny do korzystania z wstępnie wyszkolonych modeli podstawowych firmy NVIDIA, typu open source i dostrajanie • Lepsza dostępność (skrócony czas realizacji – dostępny od września)
  • Obejmuje grafikę, solidne silniki multimedialne (niedostępne z A100/H100)
  • 20-25% lepsza cena niż A100

Korzyści dla klientów, którzy rozważają L40S zamiast H100 lub A100

  1. Jakie jest obciążenie pracą?
    • Jeśli korzystasz z Generative AI/dużych modeli językowych (LLM), czy trenujesz duży model od podstaw ogromny zestaw danych lub dostrajanie wstępnie wytrenowanego modelu?
    • Czy wnioskowanie przeprowadzasz głównie na podstawie wstępnie wyszkolonych modeli?
    • Czy planujesz uruchamiać obciążenia HPC, takie jak symulacje naukowe/inżynierskie? Czy precyzja FP64 ważny?
    • Czy Twoje obciążenie pracą wymaga grafiki, kodowania/dekodowania/transkodowania wideo?
    • Czy będą to aplikacje brzegowe?
  2. Jakie są odpowiednie punkty odniesienia dla obciążenia pracą?
  3. Jaka jest skala, ile procesorów graficznych jest wymaganych?
    • np. 4000 L40S z precyzją FP8 może w pełni wytrenować GPT170B z tokenami 300B w mniej niż 4 dni, który jest szybszy niż HGX A100 i tańszy.
  4. Jakieś konkretne specyfikacje techniczne lub problemy związane z wąskimi gardłami? Np. GPU pamięć, przepustowość pamięci, GPU Interconnect i opóźnienie?

Ważne:

  • Nvidia L40S nie wspiera NVLink
  • NVidia L40S jest tańsza ~15% niż A100

 Powiązane strony:

  1. Serwery Supermicro dedykowane dla NVidia L40S
  2. Serwery Gigabyte dedykowane dla NVidia L40S
  3. Nowe stacje robocze Supermicro SYS-551A-T oraz Supermicro SYS-751GE-TNRT-NV1 chłodzone cieczą dedykowane dla AI
  4. Nowe serwery GIGABYTE G363-SR0 oraz G593-SD2 dla AI oraz HPC (Giga Computing)
  5. Artificial Intelligence (AI) ChatGPT, Bing, Bard - part 1
  6. Platformy GPU Supermicro