Nvidia GB200 NVL72 поки не готова для навчання передових моделей ШІ

15:30, 26.08.2025

Зміст статті

Чому навчання поки що неможливе
Рекомендації аналітиків і фокус Nvidia
Прогноз на майбутнє та економічна сторона

Аналітичне агентство SemiAnalysis опублікувало аналіз серверних рішень для навчання штучного інтелекту і дійшло висновку, що для навчання передових моделей на даний момент краще підходять прискорювачі Nvidia H100 і H200, а також TPU від Google. Серверні стійки GB200 NVL72 з новітніми GPU Nvidia стикаються з проблемами через мідну комутаційну плату NVLink і недосконалі засоби діагностики та налагодження, що призводить до простоїв.

Чому навчання поки що неможливе

Теоретично «відвал» одного чіпа не є критичним — в NVL72 рекомендується навчати ШІ на 64 GPU GB200, а ще 8 залишати в резерві. Однак для їх підключення необхідно швидко локалізувати несправність, що поки що є складним через обмежені діагностичні інструменти. В результаті зупиняється процес навчання, відкочуються чекпоінти і затягується ремонт. SemiAnalysis відзначає, що поки не відомий жоден завершений приклад тренування передової моделі на GB200 NVL72.

Прогноз на майбутнє та економічна сторона

SemiAnalysis прогнозує, що Nvidia зможе усунути проблеми з NVLink і програмним забезпеченням до кінця року. При цьому вартість володіння одним GPU GB200 в 1,6–1,7 рази вища, ніж у H100. Щоб виправдати інвестиції в нові прискорювачі, вони повинні демонструвати мінімум в 1,6 рази більшу продуктивність при аналогічному часі простою.

Поділитися