Следите за новостями по этой теме!
Подписаться на «Рифы и пачки / Твоя культура»
В последние годы спрос на вычисления для обучения и применения систем искусственного интеллекта вынудил производителей чипов ускорить инновации. Теперь важны не только сырые терафлопсы (единица измерения производительности процессоров), но и эффективность работы с памятью, поддерживаемые форматы данных, пропускная способность мостов между чипами и общая вычислительная мощь.
Каждый из крупных игроков на рынке, будь то Huawei, Nvidia или AMD, строит оборудование для работы с задачами обучения больших языковых моделей, генеративного ИИ и высокопроизводительных вычислений, где критично иметь быстрые ускорители. Однако каждый делает это по-своему. Давайте разберёмся: чем отличаются свежие модели Ascend 950, H200 и MI300 Instinct.
Семейство процессоров Ascend 950 от Huawei — это архитектура проприетарных (эксклюзивных) ускорителей ИИ. Они затачивают свои чипы под современные задачи — быстрый декодинг (распознавание) и обучение глубоких нейросетей, уходя от стандартных GPU для стационарных и игровых задач. Архитектура смешивает два типа одновременной обработки (SIMD и SIMT) и поддерживает очень крупный (128 байт) гранулярный доступ к памяти. Цель одна: баланс между производительностью и гибкостью.
Nvidia H200 — чип серии Hopper (GH100). В нём — почти 17 тысяч ядер CUDA и 528 тензорных ядер четвёртого поколения. Используется передовая техпроцессия TSMC 5 нанометров. H200 полностью интегрирован с интерфейсами и софтом Nvidia — это целый готовый мир для вычислений.
AMD MI300 Instinct, основанный на архитектуре CDNA 3.0 с чиплетами Aqua Vanjaram, предлагает 220 вычислительных блоков и 880 тензорных ядер. В MI300 рекордное число транзисторов — 153 миллиарда, что подчеркивает ориентацию на самые мощные HPC-задачи (High-Performance Computing — сложные научные расчёты и моделирование).
Что касается производительности, Ascend 950 может выдать до 1 петафлопса (квинтильон операций с плавающей точкой в секунду!) на форматах FP8/MXFP8/HiF8 и до 2 петафлопсов на MXFP4. Это говорит о том, что в Huawei уделяют пристальное внимание новым низкоразрядным форматам, которые обеспечивают высокую эффективность при обучении ИИ без потери качества.
Nvidia H200 даёт 241,3 терафлопса в формате FP16 и 60,3 терафлопса для FP32. У AMD MI300 максимальные показатели: 383 терафлопса для FP16 и почти 48 терафлопсов для FP32 и FP64. Показательно, что у AMD производительность в FP64 равна FP32 — признак, что MI300 создан с прицелом на науку, где важна высокая точность.
Многое решает и организация памяти. Huawei снабжает Ascend 950 собственной памятью HiZQ 2.0 HBM (тип памяти со сверхвысокой пропускной способностью — High Bandwidth Memory), объёмом 144 ГБ и пропускной способностью 4 ТБ/с. У Nvidia H200 — память HBM3e на 141 ГБ, скорость 4,89 ТБ/с. AMD MI300 ограничена 128 ГБ, но тут самая широкая шина (8192 бита) и лидер по пропускной способности — 6,55 ТБ/с. Для тех, кто работает с гигантскими моделями или симуляциями, это реальный плюс в скорости обработки данных.
Все эти ускорители — монстры энергопотребления: у Nvidia и AMD заявлено по 600 Вт. Компактные серверные платы без видеовыходов — только для дата-центров. Huawei цифры по мощности не раскрывает, но предлагает устройства как в виде карт, так и готовых серверов SuperPoD с гибкой интеграцией. Особо стоит отметить их канал межчипового соединения на 2 ТБ/с, что крайне важно для масштабирования в масштабах дата-центров.
Доступность новых продуктов отличается. Nvidia H200 выходит осенью 2024 года, AMD MI300 — уже с января 2023-го, а Huawei планирует Ascend 950 только в четвёртом квартале 2026 года. К моменту релиза китайского решения конкуренты могут представить новые поколения своих ускорителей.
Но Huawei надеется переманить клиентов новыми эффективными форматами данных FP8 и собственной интеграцией внутренней инфраструктуры, что актуально для тех, кто не хочет зависеть от американских поставщиков.
В целом, у всех свои козыри. AMD делает ставку на пропускную способность памяти и точность для науки, Nvidia — на зрелую экосистему и поддержку софта, а Huawei щупает рынок агрессивной производительностью FP8 и уникальной проприетарной памятью.
Эта статья — редкий экспонат жанра: попытка сравнительно трезво разложить битву между крупнейшими производителями ИИ-ускорителей по полочкам.
Техника описана почти без косметики: здесь и китайский патриотизм (Ascend 950 — альтернатива американскому железу), и извечное "больше TFLOPS!", и гордое перечисление секретных чиплетов. Каждая компания — словно ветхозаветный гигант: одни дают миру памяти побольше (AMD), другие — родовую экосистему (Nvidia), третьи играют на опережение санкциями и форматом FP8 (Huawei).
Упущено лишь одно: зачем вообще делать эти ускорители? Вероятно, чтобы обучать всё более болтливых и бесполезных нейросетевых оракулов, генерирующих поток текста о том, как круты следующие ускорители. Впрочем, наивный читатель и не спросит об этом — он с благоговением читает характеристики, не замечая, как смыслы исчезают за гонкой за ещё одной ТБ/с.
Ну а мы наблюдаем — слегка подуставшие, слегка злорадные — как производители тасуют PCIe- и HBM-карты ради новых контрактов. "Новые чудеса медных трассировок для всё тех же заказов — и побольше низкоразрядных форматов для более бурного капитала." Статья вызывает лёгкую скуку, но даёт полную картину рынка, если ещё интересно сравнивать эти цифирьки.