NVIDIA и глобальные партнеры представляют новые системы HGX A100 для ускорения промышленных ИИ и HPC-приложений

Автор: NVIDIA РОССИЯ

NVIDIA A100 80G PCIe, NVIDIA NDR 400G InfiniBand, NVIDIA Magnum IO ускоряют широкий спектр HPC-систем и облачных сервисов на базе платформы HGX

САНТА-КЛАРА, Калифорния—ISC—28 июня 2021—NVIDIA объявила о приросте мощности супервычислительной платформы NVIDIA HGX™ AI благодаря новым технологиям, которые объединяют ИИ с высокопроизводительными вычислениями, чтобы сделать супервычисления доступнее для еще большего числа индустрий.

Чтобы приблизить приход новой эры промышленных ИИ и HPC-приложений, NVIDIA добавила три ключевых технологии в платформу HGX: GPU NVIDIA® A100 80GB PCIe, сетевые технологии NVIDIA NDR 400G InfiniBand и ПО NVIDIA Magnum IO™ GPUDirect™ Storage. Вместе они обеспечивают экстремальную производительность для промышленных инноваций.

Atos, Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo, Microsoft Azure и NetApp и еще десятки партнеров используют платформу NVIDIA HGX для создания систем и решений нового поколения.

«HPC-революция зародилась в научных кругах и сейчас стремительно захватывает различные отрасли промышленности, — говорит Дженсен Хуанг (Jensen Huang), учредитель и генеральный директор NVIDIA. – Ключевым драйверов развития стал суперэкспоненциальный рост производительности, который сделал высокопроизводительные вычисления полезным инструментом для промышленности. Платформа NVIDIA HGX обеспечивает исследователям несравненные высокопроизводительные вычислительные возможности для решения сложнейших задач, с которыми сталкиваются компании из разных отраслей».

Лидеры промышленности используют платформу HGX для инновационных прорывов

Платформу HGX использует пионер в области высоких технологий в промышленности General Electric: компания применяет достижения в HPC для симуляций в области вычислительной динамики жидкостей (CFD) и разработки крупных газовых турбин и реактивных двигателей. Платформа HGX получила ускорение на порядок и может применять передовые CFD-методы в коде GE GENESIS. Он использует метод крупных вихрей для изучения эффектов турбулентных потоков внутри турбин, которые состоят из сотен отдельных лопастей со сложной геометрией.

Помимо революции в промышленных HPC-вычислениях платформа HGX также ускоряет научные HPC-системы во всем мире, включая новый суперкомпьютер следующего поколения в Университете Эдинбурга, о чем также объявлено сегодня.

Повышение производительности NVIDIA A100 80GB PCIe для ИИ и HPC

Графические процессоры NVIDIA A100 Tensor Core обеспечивают беспрецедентное ускорение HPC-вычислений для решения сложных задач ИИ, анализа данных, обучения моделей и симуляций в промышленности. Графические процессоры A100 80ГБ PCIe располагают на 25% более широкой полосой пропускания по сравнению с A100 40ГБ — до 2ТБ/с — и снабжены 80ГБ высокоскоростной памяти HBM2e.

Колоссальный объем памяти A100 80ГБ PCIe и широкая полоса пропускания позволяют хранить в памяти больше данных и более крупные сети, минимизируя коммуникации между узлами и снижая энергопотребление. В сочетании с более широкой полосой пропускания это обеспечивает исследователям более высокую пропускную способность и быстрое получение результатов, что повышает отдачу от инвестиций в IT.

A100 80ГБ PCIe основан на архитектуре NVIDIA Ampere, которая поддерживает технологию Multi-Instance GPU (MIG) для ускорения небольших рабочих нагрузок, таких, как инференс. MIG позволяет HPC-системам уменьшать объем вычислений и объем памяти с гарантированным качеством сервиса. В дополнение к PCIe есть четырех- и восьми-модульные конфигурации NVIDIA HGX A100.

Партнерами NVIDIA по системам A100 80GB PCIe стали Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT и Supermicro. Платформа HGX на базе графических процессоров A100 с коммутацией NVLink также доступна через облачные сервисы от Amazon Web Services, Microsoft Azure и Oracle Cloud Infrastructure.

Коммутаторы нового поколения NDR 400Гб/с InfiniBand

Системы HPC, для которых требуется несравненно высокая скорость передачи данных, усилены NVIDIA InfiniBand – единственным в мире полностью разгружаемым интерконнектом, поддерживающим сетевые вычисления. NDR InfiniBand масштабирует производительность для решения сложных задач на промышленных и научных HPC-системах. Системы коммутации с фиксированной конфигурацией NVIDIA Quantum™-2 имеют 64 порта со скоростью передачи NDR 400Гб/с InfiniBand на порт (или 128 портов по NDR200), что обеспечивает втрое выше плотность портов по сравнению с HDR InfiniBand.

Модульные коммутаторы NVIDIA Quantum-2 могут иметь до 2048 портов NDR 400GГб/с InfiniBand (или 4096 портов NDR200) с общей пропускной способностью в обоих направлениях 1.64 петабит в секунду, что в 5 раз выше, чем у предыдущего поколения. У коммутатора с 2048 портами в 6.5 раз выше масштабируемость по сравнению с предыдущим поколением, и он способен подключать свыше миллиона узлов в три шага с помощью топологии сети DragonFly+.

Третье поколение технологии сжатия данных NVIDIA SHARP In-Network Computing повышает производительность высокопроизводительных промышленных и научных приложений с 32-кратным ускорением ИИ по сравнению с предыдущим поколением.

Передовые возможности управления включают возможности самовосстановления сети и движки ускорения NVIDIA In-Network Computing. Время простоя центра обработки данных снижено еще больше благодаря платформе NVIDIA UFM® Cyber-AI.

Основанные на промышленных стандартах коммутаторы NVIDIA Quantum-2, поставки которых начнутся к концу года, имеют прямую и обратную совместимость, что обеспечивает простоту миграции и расширение существующих систем и программного обеспечения.

Ведущие в индустрии производители инфраструктуры, включая Atos, DDN, Dell Technologies, Excelero, GIGABYTE, HPE, Lenovo, Penguin, QCT, Supermicro, VAST и WekaIO, планируют интегрировать коммутаторы Quantum-2 NDR 400Gb/s InfiniBand в свои корпоративные и HPC-системы. Поставщики облачных сервисов, включая Azure, также применяют технологию InfiniBand.

Представляем Magnum IO GPUDirect Storage

Обеспечивая несравненную производительность для сложных задач, технология Magnum IO GPUDirect Storage устанавливает прямую связь между памятью GPU и накопителем. Благодаря прямому доступу снижаются задержки при работе с приложениями и полностью используется пропускная способность сетевых адаптеров, при этом снижается нагрузка на CPU и контролируется повышенное потребление данных.

Технологию Magnum IO GPUDirect Storage, которая уже доступна, взяли на вооружение такие промышленные лидеры, как DDN, Dell Technologies, Excelero, HPE, IBM Storage, Micron, NetApp, Pavilion, ScaleFlux, VAST и WekaIO. Полный список партнеров смотрите на странице https://developer.nvidia.com/gpudirect-storage.

————————————————————————————

Подключайтесь к выступлению NVIDIA на ISC21. Сегодня в 19:30: Марк Гамильтон расскажет о последних разработках NVIDIA и пройдет сессия вопросов и ответов с экспертами NVIDIA по HPC. Подробнее — https://www.nvidia.com/en-us/events/isc-digital/.