NVIDIA объявляет о крупных обновлениях Triton Inference Server; число компаний, использующих NVIDIA AI Inference, превысило 25 000

Автор: NVIDIA РОССИЯ

Capital One, Microsoft, Samsung Medison, Siemens Energy, Snap и другие лидеры отрасли уже являются пользователями платформы 

САНТАКЛАРА, Калифорния—GTC— 9 ноября 2021— NVIDIA объявила о крупных обновлениях своей платформы инференса, которую сейчас используют свыше 25 000 клиентов, включая Capital One, Microsoft, Samsung Medison, Siemens Energy и Snap.

Обновления включают новые возможности программного обеспечения с открытым исходным кодом NVIDIA Triton Inference ServerTM, которое обеспечивает кроссплатформенный инференс для всех моделей ИИ и фреймворков, и в NVIDIA TensorRTTM, которое оптимизирует модели ИИ и обеспечивает среду выполнения для высокопроизводительного инференса на графических процессорах NVIDIA.

Компания также представила графический процессор с тензорными ядрами NVIDIA A2, экономичный компактный ускоритель для инференса на edge-системах, который обеспечивает скорость инференса до 20 раз выше, чем CPU.

«Платформа инференса NVIDIA обеспечивает прорывы практически во всех отраслях, включая здравоохранение, финансовые услуги, розничную торговлю, производство и суперкомпьютеры, — говорит Ян Бак (Ian Buck), вице-президент и генеральный менеджер по ускоренным вычислениям в NVIDIA. — Платформа NVIDIA для инференса обеспечивает низкие задержки, высокую пропускную способность, универсальную производительность в сочетании с простотой использования, что необходимо для новых ключевых приложений ИИ по всему миру, будь то предоставление более качественных рекомендаций, использование возможностей диалогового ИИ или стимулирование научных открытий».

Ключевые программные оптимизации 

Обновления Triton Inference Server включают:

  • Triton Model Analyzer — Этот новый инструмент автоматизирует ключевую задачу оптимизации, помогая выбрать лучшие конфигурации для моделей искусственного интеллекта из сотен возможных. Он обеспечивает оптимальную производительность и гарантирует качество обслуживания, необходимое для приложений.
  • Поддержка нескольких GPU/узлов — Эта новая функция позволяет использовать большие языковые модели на основе Transformer, такие как Megatron 530B, которые больше не по силам одному GPU, для инференса на нескольких GPU и серверных узлах и обеспечивает производительность инференса в реальном времени.
  • RAPIDS FIL — Этот новый бэкэнд для GPU- или CPU-инференса моделей на основе алгоритмов случайного леса и градиентного бустинга предоставляет разработчикам унифицированный механизм развертывания как для глубокого обучения, так и для традиционного машинного обучения с Triton.
  • Amazon SageMaker Integration — Эта интеграция позволяет клиентам легко развертывать мультифреймворковые модели с высокой производительностью с помощью Triton в SageMaker, полностью управляемом сервисе искусственного интеллекта AWS.
  • Поддержка Arm CPU — Triton теперь включает бэкенды для оптимизации задач инференса на CPU Arm, в дополнение к GPU NVIDIA и CPU x86

Triton поддерживает инференс на графических и центральных процессорах в облаке, центре обработки данных, в edge- и встраиваемых системах и интегрирован в AWS, Google Cloud, Microsoft Azure, Alibaba Cloud и Tencent Cloud. Triton также включен в NVIDIA AI Enterprise, комплексный программный пакет для разработки и развертывания ИИ, который оптимизирован, сертифицирован и поддерживается NVIDIA и который позволяет клиентам запускать задачи ИИ в локальных центрах обработки данных и в VMware vSphere.

В дополнение к Triton, TensorRT теперь поддерживается в TensorFlow и PyTorch, обеспечивая втрое выше производительность по сравнению с инференсом во фреймворке со всего одной строчкой кода. Это наделяет разработчиков возможностями TensorRT в сильно упрощенном рабочем процессе.

NVIDIA TensorRT 8.2, последняя версия SDK, ускоряет высокопроизводительный инференс для задач глубокого обучения, обеспечивая высокую пропускную способность и низкие задержки в облаке, локально и на периферии. Благодаря новым оптимизациям языковые модели с миллиардами параметров можно запускать в реальном времени.

Лидеры отрасли используют платформу инференса от NVIDIA 

Лидеры отрасли используют платформу инференса NVIDIA, чтобы улучшить свои бизнес-операции и предложить клиентам новые сервисы на базе ИИ.

Microsoft Azure Cognitive Services предоставляет облачные API-интерфейсы для высококачественных моделей искусственного интеллекта для создания интеллектуальных приложений. Здесь используется Triton для запуска моделей преобразования речи в текст, которые предоставляют пользователям Microsoft Teams точные субтитры и транскрипции в реальном времени.

Samsung Medison, компания по производству медицинского оборудования и дочерняя компания Samsung Electronics, использует TensorRT для повышения качества медицинских изображений с помощью искусственного интеллекта для своих ультразвуковых систем. Samsung Medison стремится улучшить жизнь пациентов и медицинских работников за счет повышения их комфорта, сокращения времени сканирования, упрощения рабочего процесса и, в конечном итоге, увеличения пропускной способности системы.

Siemens Energy, единственная в мире энергетическая компания, специализирующаяся на чистых технологиях и предлагающая передовые решения в энергетике, использует Triton, чтобы помочь своим клиентам управлять электростанциями с помощью искусственного интеллекта.

Платформа инференса NVIDIA включает новые сертифицированные NVIDIA системы, новый GPU A2

Сертифицированные системы NVIDIA позволяют клиентам подбирать, приобретать и развертывать системы для различных современных приложений ИИ в высокопроизводительной, экономичной и масштабируемой инфраструктуре и теперь включают две новые категории для edge-задач. 

Новые категории позволяют партнерам NVIDIA выпускать полную линейку сертифицированных систем NVIDIA на базе графических процессоров NVIDIA Ampere для практически любых рабочих нагрузок. Сюда входит новый графический процессор NVIDIA A2, экономичный компактный ускоритель начального уровня для инференса и edge-задач ИИ на edge-серверах. Теперь NVIDIA A2 вместе с NVIDIA A30 для основных корпоративных серверов и NVIDIA A100 для высокопроизводительных серверов процессор обеспечивают ускорение инференса на периферии, в ЦОД и в облаке.

Ведущие мировые поставщики корпоративных систем, такие как Atos, Dell Technologies, GIGABYTE, H3C, Hewlett Packard Enterprise, Inspur, Lenovo и Supermicro, поддерживают NVIDIA AI Enterprise в сертифицированных системах NVIDIA в своих линейках решений искусственного интеллекта.

Остальные поставщики систем, такие как Advantech, ASRock Rack, ASUS, Nettrix и QCT, также предлагают сертифицированные NVIDIA системы для различных задач. Первые сертифицированные системы NVIDIA, прошедшие сертификацию в новых категориях, скоро будут доступны от ведущих поставщиков, включая Advantech, GIGABYTE и Lenovo.

Доступность
Triton доступен в NVIDIA NGCTM, каталоге оптимизированного программного обеспечения для GPU, который включает фреймворки, наборы инструментов, предварительно обученные модели и Jupyter Notebooks, а также в виде открытого исходного кода из репозитория Triton GitHub.

TensorRT доступен участникам программы NVIDIA Developer на странице TensorRT. Последние версии плагинов, парсеров и семплов также доступны в виде открытого исходного кода в репозитории TensorRT GitHub. Заказчики могут испытать NVIDIA Triton в программном пакете NVIDIA AI Enterprise в специальных лабораториях, доступных по всему миру, в NVIDIA LaunchPad.

Программный пакет NVIDIA AI Enterprise доступен у партнеров NVIDIA по всему миру, включая Atea, Axians, Carahsoft Technology Corp., Computacenter, Insight Enterprises, NTT, Presidio, Sirius, SoftServe, SVA System Vertrieb Alexander GmbH, TD SYNNEX, Trace3 и WWT.