12/09/2023 Por paco0494 6

Nvidia Anuncia Nuevo Software que Duplicará la Velocidad de Inferencia de LLM en la GPU H100

Nvidia, el gigante de los chips de inteligencia artificial, ha anunciado planes para lanzar un nuevo software de código abierto que acelerará significativamente las aplicaciones en tiempo real que utilizan grandes modelos de lenguaje (LLM) alimentados por sus GPUs, incluyendo el acelerador insignia H100.

La compañía, con sede en Santa Clara, California, reveló que la biblioteca de software, llamada TensorRT-LLM, duplicará el rendimiento del H100 en la ejecución de inferencias en los principales LLM cuando se lance el próximo mes. Nvidia tiene previsto integrar este software, que ya está disponible en acceso temprano, en su marco Nvidia NeMo LLM como parte del conjunto de software Nvidia AI Enterprise.

Logrando un Avance Significativo en el Rendimiento

Este anuncio llega en un momento en que Nvidia busca mantener su dominio en el creciente mercado de cómputo de inteligencia artificial, lo que le permitió duplicar sus ingresos en el último trimestre financiero. Según Ian Buck, vicepresidente de hiperescala y cómputo de alto rendimiento en Nvidia, este aumento en el rendimiento se ha logrado mediante la aplicación de las técnicas más avanzadas, los programadores más recientes y la incorporación de las últimas optimizaciones y núcleos.

En el mes pasado, Nvidia ya había adelantado detalles sobre TensorRT-LLM como parte de la plataforma recientemente anunciada VMware Private AI Foundation, que permitirá a los clientes de VMware utilizar sus datos patentados para construir LLM personalizados y ejecutar aplicaciones de IA generativa utilizando Nvidia AI Enterprise en VMware Cloud Foundation.

Soporte Amplio y Características Clave de TensorRT-LLM

TensorRT-LLM ofrecerá soporte para varias GPUs de Nvidia más allá del H100, incluyendo su acelerador de centro de datos insignia anterior, el A100, así como el L4, L40, L40S y el próximo Grace Hopper Superchip, que combina una GPU H100 con su CPU Grace de 72 núcleos.

Este anuncio también aborda la creciente demanda del H100 y el A100, impulsada por el desarrollo de IA generativa, lo que ha llevado a tiempos de espera prolongados para muchas empresas. En este sentido, Ian Buck señaló que Nvidia ofrece una amplia gama de productos para que los clientes elijan la infraestructura adecuada para su viaje en la inteligencia artificial.

Cómo TensorRT-LLM Acelera las GPUs de Nvidia

Nvidia trabajó en estrecha colaboración con importantes actores del ecosistema de IA, incluyendo la empresa matriz de Facebook, Meta, y Mosaic, el proveedor de plataformas de IA generativa recientemente adquirido por Databricks, para optimizar la inferencia de LLM que se encuentra en TensorRT-LLM de código abierto.

TensorRT-LLM optimiza el rendimiento de la inferencia de LLM en las GPUs de Nvidia de cuatro maneras:

  1. Incluye versiones de LLM listas para usar y optimizadas para inferencia de las últimas LLM, como GPT-3, Llama, Falcon 180B y BLOOM. El software también incluye los últimos núcleos de IA de código abierto que introducen técnicas de vanguardia para ejecutar LLM.
  2. Ofrece una biblioteca de software que permite que las versiones de inferencia de LLM se ejecuten automáticamente en múltiples GPUs y servidores GPU conectados a través de las interconexiones NVLink e InfiniBand de Nvidia.
  3. Introduce una nueva programación en vuelo que permite que el trabajo entre y salga de la GPU de forma independiente de otras tareas, lo que mejora significativamente la eficiencia de la GPU.
  4. Está optimizado para aprovechar el Motor Transformer del H100, que convierte automáticamente los LLM entrenados en formato de punto flotante de 16 bits a formato de entero de 8 bits, ocupando menos espacio en la memoria de la GPU.

El Rendimiento de H100 con TensorRT-LLM

Nvidia compartió dos gráficos que demuestran cómo las optimizaciones de TensorRT-LLM permiten que el H100 proporcione un rendimiento significativamente mayor para LLM populares:

  • Para el LLM GPT-J 6B, se demostró que un H100 habilitado con TensorRT-LLM puede realizar inferencias dos veces más rápido que un H100 regular y ocho veces más rápido que el A100 de generación anterior.
  • Para el LLM Llama2 de Meta, se mostró que el H100 optimizado funciona casi un 77 por ciento más rápido que el H100 convencional y 4.6 veces más rápido que el A100.

Estos avances se traducen en una mayor eficiencia energética, ya que el H100 utiliza la misma cantidad de energía para completar el doble de tareas gracias a TensorRT-LLM.

En resumen, el anuncio de Nvidia sobre TensorRT-LLM promete impulsar significativamente el rendimiento de las GPUs de Nvidia en aplicaciones de LLM, lo que podría tener un impacto profundo en una amplia gama de aplicaciones de inteligencia artificial y aprendizaje automático. Mantente atento para conocer más detalles cuando se lance este emocionante nuevo software el próximo mes.

Martin, D. (2023, September 8). Nvidia says new software will double LLM inference speed on H100 GPU. CRN. https://www.crn.com/news/components-peripherals/nvidia-says-new-software-will-double-llm-inference-speed-on-h100-gpu?utm_source=tldrnewsletter