Nvidia Anuncia Nuevo Software que Duplicará la Velocidad de Inferencia de LLM en la GPU H100
Nvidia, el gigante de los chips de inteligencia artificial, ha anunciado planes para lanzar un nuevo software de código abierto que acelerará significativamente las aplicaciones en tiempo real que utilizan grandes modelos de lenguaje (LLM) alimentados por sus GPUs, incluyendo el acelerador insignia H100.
La compañía, con sede en Santa Clara, California, reveló que la biblioteca de software, llamada TensorRT-LLM, duplicará el rendimiento del H100 en la ejecución de inferencias en los principales LLM cuando se lance el próximo mes. Nvidia tiene previsto integrar este software, que ya está disponible en acceso temprano, en su marco Nvidia NeMo LLM como parte del conjunto de software Nvidia AI Enterprise.
Logrando un Avance Significativo en el Rendimiento
Este anuncio llega en un momento en que Nvidia busca mantener su dominio en el creciente mercado de cómputo de inteligencia artificial, lo que le permitió duplicar sus ingresos en el último trimestre financiero. Según Ian Buck, vicepresidente de hiperescala y cómputo de alto rendimiento en Nvidia, este aumento en el rendimiento se ha logrado mediante la aplicación de las técnicas más avanzadas, los programadores más recientes y la incorporación de las últimas optimizaciones y núcleos.
En el mes pasado, Nvidia ya había adelantado detalles sobre TensorRT-LLM como parte de la plataforma recientemente anunciada VMware Private AI Foundation, que permitirá a los clientes de VMware utilizar sus datos patentados para construir LLM personalizados y ejecutar aplicaciones de IA generativa utilizando Nvidia AI Enterprise en VMware Cloud Foundation.
Soporte Amplio y Características Clave de TensorRT-LLM
TensorRT-LLM ofrecerá soporte para varias GPUs de Nvidia más allá del H100, incluyendo su acelerador de centro de datos insignia anterior, el A100, así como el L4, L40, L40S y el próximo Grace Hopper Superchip, que combina una GPU H100 con su CPU Grace de 72 núcleos.
Este anuncio también aborda la creciente demanda del H100 y el A100, impulsada por el desarrollo de IA generativa, lo que ha llevado a tiempos de espera prolongados para muchas empresas. En este sentido, Ian Buck señaló que Nvidia ofrece una amplia gama de productos para que los clientes elijan la infraestructura adecuada para su viaje en la inteligencia artificial.
Cómo TensorRT-LLM Acelera las GPUs de Nvidia
Nvidia trabajó en estrecha colaboración con importantes actores del ecosistema de IA, incluyendo la empresa matriz de Facebook, Meta, y Mosaic, el proveedor de plataformas de IA generativa recientemente adquirido por Databricks, para optimizar la inferencia de LLM que se encuentra en TensorRT-LLM de código abierto.
TensorRT-LLM optimiza el rendimiento de la inferencia de LLM en las GPUs de Nvidia de cuatro maneras:
- Incluye versiones de LLM listas para usar y optimizadas para inferencia de las últimas LLM, como GPT-3, Llama, Falcon 180B y BLOOM. El software también incluye los últimos núcleos de IA de código abierto que introducen técnicas de vanguardia para ejecutar LLM.
- Ofrece una biblioteca de software que permite que las versiones de inferencia de LLM se ejecuten automáticamente en múltiples GPUs y servidores GPU conectados a través de las interconexiones NVLink e InfiniBand de Nvidia.
- Introduce una nueva programación en vuelo que permite que el trabajo entre y salga de la GPU de forma independiente de otras tareas, lo que mejora significativamente la eficiencia de la GPU.
- Está optimizado para aprovechar el Motor Transformer del H100, que convierte automáticamente los LLM entrenados en formato de punto flotante de 16 bits a formato de entero de 8 bits, ocupando menos espacio en la memoria de la GPU.
El Rendimiento de H100 con TensorRT-LLM
Nvidia compartió dos gráficos que demuestran cómo las optimizaciones de TensorRT-LLM permiten que el H100 proporcione un rendimiento significativamente mayor para LLM populares:
- Para el LLM GPT-J 6B, se demostró que un H100 habilitado con TensorRT-LLM puede realizar inferencias dos veces más rápido que un H100 regular y ocho veces más rápido que el A100 de generación anterior.
- Para el LLM Llama2 de Meta, se mostró que el H100 optimizado funciona casi un 77 por ciento más rápido que el H100 convencional y 4.6 veces más rápido que el A100.
Estos avances se traducen en una mayor eficiencia energética, ya que el H100 utiliza la misma cantidad de energía para completar el doble de tareas gracias a TensorRT-LLM.
En resumen, el anuncio de Nvidia sobre TensorRT-LLM promete impulsar significativamente el rendimiento de las GPUs de Nvidia en aplicaciones de LLM, lo que podría tener un impacto profundo en una amplia gama de aplicaciones de inteligencia artificial y aprendizaje automático. Mantente atento para conocer más detalles cuando se lance este emocionante nuevo software el próximo mes.
Martin, D. (2023, September 8). Nvidia says new software will double LLM inference speed on H100 GPU. CRN. https://www.crn.com/news/components-peripherals/nvidia-says-new-software-will-double-llm-inference-speed-on-h100-gpu?utm_source=tldrnewsletter
It seems very good to me that they implement that, and there is a better improvement in what NVIDIA is
The news of Nvidia launching TensorRT-LLM is a very interesting development in the field of artificial intelligence and machine learning. since there will be a significant technological advance and also a growing demand for artificial intelligence applications, collaboration with the AI ecosystem, energy efficiency and a great impact on the AI community.
In summary, Nvidia’s announcement of TensorRT-LLM is an important step in improving GPU performance for language modeling applications and has the potential to influence a wide variety of AI applications. It will be interesting to see how it develops and how it will impact the AI landscape once it is available for general use.
Seems like a great thing to do with the recent GPU market, AMD pulling back from the high-end market means a big room of improvement and focus towards heavy duty GPUs. The AI addition is also a good feature which can be a big aid in the work field.
Seems like a great thing to do with the recent GPU market, AMD pulling back from the high-end market means a big room of improvement and focus towards heavy duty GPUs. The AI addition is also a good feature which can be a big aid in the work field.
canadian tadalafil
Stuff by humans
history essay help
Stuff by humans