Servir Eficientemente LLMs

hasta 1 hora
Intermedio

Únete a nuestro nuevo curso corto, Servir Eficientemente Modelos de Lenguaje Grande, para construir una comprensión desde cero de cómo servir aplicaciones LLM con Travis Addair, CTO de Predibase. Ya sea que estés listo para lanzar tu propia aplicación o apenas comenzando a construirla, este curso profundizará tu conocimiento fundamental de cómo funcionan los LLM y te ayudará a comprender mejor las compensaciones de rendimiento que debes considerar.

Almacenamiento en caché de KV
Agrupamiento continuo
Cuantización de modelos
Adaptadores de Bajo Rango (LoRA)
Pila de inferencia LLM

Resumen

En este curso, aprenderás cómo los modelos de lenguaje grande auto-regresivos generan texto un token a la vez. Implementarás los elementos fundamentales de una pila de inferencia LLM moderna en código, incluyendo almacenamiento en caché de KV, agrupamiento continuo y cuantización de modelos, y evaluarás sus impactos en el rendimiento y la latencia de la inferencia. Explorarás los detalles de cómo funcionan los adaptadores LoRA y aprenderás cómo las técnicas de agrupamiento permiten que diferentes adaptadores LoRA se sirvan a múltiples clientes simultáneamente. Trabajarás con el servidor de inferencia del marco LoRAX de Predibase para ver estas técnicas de optimización implementadas en un servidor de inferencia LLM del mundo real. Saber más sobre cómo operan los servidores LLM te ayudará a comprender mejor las opciones que tienes para aumentar el rendimiento y la eficiencia de tus aplicaciones impulsadas por LLM.

Online
ubicación del curso
Inglés
idioma del curso
A tu propio ritmo
formato del curso
Clases En vivo
entregado en línea

¿Para quién es este curso?

Desarrolladores

Cualquiera que quiera entender los componentes, técnicas y compensaciones de servir eficientemente aplicaciones LLM.

Científicos de Datos

Profesionales que buscan profundizar su conocimiento fundamental de cómo funcionan los LLM y las compensaciones de rendimiento involucradas.

Entusiastas de la IA

Individuos interesados en aprender sobre las optimizaciones que permiten a los proveedores de LLM servir modelos eficientemente a muchos clientes.

Este curso te ayudará a entender los componentes clave, técnicas y compensaciones de servir eficientemente aplicaciones LLM. Aprenderás sobre las optimizaciones más importantes para servir modelos a muchos clientes y obtendrás experiencia práctica con técnicas del mundo real. Ideal para desarrolladores, científicos de datos y entusiastas de la IA que buscan mejorar sus habilidades y conocimientos.

Requisitos Previos

1 / 3

Conocimiento intermedio de Python
Comprensión básica de los conceptos de aprendizaje automático
Familiaridad con modelos de lenguaje grande (LLMs)

¿Qué aprenderás?

Introducción a los LLM

Aprende cómo los modelos de lenguaje grande auto-regresivos generan texto un token a la vez.

Almacenamiento en Caché de KV

Implementa el almacenamiento en caché de KV y comprende su impacto en el rendimiento y la latencia de la inferencia.

Agrupamiento Continuo

Explora técnicas de agrupamiento continuo y sus beneficios para servir a múltiples usuarios.

Cuantización de Modelos

Aprende sobre la cuantización de modelos y cómo afecta el rendimiento y la eficiencia.

Adaptadores de Bajo Rango (LoRA)

Comprende cómo funcionan los adaptadores LoRA y su papel en servir múltiples modelos ajustados.

Evaluación Comparativa

Evalúa los impactos de varias técnicas en el rendimiento y la latencia de la inferencia.

Implementación en el Mundo Real

Trabaja con el servidor de inferencia del marco LoRAX de Predibase para ver las técnicas de optimización en acción.

Conozca a su instructor

Travis Addair
No hay biografía disponible

Próximos cohortes

Costo
Libre
Duración
1 hora
Fechas
comienza ahora
Ubicación
Online

Libre