Servir Eficientemente LLMs
Travis AddairDeepLearning.AI
En este curso, aprenderás cómo los modelos de lenguaje grande auto-regresivos generan texto un token a la vez. Implementarás los elementos fundamentales de una pila de inferencia LLM moderna en código, incluyendo almacenamiento en caché de KV, agrupamiento continuo y cuantización de modelos, y evaluarás sus impactos en el rendimiento y la latencia de la inferencia. Explorarás los detalles de cómo funcionan los adaptadores LoRA y aprenderás cómo las técnicas de agrupamiento permiten que diferentes adaptadores LoRA se sirvan a múltiples clientes simultáneamente. Trabajarás con el servidor de inferencia del marco LoRAX de Predibase para ver estas técnicas de optimización implementadas en un servidor de inferencia LLM del mundo real. Saber más sobre cómo operan los servidores LLM te ayudará a comprender mejor las opciones que tienes para aumentar el rendimiento y la eficiencia de tus aplicaciones impulsadas por LLM.

