Servindo LLMs Eficientemente

até 1 hora
Intermédio

Junte-se ao nosso novo curso curto, Servindo Grandes Modelos de Linguagem Eficientemente, para construir uma compreensão completa de como servir aplicações LLM com Travis Addair, CTO da Predibase. Esteja você pronto para lançar sua própria aplicação ou apenas começando a construí-la, este curso aprofundará seu conhecimento fundamental sobre como os LLMs funcionam e ajudará você a entender melhor os trade-offs de desempenho que deve considerar.

Cache de KV
Batching contínuo
Quantização de modelo
Adaptadores de Baixa Ordem (LoRA)
Pilha de inferência LLM

Visão Geral

Neste curso, você aprenderá como modelos de linguagem grande auto-regressivos geram texto um token de cada vez. Você implementará os elementos fundamentais de uma pilha de inferência LLM moderna em código, incluindo cache de KV, batching contínuo e quantização de modelo, e avaliará seus impactos na taxa de transferência e latência de inferência. Você explorará os detalhes de como os adaptadores LoRA funcionam e aprenderá como as técnicas de batching permitem que diferentes adaptadores LoRA sejam servidos a vários clientes simultaneamente. Coloque a mão na massa com o servidor de inferência do framework LoRAX da Predibase para ver essas técnicas de otimização implementadas em um servidor de inferência LLM do mundo real. Saber mais sobre como os servidores LLM operam internamente aumentará muito sua compreensão das opções que você tem para aumentar o desempenho e a eficiência de suas aplicações alimentadas por LLM.

Online
localização do curso
Inglês
idioma do curso
Ao seu próprio ritmo
formato do curso
Aulas Ao vivo
entregue online

Para quem é este curso?

Desenvolvedores

Qualquer pessoa que queira entender os componentes, técnicas e trade-offs de servir aplicações LLM eficientemente.

Cientistas de Dados

Profissionais que desejam aprofundar seu conhecimento fundamental sobre como os LLMs funcionam e os trade-offs de desempenho envolvidos.

Entusiastas de IA

Indivíduos interessados em aprender sobre as otimizações que permitem aos fornecedores de LLM servir modelos eficientemente para muitos clientes.

Este curso ajudará você a entender os principais componentes, técnicas e trade-offs de servir aplicações LLM eficientemente. Você aprenderá sobre as otimizações mais importantes para servir modelos a muitos clientes e ganhará experiência prática com técnicas do mundo real. Ideal para desenvolvedores, cientistas de dados e entusiastas de IA que desejam aprimorar suas habilidades e conhecimentos.

Pré-Requisitos

1 / 3

Conhecimento intermediário de Python
Compreensão básica de conceitos de aprendizado de máquina
Familiaridade com modelos de linguagem grande (LLMs)

O que vai aprender?

Introdução aos LLMs

Aprenda como modelos de linguagem grande auto-regressivos geram texto um token de cada vez.

Cache de KV

Implemente o cache de KV e entenda seu impacto na taxa de transferência e latência de inferência.

Batching Contínuo

Explore técnicas de batching contínuo e seus benefícios para servir múltiplos usuários.

Quantização de Modelo

Aprenda sobre a quantização de modelo e como ela afeta o desempenho e a eficiência.

Adaptadores de Baixa Ordem (LoRA)

Entenda como os adaptadores LoRA funcionam e seu papel em servir múltiplos modelos ajustados.

Benchmarking

Avalie os impactos de várias técnicas na taxa de transferência e latência de inferência.

Implementação no Mundo Real

Coloque a mão na massa com o servidor de inferência do framework LoRAX da Predibase para ver as técnicas de otimização em ação.

Conheça seu instrutor

Travis Addair
Nenhuma biografia disponível

Próximas turmas

Custo
Gratuito
Duração
1 hora
Datas
comece agora
Localização
Online

Gratuito