Logotipo Mydra
Artificial Intelligence
DeepLearning.AI logo

DeepLearning.AI

Servindo LLMs Eficientemente

  • até 1 hora
  • Intermédio

Junte-se ao nosso novo curso curto, Servindo Grandes Modelos de Linguagem Eficientemente, para construir uma compreensão completa de como servir aplicações LLM com Travis Addair, CTO da Predibase. Esteja você pronto para lançar sua própria aplicação ou apenas começando a construí-la, este curso aprofundará seu conhecimento fundamental sobre como os LLMs funcionam e ajudará você a entender melhor os trade-offs de desempenho que deve considerar.

  • Cache de KV
  • Batching contínuo
  • Quantização de modelo
  • Adaptadores de Baixa Ordem (LoRA)
  • Pilha de inferência LLM

Visão Geral

Neste curso, você aprenderá como modelos de linguagem grande auto-regressivos geram texto um token de cada vez. Você implementará os elementos fundamentais de uma pilha de inferência LLM moderna em código, incluindo cache de KV, batching contínuo e quantização de modelo, e avaliará seus impactos na taxa de transferência e latência de inferência. Você explorará os detalhes de como os adaptadores LoRA funcionam e aprenderá como as técnicas de batching permitem que diferentes adaptadores LoRA sejam servidos a vários clientes simultaneamente. Coloque a mão na massa com o servidor de inferência do framework LoRAX da Predibase para ver essas técnicas de otimização implementadas em um servidor de inferência LLM do mundo real. Saber mais sobre como os servidores LLM operam internamente aumentará muito sua compreensão das opções que você tem para aumentar o desempenho e a eficiência de suas aplicações alimentadas por LLM.

  • Web Streamline Icon: https://streamlinehq.com
    Online
    localização do curso
  • Layers 1 Streamline Icon: https://streamlinehq.com
    Inglês
    idioma do curso
  • Ao seu próprio ritmo
    formato do curso
  • Aulas Ao vivo
    entregue online

Para quem é este curso?

Desenvolvedores

Qualquer pessoa que queira entender os componentes, técnicas e trade-offs de servir aplicações LLM eficientemente.

Cientistas de Dados

Profissionais que desejam aprofundar seu conhecimento fundamental sobre como os LLMs funcionam e os trade-offs de desempenho envolvidos.

Entusiastas de IA

Indivíduos interessados em aprender sobre as otimizações que permitem aos fornecedores de LLM servir modelos eficientemente para muitos clientes.

Este curso ajudará você a entender os principais componentes, técnicas e trade-offs de servir aplicações LLM eficientemente. Você aprenderá sobre as otimizações mais importantes para servir modelos a muitos clientes e ganhará experiência prática com técnicas do mundo real. Ideal para desenvolvedores, cientistas de dados e entusiastas de IA que desejam aprimorar suas habilidades e conhecimentos.

Pré-Requisitos

1 / 3

  • Conhecimento intermediário de Python

  • Compreensão básica de conceitos de aprendizado de máquina

  • Familiaridade com modelos de linguagem grande (LLMs)

O que vai aprender?

Introdução aos LLMs
Aprenda como modelos de linguagem grande auto-regressivos geram texto um token de cada vez.
Cache de KV
Implemente o cache de KV e entenda seu impacto na taxa de transferência e latência de inferência.
Batching Contínuo
Explore técnicas de batching contínuo e seus benefícios para servir múltiplos usuários.
Quantização de Modelo
Aprenda sobre a quantização de modelo e como ela afeta o desempenho e a eficiência.
Adaptadores de Baixa Ordem (LoRA)
Entenda como os adaptadores LoRA funcionam e seu papel em servir múltiplos modelos ajustados.
Benchmarking
Avalie os impactos de várias técnicas na taxa de transferência e latência de inferência.
Implementação no Mundo Real
Coloque a mão na massa com o servidor de inferência do framework LoRAX da Predibase para ver as técnicas de otimização em ação.

Conheça seu instrutor

  • Travis Addair

    Nenhuma biografia disponível

Próximas turmas

  • Datas

    comece agora

Gratuito