Logotipo Mydra
Artificial Intelligence
DeepLearning.AI logo

DeepLearning.AI

Aprendizado por Reforço a partir de Feedback Humano

  • até 1 hora
  • Intermédio

Obtenha uma compreensão conceitual do Aprendizado por Reforço a partir de Feedback Humano (RLHF), bem como dos conjuntos de dados necessários para essa técnica. Ajuste o modelo Llama 2 usando RLHF com a Biblioteca de Componentes do Google Cloud Pipeline de código aberto e avalie o desempenho do modelo ajustado em comparação com o modelo base usando métodos de avaliação.

  • Aprendizado por Reforço a partir de Feedback Humano
  • Ajuste fino de LLMs
  • Biblioteca de Componentes do Google Cloud Pipeline
  • Avaliação de modelos
  • Análise de curvas de perda

Visão Geral

Neste curso, você obterá uma compreensão conceitual do processo de treinamento do RLHF e, em seguida, praticará a aplicação do RLHF para ajustar um LLM. Você explorará os dois conjuntos de dados usados no treinamento do RLHF: os conjuntos de dados 'preferência' e 'prompt'. Use a Biblioteca de Componentes do Google Cloud Pipeline de código aberto para ajustar o modelo Llama 2 com RLHF. Avalie o LLM ajustado em comparação com o modelo base original, comparando curvas de perda e usando o método 'Side-by-Side (SxS)'.

  • Web Streamline Icon: https://streamlinehq.com
    Online
    localização do curso
  • Layers 1 Streamline Icon: https://streamlinehq.com
    Inglês
    idioma do curso
  • Ao seu próprio ritmo
    formato do curso
  • Aulas Ao vivo
    entregue online

Para quem é este curso?

Desenvolvedores Python

Qualquer pessoa com conhecimento intermediário de Python que esteja interessada em aprender sobre o uso da técnica de Aprendizado por Reforço a partir de Feedback Humano.

Entusiastas de IA

Indivíduos que desejam entender como alinhar grandes modelos de linguagem com valores e preferências humanas.

Cientistas de Dados

Profissionais que visam ajustar modelos de linguagem usando técnicas avançadas como RLHF.

Este curso oferece uma imersão profunda no Aprendizado por Reforço a partir de Feedback Humano (RLHF), um método chave para alinhar grandes modelos de linguagem com valores e preferências humanas. Ideal para desenvolvedores Python, entusiastas de IA e cientistas de dados, este curso ajudará você a ajustar LLMs e avaliar seu desempenho, avançando suas habilidades e carreira em IA.

Pré-Requisitos

1 / 3

  • Conhecimento intermediário de Python

  • Compreensão básica de conceitos de aprendizado de máquina

  • Familiaridade com grandes modelos de linguagem (LLMs)

O que vai aprender?

Introdução ao RLHF
Obtenha uma compreensão conceitual do Aprendizado por Reforço a partir de Feedback Humano (RLHF) e sua importância no alinhamento de LLMs com valores e preferências humanas.
Conjuntos de Dados para RLHF
Explore os dois conjuntos de dados usados no treinamento do RLHF: os conjuntos de dados 'preferência' e 'prompt'.
Usando a Biblioteca de Componentes do Google Cloud Pipeline
Aprenda a usar a Biblioteca de Componentes do Google Cloud Pipeline de código aberto para ajustar o modelo Llama 2 com RLHF.
Avaliação de Modelos
Avalie o LLM ajustado em comparação com o modelo base original, comparando curvas de perda e usando o método 'Side-by-Side (SxS)'.

Conheça seu instrutor

  • Nikita Namjoshi

    Advogada de Desenvolvedores para IA Generativa no Google Cloud

Próximas turmas

  • Datas

    comece agora

Gratuito