DeepLearning.AI
Obtenha uma compreensão conceitual do Aprendizado por Reforço a partir de Feedback Humano (RLHF), bem como dos conjuntos de dados necessários para essa técnica. Ajuste o modelo Llama 2 usando RLHF com a Biblioteca de Componentes do Google Cloud Pipeline de código aberto e avalie o desempenho do modelo ajustado em comparação com o modelo base usando métodos de avaliação.
Neste curso, você obterá uma compreensão conceitual do processo de treinamento do RLHF e, em seguida, praticará a aplicação do RLHF para ajustar um LLM. Você explorará os dois conjuntos de dados usados no treinamento do RLHF: os conjuntos de dados 'preferência' e 'prompt'. Use a Biblioteca de Componentes do Google Cloud Pipeline de código aberto para ajustar o modelo Llama 2 com RLHF. Avalie o LLM ajustado em comparação com o modelo base original, comparando curvas de perda e usando o método 'Side-by-Side (SxS)'.
Desenvolvedores Python
Qualquer pessoa com conhecimento intermediário de Python que esteja interessada em aprender sobre o uso da técnica de Aprendizado por Reforço a partir de Feedback Humano.
Entusiastas de IA
Indivíduos que desejam entender como alinhar grandes modelos de linguagem com valores e preferências humanas.
Cientistas de Dados
Profissionais que visam ajustar modelos de linguagem usando técnicas avançadas como RLHF.
Este curso oferece uma imersão profunda no Aprendizado por Reforço a partir de Feedback Humano (RLHF), um método chave para alinhar grandes modelos de linguagem com valores e preferências humanas. Ideal para desenvolvedores Python, entusiastas de IA e cientistas de dados, este curso ajudará você a ajustar LLMs e avaliar seu desempenho, avançando suas habilidades e carreira em IA.
1 / 3
Conhecimento intermediário de Python
Compreensão básica de conceitos de aprendizado de máquina
Familiaridade com grandes modelos de linguagem (LLMs)
Nikita Namjoshi
Advogada de Desenvolvedores para IA Generativa no Google Cloud
Custo
Gratuito
Duração
Datas
Localização