- O primeiro desafio de comunidade aberta do mundo em que os usuários avaliam após o upload do modelo
- A temporada 1, episódio 1, começa em 10 de junho, com prêmio de US$ 250k ao longo de 12 semanas
- Formato da competição
- O Chai Reward Model (GPT-2), treinado diretamente com 170 milhões de sinais gerados por usuários, será disponibilizado como open source
- Esse modelo pode ser usado para avaliação offline ou integrado como parte de um pipeline de RLHF
- Como o treinamento de modelos de linguagem é caro, serão testados vários modelos-base para que qualquer pessoa possa participar da competição
- Para os modelos enviados, um classificador interno de AI Safety verifica se eles podem ser disponibilizados e depois eles são abertos para testes A/B com usuários
- Mais de cerca de 1 milhão de usuários reais farão a avaliação
1 comentários
A imagem da llama, como se tivesse se fundido com um Super Saiyajin, é marcante.