- Há alguns dias, alguém anunciou o Reflection 70B, alegando ser uma versão ajustada do Llama 3.1 70B, junto com resultados de benchmark surpreendentes
- O lançamento dos weights foi uma bagunça. Alegaram que era um fine-tuning para 3.1, mas lançaram uma LoRA para 3.0
- Ao rodar com os pesos lançados, no início as avaliações não corresponderam às expectativas
- Ao usar o endpoint hospedado, as avaliações passaram a ter desempenho em nível SOTA
- As pessoas encontraram uma forma engenhosa de verificar qual modelo estava rodando no endpoint
- Uso de tokens específicos por modelo e censura específica de cada modelo
- Pelo que descobriram, afirmam que não era o próprio modelo ajustado deles, mas sim um wrapper em torno do Sonnet 3.5
- Depois que foi postado no Twitter que parecia ser Sonnet, o conteúdo mudou
- Em seguida, outro usuário afirmou ter encontrado evidências, usando método semelhante, de que trocaram o modelo hospedado para GPT-4o
- Os resultados estão misturados e inconsistentes, então não está claro o que é verdade e o que é falso
- Tweet de lançamento do criador original: https://twitter.com/mattshumer_/status/1831767014341538166
- Thread no Twitter acompanhando, via prompts, que as coisas continuavam mudando: https://x.com/RealJosephus/status/1832904398831280448
1 comentários
Comentários do Hacker News
Foi anunciado que o modelo Llama 3.1 70B tinha desempenho excelente, mas vários problemas ocorreram
Afirma-se que esta postagem deveria receber mais atenção
As pessoas fazem muitas coisas por fama, e há curiosidade sobre qual é o objetivo final de Schumer
Tweet original do autor (deve ser apagado em breve)
Há uma piada sobre alguém cujo nome rima com "odd" e começa com a terceira letra (C*** Debussy)
Há dúvidas se houve alguma "confirmação" de fontes confiáveis, já que é difícil confiar em post do Reddit, thread no Twitter e screenshots com origem incerta