A API oficial do Reflection 70B era um wrapper do Claude Sonnet 3.5

(old.reddit.com)

3 pontos por GN⁺ 2024-09-10 | 1 comentários | Compartilhar no WhatsApp

Há alguns dias, alguém anunciou o Reflection 70B, alegando ser uma versão ajustada do Llama 3.1 70B, junto com resultados de benchmark surpreendentes
- O lançamento dos weights foi uma bagunça. Alegaram que era um fine-tuning para 3.1, mas lançaram uma LoRA para 3.0
- Ao rodar com os pesos lançados, no início as avaliações não corresponderam às expectativas
- Ao usar o endpoint hospedado, as avaliações passaram a ter desempenho em nível SOTA
As pessoas encontraram uma forma engenhosa de verificar qual modelo estava rodando no endpoint
- Uso de tokens específicos por modelo e censura específica de cada modelo
- Pelo que descobriram, afirmam que não era o próprio modelo ajustado deles, mas sim um wrapper em torno do Sonnet 3.5
- Depois que foi postado no Twitter que parecia ser Sonnet, o conteúdo mudou
- Em seguida, outro usuário afirmou ter encontrado evidências, usando método semelhante, de que trocaram o modelo hospedado para GPT-4o
Os resultados estão misturados e inconsistentes, então não está claro o que é verdade e o que é falso
Tweet de lançamento do criador original: https://twitter.com/mattshumer_/status/1831767014341538166
Thread no Twitter acompanhando, via prompts, que as coisas continuavam mudando: https://x.com/RealJosephus/status/1832904398831280448

1 comentários

GN⁺ 2024-09-10

Comentários do Hacker News

Foi anunciado que o modelo Llama 3.1 70B tinha desempenho excelente, mas vários problemas ocorreram
- Os pesos do Lora for Llama 3.0 foram distribuídos incorretamente
- A avaliação inicial ficou abaixo do esperado
- O endpoint hospedado mostrou desempenho SOTA
- Vários métodos foram usados para verificar qual modelo ele realmente era
- Descobriu-se que estava usando o modelo Sonnet 3.5
- Depois, foram encontradas evidências de que houve troca para o modelo GPT 4o
- Isso gerou confusão e desperdício de tempo
Afirma-se que esta postagem deveria receber mais atenção
- A reputação de uma pessoa conhecida como nome importante na área de AI foi prejudicada
- Há evidências como filtragem de "claude", erro de tags e o modelo admitindo que era o claude
- O ponto mais decisivo foi o comportamento do modelo respondendo em árabe, algo que a versão do Llama não suporta
As pessoas fazem muitas coisas por fama, e há curiosidade sobre qual é o objetivo final de Schumer

Tweet original do autor (deve ser apagado em breve)

Estou feliz em anunciar o Reflection 70B, o melhor modelo open source do mundo.
Foi treinado usando Reflection-Tuning, permitindo que o LLM corrija os próprios erros.
O 405B será lançado na próxima semana, e esperamos que se torne o melhor modelo do mundo.

Há uma piada sobre alguém cujo nome rima com "odd" e começa com a terceira letra (C*** Debussy)
Há dúvidas se houve alguma "confirmação" de fontes confiáveis, já que é difícil confiar em post do Reddit, thread no Twitter e screenshots com origem incerta

A API oficial do Reflection 70B era um wrapper do Claude Sonnet 3.5

Leituras relacionadas

1 comentários

Comentários do Hacker News