3 pontos por GN⁺ 2024-09-10 | 1 comentários | Compartilhar no WhatsApp
  • Há alguns dias, alguém anunciou o Reflection 70B, alegando ser uma versão ajustada do Llama 3.1 70B, junto com resultados de benchmark surpreendentes
    • O lançamento dos weights foi uma bagunça. Alegaram que era um fine-tuning para 3.1, mas lançaram uma LoRA para 3.0
    • Ao rodar com os pesos lançados, no início as avaliações não corresponderam às expectativas
    • Ao usar o endpoint hospedado, as avaliações passaram a ter desempenho em nível SOTA
  • As pessoas encontraram uma forma engenhosa de verificar qual modelo estava rodando no endpoint
    • Uso de tokens específicos por modelo e censura específica de cada modelo
    • Pelo que descobriram, afirmam que não era o próprio modelo ajustado deles, mas sim um wrapper em torno do Sonnet 3.5
    • Depois que foi postado no Twitter que parecia ser Sonnet, o conteúdo mudou
    • Em seguida, outro usuário afirmou ter encontrado evidências, usando método semelhante, de que trocaram o modelo hospedado para GPT-4o
  • Os resultados estão misturados e inconsistentes, então não está claro o que é verdade e o que é falso
  • Tweet de lançamento do criador original: https://twitter.com/mattshumer_/status/1831767014341538166
  • Thread no Twitter acompanhando, via prompts, que as coisas continuavam mudando: https://x.com/RealJosephus/status/1832904398831280448

1 comentários

 
GN⁺ 2024-09-10
Comentários do Hacker News
  • Foi anunciado que o modelo Llama 3.1 70B tinha desempenho excelente, mas vários problemas ocorreram

    • Os pesos do Lora for Llama 3.0 foram distribuídos incorretamente
    • A avaliação inicial ficou abaixo do esperado
    • O endpoint hospedado mostrou desempenho SOTA
    • Vários métodos foram usados para verificar qual modelo ele realmente era
    • Descobriu-se que estava usando o modelo Sonnet 3.5
    • Depois, foram encontradas evidências de que houve troca para o modelo GPT 4o
    • Isso gerou confusão e desperdício de tempo
  • Afirma-se que esta postagem deveria receber mais atenção

    • A reputação de uma pessoa conhecida como nome importante na área de AI foi prejudicada
    • Há evidências como filtragem de "claude", erro de tags e o modelo admitindo que era o claude
    • O ponto mais decisivo foi o comportamento do modelo respondendo em árabe, algo que a versão do Llama não suporta
  • As pessoas fazem muitas coisas por fama, e há curiosidade sobre qual é o objetivo final de Schumer

  • Tweet original do autor (deve ser apagado em breve)

    Estou feliz em anunciar o Reflection 70B, o melhor modelo open source do mundo.
    Foi treinado usando Reflection-Tuning, permitindo que o LLM corrija os próprios erros.
    O 405B será lançado na próxima semana, e esperamos que se torne o melhor modelo do mundo.
    
  • Há uma piada sobre alguém cujo nome rima com "odd" e começa com a terceira letra (C*** Debussy)

  • Há dúvidas se houve alguma "confirmação" de fontes confiáveis, já que é difícil confiar em post do Reddit, thread no Twitter e screenshots com origem incerta