GPT-4.5 ou GPT-5 está sendo testado no LMSYS?

(rentry.co)

3 pontos por GN⁺ 2024-04-30 | Ainda não há comentários. | Compartilhar no WhatsApp

Contexto

O modelo gpt2-chatbot, divulgado recentemente pelo LMSYS, está mostrando um desempenho muito superior ao do modelo GPT-2 já conhecido
É difícil encontrar informações sobre esse modelo, tanto no site do LMSYS quanto em outros lugares
Nos resultados da API de benchmark do LMSYS, apenas esse modelo foi notavelmente excluído

Afirma ser "baseado em GPT-4" e se refere a si mesmo como "ChatGPT"
Apresenta características diferentes das de modelos treinados com datasets da OpenAI gerados por outras organizações
Parece usar o tokenizer tiktoken da OpenAI
Foi encontrada uma vulnerabilidade de prompt injection característica da OpenAI
Mostra características de saída diferentes das de modelos de outras organizações

Na prática, há grande chance de ser o GPT-4.5 ou o GPT-5. A qualidade das respostas melhorou tanto quanto o salto do GPT-3.5 para o GPT-4
Também existe a possibilidade de o LMSYS ter treinado um modelo próprio ou usado uma abordagem semelhante a MoE, mas, considerando a ligação com a OpenAI, isso parece menos provável

Parece ser uma forma de a OpenAI fazer benchmark discretamente de seu modelo GPT mais recente por meio do LMSYS
O objetivo seria obter resultados de benchmarks mais naturais, evitar avaliações negativas causadas por expectativas exageradas e minimizar a vigilância de outros concorrentes

Também existe a possibilidade de ele realmente ser baseado na arquitetura GPT-2, já que pesquisas recentes mostraram que o GPT-2 teve desempenho superior a outros modelos em áreas específicas
O fato de se autodenominar GPT-4 pode ser porque usou um dataset gerado pelo GPT-4
Também chama atenção o fato de que a MBZUAI, uma das patrocinadoras do LMSYS, esteja envolvida nessa pesquisa

As especulações em torno da identidade do gpt2-chatbot são interessantes. Concordo com a opinião de que há grande chance de ser o modelo mais recente da OpenAI
Por outro lado, não dá para descartar a possibilidade de ele ser baseado na arquitetura GPT-2. Pelos resultados de pesquisas recentes, o potencial do GPT-2 ainda parece alto
A especulação de que a OpenAI esteja fazendo benchmarks discretamente por meio do LMSYS também é convincente. É uma estratégia que permite obter avaliações objetivas enquanto evita a vigilância dos concorrentes.
Parece provável que diversos experimentos e pesquisas continuem tentando revelar a verdadeira natureza do gpt2-chatbot. Isso pode servir como uma oportunidade para medir o estágio de evolução dos grandes modelos de linguagem
Desde o início, o próprio nome "gpt2-chatbot" pode ter sido escolhido para passar a impressão de que se trata de GPT-2. Também não dá para descartar que esse nome tenha sido dado intencionalmente pela OpenAI