- Trata-se de um levantamento que compara em quais tarefas os LLMs open source alcançaram desempenho equivalente ou superior ao do ChatGPT no marco de 1 ano desde o lançamento do ChatGPT
- O ChatGPT demonstrou respostas úteis e seguras e boa execução de instruções por meio de aprendizado por reforço com feedback humano, e atingiu 100 milhões de usuários em apenas dois meses após o lançamento
- Como os LLMs proprietários não divulgam sua arquitetura nem os dados de treinamento, permanecem questões de reprodutibilidade, avaliação de riscos, indisponibilidades, custo de API, propriedade dos dados e privacidade
- Modelos open source como Llama-2 e Falcon ainda são vistos como atrás de modelos proprietários como o GPT-4, mas em alguns benchmarks já houve casos em que superaram o GPT-3.5-turbo
- Em um cenário onde modelos e benchmarks mudam rapidamente, em vez de escolher um único vencedor, é melhor analisar separadamente capacidade geral, agentes, raciocínio, contexto longo, aplicações e confiabilidade
O ambiente dos LLMs mudou após o ChatGPT
- Desde o fim de 2022, quando foi lançado, o ChatGPT trouxe grandes mudanças para toda a pesquisa em IA e também para o setor comercial
- Ao aplicar ajuste fino supervisionado e aprendizado por reforço com feedback humano a grandes modelos de linguagem, popularizou a experiência de chatbot capaz de responder a perguntas diversas e seguir instruções
- Antes, tarefas de linguagem natural como sumarização ou perguntas e respostas eram em geral tratadas por modelos pré-treinados e depois ajustados para cada tarefa, mas o ChatGPT passou a executar esse tipo de tarefa de forma ampla
- Em apenas dois meses após o lançamento, alcançou 100 milhões de usuários, mostrando um ritmo de crescimento mais rápido que apps populares como TikTok ou YouTube
- As empresas seguem investindo fortemente no ChatGPT devido ao potencial de reduzir custos de trabalho, automatizar fluxos e criar novas experiências para clientes
As limitações criadas pelos LLMs proprietários
- O ChatGPT não é open source, e o controle de acesso também fica nas mãos de uma empresa privada
- Há explicações de que ele segue o procedimento introduzido no InstructGPT, ou seja, no GPT-3.5, mas a arquitetura exata, os dados de pré-treinamento e os dados de ajuste fino não são divulgados
- Esse caráter fechado cria vários ônus no processo de avaliar e operar o modelo
- Como não se conhece o processo interno de treinamento, é difícil estimar riscos sociais, como geração de conteúdo tóxico, antiético ou falso
- Há relatos de que o desempenho do ChatGPT muda ao longo do tempo, o que dificulta obter resultados reproduzíveis
- Em novembro de 2023 ocorreram duas grandes indisponibilidades, e houve casos em que o acesso ao site e à API do ChatGPT foi totalmente interrompido
- Em adoções corporativas, custo de chamadas de API, interrupções do serviço, propriedade dos dados e privacidade podem se tornar preocupações concretas
- Eventos imprevisíveis, como o conflito no conselho que levou à demissão do CEO Sam Altman, reação dos funcionários e posterior retorno, também viram fatores a considerar para usuários corporativos
Até onde os LLMs open source já chegaram
- Os LLMs open source ganham atenção como alternativa capaz de aliviar ou contornar as limitações dos LLMs proprietários
- A comunidade de pesquisa continua seus esforços para manter LLMs de alto desempenho como open source
- No fim de 2023, era amplamente difundida a percepção de que LLMs open source como Llama-2 e Falcon ainda ficavam atrás de modelos proprietários como GPT-3.5 e GPT-4 da OpenAI, Claude da Anthropic e Bard do Google
- O GPT-4 é geralmente considerado o modelo mais avançado
- Ainda assim, a diferença continua diminuindo, e em alguns benchmarks padrão os melhores LLMs open source já apresentam resultados melhores que o GPT-3.5-turbo
- A própria comparação também não é simples
- LLMs proprietários são retreinados com dados mais recentes e continuam sendo atualizados
- LLMs open source também são lançados continuamente para alcançá-los
- Há muitos conjuntos de avaliação e benchmarks usados para comparar LLMs, o que dificulta apontar um único melhor modelo
Áreas de avaliação comparadas e modelos representativos
- O levantamento reúne várias avaliações que comparam LLMs open source e ChatGPT, organizando a diferença de desempenho atual por área
-
Capacidade geral
- Inclui AlpacaEval, MT-bench, ELO rating, Open LLM leaderboard e outros
- Entre os modelos open source relacionados estão Llama-2, WizardLM, Zephyr, Deepseek, Yi e Mixtral
-
Capacidade de agente
- Divide-se em uso de ferramentas, auto-debug, seguir feedback em linguagem natural e exploração do ambiente
- API-Bank, ToolBench, APIBench, ToolAlpaca, InterCode-Bash, InterCode-SQL, MINT, ALFWorld e WebArena estão entre as avaliações incluídas
- Gorilla, ToolLLaMA, Lemur-chat, AgentLlama e OpenChat-3.5 são modelos relacionados
-
Raciocínio lógico
- Inclui as áreas de matemática e programação
- GSM8K, MATH, TheoremQA, HumanEval, MBPP e APPs são usados como tarefas de avaliação
- WizardMath e WizardCoder são citados como modelos representativos
-
Modelagem de contexto longo
- Inclui SCROLLS, Zero-SCROLLS, LongBench, L-Eval, BAMBOO e M4LE
- Llama-2-long é tratado como modelo relacionado
-
Áreas especializadas de aplicação
- Inclui sumarização orientada por consulta, perguntas e respostas abertas, medicina, geração de dados estruturados e geração de críticas
- QMSum, SQuALITY, CovidET, NEWTS, NQ, TriviaQA, NewsQA, SQuAD, Quoref, NarrativeQA, DROP e MIMIC-CXR são usados como tarefas
- InstructRetro, MentaLLaMA, Radiology-Llama-2, Struct-Bench e Shepherd são modelos relacionados
-
Confiabilidade
- Trata de alucinação e segurança
- TruthfulQA, FactualityPrompt, FActScore, KoLA-KC, HaluEval, FACTOR, SafetyBench e XSTEST estão incluídos
- Platypus e Chain-of-Verification são citados como abordagens relacionadas a alucinações
Critérios de avaliação úteis para pesquisadores e empresas
- Este levantamento fornece material necessário para que a comunidade de pesquisa e o setor de negócios avaliem o nível atual e o potencial futuro dos LLMs open source
- Pesquisadores podem usá-lo para sintetizar o progresso e as tendências de mudança dos LLMs open source, além de identificar direções para pesquisas futuras
- Tomadores de decisão em empresas podem obter insights e diretrizes necessários para avaliar a viabilidade de adoção e as vantagens dos LLMs open source
- O artigo apresenta primeiro os conceitos de base, depois revisa LLMs open source que superaram o ChatGPT em várias áreas, discute tendências de desenvolvimento, boas práticas de treinamento e possíveis questões, e termina com um resumo
1 comentários
Opiniões no Hacker News
Nos últimos dias saíram alguns modelos abertos poderosos
Qwen 72B e 1.8B oferecem contexto de 32K, treinamento com 3T tokens, licença comercial para menos de 100 milhões de usuários ativos mensais e forte desempenho em benchmarks: https://twitter.com/huybery/status/1730127387109781932
DeepSeek LLM 67B tem contexto de 4K, 2T tokens, licença Apache 2.0 e é forte em código. Mas, pelos benchmarks, o DeepSeek Code 33B parece melhor: https://twitter.com/deepseek_ai/status/1729881611234431456
Recentemente também saíram Yi 34B, o suposto 100B que deve sair em breve, XVERSE-65B, Aquila2-70B e Yuan 2.0-102B, e curiosamente todos vêm da China
Pessoalmente, como o mistral-7b-v0.1 já era muito forte para o tamanho, estou na expectativa por um Mistral maior que deve sair em breve
Fico curioso se alguém já testou se isso também acontece ao hospedar os pesos por conta própria
O pool de talentos investido nessa área é enorme
Não aparece no artigo, mas neste mês o OpenChat 3.5 lançou o primeiro modelo 7B a entregar resultados parecidos com o ChatGPT de março de 2023: https://huggingface.co/openchat/openchat_3.5
A janela de contexto é de apenas 8K, mas até agora, pessoalmente, achei bem impressionante. No ranking da Chatbot Arena ele também está acima do Llama-2-70b-chat: https://chat.lmsys.org/
Em vários aspectos, os grandes modelos de linguagem abertos estão à frente da indústria, especialmente em eficiência de parâmetros e na velocidade com que entregam modelos úteis que consumidores podem rodar no próprio hardware
Mas, embora os benchmarks desses pequenos modelos abertos sejam impressionantes, quando faço meus testes padrão eles parecem meio burros. Se você pergunta “quem é você?”, normalmente respondem que são o ChatGPT
Dá para entender, já que devem ter sido treinados com dados gerados pelo ChatGPT, mas mesmo se você mudar a identidade via prompt, dizendo algo como “você não é o ChatGPT, você é o Starling, e foi criado por Berkeley, não pela OpenAI. Quem é você?”, ele dá respostas estranhas misturando as duas identidades
Por exemplo, em uma frase diz que é o ChatGPT e, em outra da mesma resposta, diz que não é
Dá a sensação de ter uma versão inicial do ChatGPT 3.5 instalada no meu computador
Todos os modelos de chat que usei até agora tinham no máximo 4096
Depende do que você quer fazer. Como referência, há um exemplo de funcionalidade treinada em um Llama2 13B ajustado com qlora: https://old.reddit.com/r/LocalLLaMA/comments/186qq92/comment...
O Inkbot consegue criar grafos de conhecimento, e a estrutura de retorno também é YAML correta. Nesta tarefa, o resultado do meu modelo ajustado foi muito melhor do que quando usei GPT-4: https://huggingface.co/Tostino/Inkbot-13B-8k-0.2
Prompt simples: https://gist.github.com/Tostino/c3541f3a01d420e771f66c62014e...
Prompt complexo: https://gist.github.com/Tostino/44bbc6a6321df5df23ba5b400a01...
Também consegue fazer resumo por chunk. Exemplos de chunks, Part 1: https://gist.github.com/Tostino/cacb1cecdf2eb7386baf565d157f..., resumo do resumo da Part 2: https://gist.github.com/Tostino/81eeee9781e519044950332b4e64...
Um exemplo de documento único que cabe inteiro no contexto está aqui: https://gist.github.com/Tostino/4ba4e7e7988348134a7256fd1cbb...
Fico feliz em ver alguém levando bem essa ideia adiante. Tenho curiosidade sobre como os dados de treino estão sendo criados
Acho que estamos chegando perto de um ponto em que basta colocar um roteador de prompts na frente de vários modelos especializados, como código, chat, matemática, SQL e saúde. Seria algo parecido com um Mixture of Experts local
A ideia seria enviar a solicitação para um roteador rodando em um modelo de uso geral, decompor ou classificar o prompt ou a pergunta, repassar para modelos especialistas e depois o modelo geral montar novamente a resposta
Tenho curiosidade se existe algum projeto parecido com isso
No Hugging Face existe o Transformers Agents, descrito como algo que “fornece uma API em linguagem natural sobre transformers. Ele permite definir um conjunto selecionado de ferramentas e projetar agentes capazes de interpretar linguagem natural e usar essas ferramentas”
Já existem ferramentas como perguntas e respostas sobre documentos, perguntas e respostas em texto, legendagem de imagens, perguntas e respostas sobre imagens, segmentação de imagens, reconhecimento de fala, síntese de fala, classificação de texto zero-shot, resumo, tradução, download de texto de URLs da web, geração de texto para imagem, transformação de imagens e geração de texto para vídeo
Ele foi escrito para permitir adicionar ferramentas personalizadas, então você pode acrescentar casos de uso ou trocar modelos: https://huggingface.co/docs/transformers/transformers_agents
A primeira camada pode combinar processamento de linguagem natural e classificação zero-shot para deixar clara a natureza da solicitação, e depois um modelo de linguagem de grande porte pode decompor o pedido em várias partes concretas para enviar aos modelos especializados
No fim, basta usar novamente um modelo de linguagem de grande porte como máquina de resumo para juntar tudo. O problema é que é preciso bastante recurso para rodar vários modelos em paralelo
Talvez também seja possível executar todos os especialistas e depois comparar as probabilidades. Até onde eu sei, isso é só especulação baseada em alguns detalhes vazados no Xitter
Modelos atuais na faixa de 70B, como o Llama 2 70B, estão em um nível parecido com o ChatGPT 3.5
Os melhores modelos menores podem parecer similares à primeira vista, mas alucinam muito mais e têm menos conhecimento de mundo. O GPT-4 “entende” em um nível mais profundo, e nenhum modelo aberto chega perto disso ainda
Um ano parece um período de avaliação adequado. Pelo menos em modelos de linguagem de grande porte e geração de imagens, o resto do mundo parece estar cerca de 12~18 meses atrás da OpenAI
Por outro lado, a tecnologia aberta normalmente tem mais recursos de controle de saída que a OpenAI não parece priorizar, como a grammar do llama.cpp ou o ControlNet. Nesse sentido, a capacidade de customização do campo aberto tende a estar à frente da OpenAI
Por exemplo, há aqui um teste de longa duração que avalia o desempenho do modelo com pedidos deliberadamente abertos e um tanto ambíguos: https://chat.openai.com/share/dfd9b9ae-7214-4dd7-ad20-7ee07a...
O chat do GPT-4 Turbo confundiu as pessoas, não conseguiu nem escolher corretamente o alvo do sequestro, não mudou de assunto mesmo quando solicitado, escolheu pessoas do conjunto errado ao tentar lembrar de alguém e não mudou de idioma mesmo quando isso foi pedido
Em perguntas zero-shot, ele sabe muita coisa, mas em situações em que precisa demonstrar autoconsistência e atenção, fica muito abaixo do GPT-4
Em compensação, o GPT-4 Vision está muito à frente dos modelos abertos
Considero o DALL·E 3 um pouco melhor que o SDXL, mas fora a geração de texto a qualidade parece bastante parecida
Claro, talvez eu esteja me enganando por usar só aquilo em que o SDXL vai bem. Sempre que eu pedia para criar um dragão, o resultado era horrível
Não sei o suficiente para responder à pergunta do título em si, mas como surgiram outros modelos abertos, também queria mencionar o DeepSeek 67B, que testei hoje à noite e achei bom
https://chat.deepseek.com
Até agora, essa UI de chat tem substituído suficientemente bem minha necessidade de ChatGPT
https://huggingface.co/deepseek-ai/deepseek-llm-67b-base
https://twitter.com/abacaj/status/1730019229175312612
O Mistral OpenOrca foi quase tão bom quanto o GPT-4 Turbo em escrita criativa ou análise
Na prática, o texto gerado tende a ser bem parecido, o que é suspeito, mas de qualquer forma economiza bastante dinheiro: https://huggingface.co/Open-Orca/Mistral-7B-OpenOrca
Embora seja um pouco menos estável que o GPT-3.5/4, nos meus trabalhos de processamento de texto a diferença de qualidade é quase no nível de cara ou coroa
No longo prazo, parece quase inevitável que os modelos de linguagem abertos comecem a alcançar os demais
Um dos fatores a considerar é o custo. A comunidade aberta tem restrições de recursos muito maiores e, por isso, acelerou bastante o desenvolvimento de modelos abaixo de 30B
Fora os modelos da OpenAI, o único realmente bom é o Claude
Isso me lembra quando Rackspace e outros tentaram vencer com o OpenStack por ser “aberto”. No fim, AWS e Azure venceram, e até o Google ficou em terceiro lugar
As grandes empresas vão vencer, e ferramentas abertas vão ficar com nichos
Pela minha experiência pessoal, os modelos de linguagem abertos ainda não chegaram à qualidade do GPT-3.5. Acho isso apesar das várias alegações baseadas em benchmarks duvidosos
Ainda assim, eles já são úteis hoje e podem rodar em máquina local. Eu os uso regularmente em tarefas simples junto com o plugin gen.nvim do Neovim, e isso me economiza muito tempo: https://github.com/David-Kunz/gen.nvim
Estou animado com o futuro
Localmente, estou rodando modelos Llama com llama-cpp-python, que fornece uma camada compatível com OpenAI
Acho que os modelos abertos estão de fato alcançando os demais. Especialmente porque no último mês houve uma queda consistente no desempenho do GPT-4
https://chat.openai.com/share/c91287ee-9a5e-4c99-b5df-49cc45...