26 pontos por xguru 2024-02-29 | 1 comentários | Compartilhar no WhatsApp

Resumo das respostas à pergunta publicada no HN

  • Ajudou dezenas de clientes a migrar do GPT-4/GPT-3.5 no OpenPipe para modelos próprios com fine-tuning
    • A reação mais comum foi: “Uau, eu não imaginava que isso funcionaria tão bem com tão pouco esforço”
    • Na maioria das tarefas, o Mistral 7B com fine-tuning supera o GPT-3.5 por um custo muito menor
    • Em alguns casos de uso, entrega desempenho parecido com o GPT-4 ou até melhor (especialmente em tarefas como classificação, extração de informações e resumo)
  • Usam Mistral-Instruct-0.1 para resumo de ligações/e-mails, Mixtral para mineração de contratos e OpenChat para reforçar chatbots agentes com ferramentas de RAG
    • A experiência foi excelente, e o trade-off de INT8 é aceitável até que hardware FP8 (FP4) fique mais amplamente disponível e barato
    • Os custos on-premises já foram absorvidos ao rodar milhões de interações usando equipamentos legados A100 e V100
  • Estão usando Continue com Ollama, e o principal LLM é o deepseek-coder 7b. Essa configuração é tão boa quanto o ChatGPT 4, prioriza o local e, no geral, estão satisfeitos
  • Ajustaram um LLM para executar tarefas técnicas, e funcionou muito bem. Porém, avaliar LLMs é surpreendentemente difícil, e descobriram que o GPT-4 em geral não é tão extraordinário assim
  • Para extração ou processamento de dados em mais de 10.000 registros, preferem usar modelos locais. Serviços hospedados seriam lentos e frágeis nesse ponto. O Mistral 7B com fine-tuning (OpenChat foi o melhor) processa os dados rapidamente. Usam o ChatGPT-4 para resumir informações de prompts complexos e depois executam isso no modelo local. Acreditam que a situação vai melhorar cada vez mais
  • Em apps e produtos corporativos, oferecem suporte tanto à API da OpenAI quanto a bibliotecas on-device (por exemplo, llama.cpp). Como API e biblioteca são muito parecidas, a transição é quase transparente para o usuário. Também pretendem oferecer suporte em breve às APIs de outras plataformas, com integração tão fácil quanto a da OpenAI
  • Usaram Mistral 7B em um voo sem Wi‑Fi, e ele foi bastante útil para encontrar as informações necessárias, mas teve resultados inconsistentes ao fornecer instruções passo a passo
  • Durante o desenvolvimento do Double.bot, testaram vários modelos, mas no fim voltaram para o gpt4. Os outros modelos são divertidos, mas é frustrante quando deixam passar 1 entre 100 perguntas que o gpt4 resolve. No momento, estão obtendo mais valor ao implementar recursos em torno do modelo, o que resolve problemas do GitHub copilot (autocompletar fechando corretamente os parênteses, importar automaticamente ao aceitar sugestões, desativar sugestões ao escrever comentários para não atrapalhar, conclusão no meio da linha etc.). Esperam que, em até 6 meses, os modelos open source alcancem o gpt4
  • Em geral, acham o Llama 2 bem ruim, especialmente em idiomas que não sejam inglês. Tiveram resultados muito bons com o Mixtral para chat. Claro, comparado ao ChatGPT real, todos parecem um Frankenstein. Às vezes parecem semelhantes e funcionam bem, mas ocasionalmente soltam lixo completo ou artefatos, a ponto de parecer que o fine-tuning foi negligenciado
  • Eles fazem a primeira etapa com o próprio modelo e, se o resultado não for confiável, escalam para o GPT
  • Em 2024, esperam que muito mais gente abandone a OpenAI por causa de custo e latência, em comparação com concorrentes (menos validados/mais escaláveis). Como velocidade e qualidade muitas vezes entram em conflito, já viram vários fornecedores mais de 3 vezes mais rápidos que a OpenAI, oferecendo mais de 1/3 da qualidade
  • Estão usando Mixtral 8x7b (q5) para casos de uso como scripting, busca de ideias e/ou definições que sempre exigem checagem de fatos. No momento, usam o lmstudio em um M2 com 96 GB de RAM, mas estão considerando migrar para o Ollama ou outra solução OSS

1 comentários

 
nullptr 2024-02-29

Como é o HN, acho que é preciso ter em mente que o padrão é o inglês.