Modelo da Phind supera o GPT-4 em programação com velocidade de GPT-3.5 e contexto de 16k
(phind.com)- Artigo intitulado 'Modelo da Phind supera o GPT-4 em programação com velocidade de GPT-3.5 e contexto de 16k'
- O modelo da Phind supera o GPT-4 em tarefas de programação, mantendo a velocidade do GPT-3.5 e um contexto de 16k
- Site www.phind.com, é necessária uma verificação de segurança antes de acessar
- O site informa que o navegador do usuário está desatualizado e precisa ser atualizado
- Mais informações sobre suporte a navegadores estão disponíveis na página para desenvolvedores da Cloudflare
- O desempenho e a segurança do site são fornecidos pela Cloudflare
1 comentários
Opiniões do Hacker News
Comparei Phind e GPT-4 por alguns minutos com uma pergunta de design de alto nível, bastante vaga, sobre uma fila de tarefas distribuída. O Phind recomendou ativamente bibliotecas específicas relacionadas à implementação, que batiam bem com a minha pesquisa, e também deu código de exemplo usando as bibliotecas recomendadas.
O Phind anexou várias fontes relevantes, como GitHub e Stack Overflow, o que foi bom como ponto de partida para uma investigação posterior, e as sugestões de perguntas de acompanhamento também foram bem boas.
Ainda assim, o GPT-4 teve qualidade de resposta melhor e pareceu um candidato melhor para uma entrevista de design de sistemas. Ele abordou até contextos fora da pergunta, como logging e métricas, entendeu melhor a “pergunta por trás da pergunta” e, nas perguntas de acompanhamento, deu mais a sensação de ir estreitando a direção da conversa.
Isso não foi um teste de capacidade de programação, como implementação de algoritmos, mas uma comparação como ferramenta de apoio ao raciocínio para design de alto nível e decisões de arquitetura.
Fiz uma pergunta-armadilha que costumo fazer a LLMs: “me dê 5 artigos e códigos recentes de machine learning que usem dados geoespaciais como GeoJSON como entrada e saída”.
Pelo que entendo, esse campo de pesquisa recente não existe, dados geográficos são descontínuos e, portanto, inadequados para transformers, além de serem dependentes de contexto, o que também os torna difíceis para outras abordagens. Aceito uma explicação melhor de um especialista real em machine learning.
Normalmente, LLMs inventam 5 artigos e códigos inexistentes, mas o Phind trouxe 5 links reais e explicou por que eles não eram artigos+código que usam dados GIS; foi a melhor resposta que recebi até agora.
ChatGPT 4 sem navegação web: https://chat.openai.com/share/7e11b4a6-52f2-441a-8614-7266c3...
Já dados de sensoriamento remoto ou imagens de satélite podem ser armazenados em formatos raster, como GeoTIFF, que na prática são imagens TIFF com informações de georreferenciamento.
Machine learning em imagens de satélite em que tanto a entrada quanto a saída são dados geoespaciais é totalmente possível. Por exemplo, em classificação de uso do solo, a entrada pode ser uma imagem multiespectral e a saída uma imagem em que o valor de cada pixel representa o uso do solo identificado.
Machine learning também pode ser usado para detectar footprints de edifícios e extrair contornos a partir de imagens de satélite, e os polígonos de saída podem ser armazenados em GeoJSON. Acho que esses casos se enquadram como exemplos de “machine learning que usa dados geoespaciais como entrada e saída”.
[1]: https://azure.microsoft.com/en-us/blog/how-to-extract-buildi...
É bom ver a concorrência aumentando, mas ainda acho que o GPT-4 é melhor. Quando pedi uma query para preencher
teasercom aproximadamente as primeiras 200 palavras defull_textem uma tabela PostgreSQL, o Phind respondeu criando uma função PL/pgSQL separada que contava palavras com um loop, enquanto o GPT-4 sugeriu uma query que fazia oUPDATEdiretamente comgenerate_serieseSTRING_AGG.UPDATE your_table SET teaser = substring(full_text from '(\S+\s*){1,200}').Fiquei me perguntando se a afirmação de que “é possível chegar a 100 tokens por segundo em um único stream, enquanto o GPT-4 faz, na melhor das hipóteses, cerca de 20 tokens por segundo” é resultado do uso de processamento em lote. Se for, é bem impressionante.
A parte de que o Phind Model pode precisar de mais tentativas de geração do que o GPT-4 para chegar à resposta correta em perguntas difíceis parece, em parte, um problema de ajuste do sampler.
Se ainda não estiverem usando, deveriam olhar para amostragem baseada em gramática (https://github.com/ggerganov/llama.cpp/pull/1773) e amostragem dinâmica como
mirostatedynatemp(https://github.com/LostRuins/koboldcpp/pull/464).Mesmo na implementação da Nvidia, parece que funcionaria se apenas a amostragem fosse trocada pela versão da Hugging Face, e poder implementar diretamente esse tipo de recurso experimental é uma grande vantagem de se afastar da OpenAI.
Uso bastante o GPT-4, e o Phind surpreendentemente ficou no mesmo nível do GPT-4 em várias tarefas de programação que testei de primeira. Considerando a janela de contexto longa do Phind, parece possível que ele supere o GPT-4 em algumas tarefas, e é um avanço considerável, bem impressionante.
Gosto do fato de o Phind citar as fontes do que recuperou. Acho que isso deveria ser obrigatório em todos os LLMs, e por isso costumo recomendar o uso do Phind em vez do ChatGPT.
O conhecimento está distribuído em milhões de exemplos que ensinaram linguagem e linguagem humana, e não fica preservado de uma forma compreensível para humanos.
Há algum tempo comparei o Phind com o GPT-4 pedindo que eles usassem um programa que eu mesmo escrevi; o Phind não entendeu direito o que eu queria, enquanto o GPT-4 entendeu perfeitamente e estava pronto para continuar o prompt e concluir o trabalho.
https://www.phind.com/agent?cache=cloeowfla000dl1084ermly3c
vs
https://chat.openai.com/share/4147da33-3669-4657-88fa-3a9dfc...
Talvez isso não represente o todo, mas ele acabou indo para coisas estranhas que eu não pedi e para informações básicas que eu já sabia.
Usando o Phind Model na busca padrão, parece funcionar bem: https://www.phind.com/search?cache=ln6dpdtv5auwn4cq1ofg3gs9
Dá para ver esse fenômeno também na busca Bing do ChatGPT, e já passei por isso no meu projeto.
É surpreendente que o CodeLlama dê suporte a até 16k tokens. A janela de tokens é uma das limitações para criar uma IA que se lembre do usuário e dê continuidade a conversas anteriores.
Em futuros apps de IA com conversas longas que se estendam por semanas, meses ou anos, uma grande janela de contexto será essencial. A tecnologia já é impressionante hoje, mas ficará ainda mais interessante quando ela conseguir lembrar tudo o que aprendeu e fez junto com você no passado, como um verdadeiro programador pareado.
[0] https://huggingface.co/docs/transformers/main/model_doc/llam...
Sei que não é popular, mas eu gostaria que houvesse uma forma de usar isso dentro do Emacs ou do Vim. Não quero mais usar o VS Code
Foi assim com o IntelliJ no desenvolvimento Java, e acho que isso não foi nada saudável para o ecossistema. Fico muito feliz que o Copilot dê suporte ao Vim, mas me preocupo que em breve isso deixe de ser verdade
Por exemplo, há o argumento de que música e arte acabam sendo niveladas por baixo porque é muito mais lucrativo fazer um álbum que vale 10 dólares para dezenas de milhões de pessoas do que um álbum que vale um milhão de dólares para algumas dezenas
Afinal, o preço de um álbum acaba sendo definido em 10 dólares; só agora me dei conta de que o mesmo fenômeno também se aplica a ferramentas de desenvolvimento
:'<,'>y|call system('firefox ?q='.shellescape(@*).' &')para criar um atalho que envie o texto selecionado ao Phind ou a outro LLMO problema restante é que o texto não fica codificado em URL, e provavelmente há uma forma elegante de fazer isso, mas ainda não encontrei
Em um Mac M1, normalmente leva cerca de 7 segundos por inferência, mais lento do que eu gostaria, e o contexto enviado também é bem simples, mas ainda assim é minimamente utilizável
Eu dependia de uma façade em Python para trocar requisições e respostas no estilo Copilot com o ollama, então não pretendia publicar, mas, se houver interesse, posso lapidar e disponibilizar
Fiz uma comparação rápida e os resultados são excelentes; considerando ainda a vantagem de vir com busca na web e referências, ele é parecido com o GPT-4, só que mais rápido. Ainda assim, há duas pequenas ressalvas
No modo escuro, a fonte do corpo das respostas é grossa e clara demais, o que dificulta ler parágrafos longos que não sejam código; no modo claro, tudo é claro demais. Para textos longos, eu preferiria um fundo escuro cinza como o da OpenAI ou um fundo claro sépia como o do HN
Também fica confuso o que significa GPT-4 em “500+ usos por dia do melhor modelo (GPT-4)” na página de preços. Parece estranho a Phind anunciar que é concorrente do GPT-4 e, ao mesmo tempo, listar uso de GPT-4 no preço