Respostas de IA mais rápidas e de maior qualidade para todos, Phind-405B

(phind.com)

1 pontos por GN⁺ 2024-09-06 | 1 comentários | Compartilhar no WhatsApp

There is no content to summarize from the provided article link.

1 comentários

GN⁺ 2024-09-06

Comentários do Hacker News

O Phind ainda é meu mecanismo de busca com IA favorito
Ao responder perguntas técnicas, ele anexa muito bem links de referência para verificar a resposta ou se aprofundar mais
Exemplos recentes do meu histórico incluem formato de vídeo com suporte no Mastodon https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, comparação entre XFS e ext4fs https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1 e a abordagem do no slot clock do Apple ][ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple
As respostas não são perfeitas, mas dão uma boa visão geral, e os links para fontes na web são excelentes. ChatGPT e Claude são fracos nisso, e o Bing CoPilot até faz isso em certo nível, mas gosto menos dele
- Nos meus testes, o Phind 70B também alucina respostas
  Por exemplo, perguntei sobre protetores auriculares Bluetooth com bateria facilmente substituível, e ele continuou recomendando produtos cujas baterias são soldadas no estojo. Para ser justo, o Perplexity também falhou nessa pergunta
- Ainda vejo bastante espaço para melhorar, e estão tornando a composição das respostas e a verificabilidade melhores
- O Phind era uma ferramenta que eu usava principalmente para obter informações mais relevantes e atuais encontráveis na internet, mas há uns 3 meses isso deixou de ser verdade
  Com o tempo, em várias perguntas, as respostas passaram a ficar cada vez mais incompletas ou erradas e, pior, às vezes dizia que não conseguia encontrar a resposta mesmo quando ela estava nos sites de referência
  No fim, voltei principalmente para o Bing e o gpt 4o e, sinceramente, hesito em gastar tempo testando a nova versão de novo
- Aqui aparecem referências, mas quando eu pergunto, mesmo estando logado, só vem a resposta e não aparecem citações
  Eu achava que era um problema antigo que já tinha sido corrigido, mas ainda estou passando por isso. Se eu perguntar deslogado, aparecem os materiais de referência, mas aí a resposta usa o modelo instant
- Por motivos parecidos, uso bastante o Brave Search
  Dá para alternar facilmente entre busca comum e busca baseada em LLM, conforme o que for mais adequado
Acabei de testar e, quando perguntei sobre um tema de pesquisa que estou investigando, ele deu uma resposta, mas sem referências
Então copiei a resposta e pedi especificamente para incluir referências, e ele se desculpou dizendo algo na linha de que a menção a uma pesquisa específica na resposta anterior foi um erro e que não havia informações relevantes nos resultados de busca para sustentar aquela afirmação
Não sei muito bem o que pensar disso
- Continuando o teste, quando pedi uma explicação rápida de como usar Laravel 11 Blade fragments, ele respondeu de forma bem razoável
  Depois dei 3 linhas de código de rota usadas no Laravel e perguntei como implementar isso para decidir qual fragment retornar com base no parâmetro da URL
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  Foi um bom começo ele dizer que a view correta precisava estar criada, mas em seguida recomendou isto aqui
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  Eu percebi na hora que estava errado, mas quem está aprendendo pode não perceber. Então precisei perguntar de novo: “Espera, como esse código sabe qual view usar?” e só aí ele deu a resposta certa
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  É fácil demais encontrar casos extremos nesses modelos, e praticamente toda resposta recebida precisa ser tratada com desconfiança. Ainda assim, às vezes eles são muito poderosos e úteis
- Primeiro, vale conferir se Always search está ativado e tentar a primeira pergunta de novo
  Aí você deve conseguir a resposta correta junto com as referências
- Eu realmente odeio frases como “Como assistente de IA, eu deveria ter sido mais cuidadoso”
- Aquele pedido de desculpas enorme, sinceramente, foi só uma forma longa e repetitiva de dizer “eu falei qualquer coisa”
  Claro, também existem pessoas que falam assim. Se há um lado positivo na febre dos LLMs, talvez seja nos tornar imunes a esse jeito psicopata de falar
A afirmação de que “o problema central da busca com IA é ser lenta demais em comparação ao Google tradicional, e que mesmo gerando respostas melhores, a latência extra desanima” é verdadeira?
A maior parte das reclamações que eu sinto e ouço é sobre resultados imprecisos da IA, por exemplo quando ela ajuda a programar e erra com confiança
- Apertar Enter e esperar até aparecer alguma coisa é, obviamente, mais lento
  Mas não seria o objetivo certo medir o tempo desde apertar Enter até um conjunto de respostas corretas e relevantes entrar na sua cabeça? Por esse critério, o método de 20 anos atrás parece ter atingido o auge há mais de 10 anos, e se não fosse assim o Phind não teria chamado atenção
  Na busca estilo PageRank de 20 anos atrás, o tempo entre pesquisar e a resposta entrar na sua cabeça está cada vez mais virando “DNF”, ou seja, algo próximo de falha em concluir
  Seja alucinação ou resultado irrelevante, nos dois casos você precisa gastar esforço mental para filtrar. Em proporção, há mais resultados irrelevantes do que alucinações; nós só desistimos de confiar na página de resultados de busca há muito tempo
- Isso é um problema do triângulo velocidade / precisão / custo
  Modelos pequenos têm custo de serving eficiente e são rápidos, mas podem errar em metade das vezes
  Modelos grandes rodam devagar em hardware barato, mas podem dar respostas mais precisas e normalmente já são rápidos o bastante para uso individual
  A terceira opção é um modelo grande, rápido e preciso, mas aí é preciso pagar bastante para Nvidia/Groq etc. para conseguir velocidade, e talvez até construir uma usina solar para fechar a conta de energia
- Na minha experiência, é verdade
  Antes de buscar alguma coisa, muitas vezes tento adivinhar se vai ser mais rápido passar os olhos nos resultados do Google ou esperar o Perplexity Pro soltar a resposta lentamente, uma linha por vez
- Vejo os dois como problemas centrais
  Quando o resultado é preciso, é lento demais; e mesmo quando chega, muitas vezes ainda é impreciso demais para confiar
Como diz o título, isso não é para todos, é para usuários profissionais
O título é confuso, seria bom mudá-lo
Fico curioso para saber como isso se compara ao Kagi Assistant
Na página de planos está escrito que, por US$ 20 por mês, há uso ilimitado de busca com Phind-405B e Phind-70B, mais de 500 usos diários de GPT-4o, mais de 500 de Claude 3.5 Sonnet e 10 de Claude Opus
Dizem que “o Phind-405B alcança 92% no HumanEval 0-shot, ficando no mesmo nível do Claude 3.5 Sonnet”, mas há outros benchmarks?
- Usei o Phind com pagamento semestral por 6 meses e, agora, estou mais satisfeito com o Kagi Assistant
  Ele não dá tantos links assim, mas o resultado geral é parecido ou melhor, e também dá para usar lenses. Além disso, oferece um mecanismo de busca comum junto
  Havia uma coisa irritante na interface do Phind: no Firefox, a barra de rolagem às vezes pulava aleatoriamente, e acho que isso acontecia sempre que eu digitava ou até enquanto os tokens estavam sendo gerados. Ter que encontrar de novo onde eu estava vendo toda vez desperdiça bastante tempo, e simplesmente voltar para o final da página também é chato
  O problema principal continua sendo que ambos têm alucinações demais em perguntas difíceis, e isso é um problema geral em todo lugar
- Existe uma extensão para VSCode, então se você usar isso, faz algum sentido
  Para busca pura, não sei. Pela minha experiência, o Phind não era tão excelente assim quando tinha acesso à internet, e algumas pessoas até desligavam a busca para tentar obter respostas melhores
- Esse número de 92% dificulta a avaliação, porque sugere que precisamos de benchmarks mais difíceis
  Principalmente porque até modelos com notas altas muitas vezes dão respostas plausíveis, mas cheias de alucinações. Por exemplo, o Llama 3, para mim, fala muito, parece confiante, mas erra com bastante frequência
  Nesse nível de desempenho, parece que já entramos na área dos edge cases difíceis, em que a própria resposta correta é ambígua
- Pelo preço, parece que não há um plano mais barato além do “Phind ilimitado + 500 usos diários do ChatGPT” por US$ 20 ao mês
  O que eu preciso não é disso, e sim de um plano de uns 100 usos por mês por US$ 5. Se é um mecanismo de busca focado em programação, eles precisam pensar por que alguém pagaria o mesmo preço de concorrentes que oferecem mais recursos
Acho que estou assinando o Phind Pro há uns 5 ou 6 meses
A contaminação dos resultados de busca parece ter melhorado um pouco, mas ainda há casos em que respostas de acompanhamento estragam tudo
Por exemplo, se eu fizer uma pergunta referenciando o código da resposta logo acima, a resposta seguinte às vezes responde com base em algum código presente nos resultados de busca, e não no contexto da conversa. Não entendo o suficiente de RAG para saber como isso poderia ser corrigido com prioridade ou algo assim
Fora isso, estou realmente ansioso para ver como eles vão lidar com artifacts próprios na interface web. A UI de artifacts do Claude combina muito bem com meu fluxo de trabalho quando estou trabalhando na web, e gosto do fato de haver versões de vários arquivos
- Estamos trabalhando em artifacts
  Fico curioso para saber em quais modelos aparece essa contaminação
Espera, isso na verdade é bem bom
Ainda é preciso fazer perguntas de acompanhamento para obter resultados razoáveis, mas quando eu testei no começo do ano, ele falhava completamente na maioria das consultas de teste
Seria bom oferecer ao menos uma consulta gratuita para que os usuários possam avaliar o serviço
- O modelo rápido, o Phind Instant, é totalmente gratuito
O Phind foi a melhor ferramenta de aumento de produtividade que encontrei nos últimos anos
Parabéns, e espero que continuem desenvolvendo bem
Recentemente fiz a seguinte pergunta para uma IA
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
Perguntei se isso não estaria de fato fazendo uma cópia, mas ela respondeu com muita confiança que não havia cópia. Ela achou que auto deduziria o tipo como uma referência const e, portanto, não copiaria, mas isso está errado; para isso, seria necessário auto& ou const auto&. Perguntei de novo se tinha certeza, e ela respondeu com ainda mais confiança
A saída do Godbolt está aqui https://godbolt.org/z/Mz8x74vxe
Dá para ver que "copy" é impresso, e também dá para ver que é possível chamar um método non-const no objeto copiado, o que significa que ele é de tipo non-const
Perguntei exatamente a mesma coisa ao Phind, e ele deu a mesma resposta https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
Como duas IAs diferentes, sendo que uma delas supostamente é especializada em programação, conseguem errar com tanta confiança?
Isso mostra que essas ferramentas no fim das contas são máquinas de gerar tokens e que a saída delas só parece inteligente
Acho que ainda não estamos num estágio em que dê para confiar cegamente nelas
Um dos truques antigos para fazer LLMs responderem melhor é pedir: “vamos pensar passo a passo”
Fiz essa pergunta ao Claude dessa forma
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
“Isso cria uma cópia? Vamos pensar passo a passo.”
Isso pode ajudar se você pretende usar esse tipo de ferramenta com mais frequência como auxílio

Respostas de IA mais rápidas e de maior qualidade para todos, Phind-405B

Leituras relacionadas

1 comentários

Comentários do Hacker News