2 pontos por GN⁺ 2023-12-12 | 1 comentários | Compartilhar no WhatsApp

Remake da demo falsa do Google Gemini com GPT-4, desta vez é real

  • Projeto que recria a demo falsa do Google Gemini usando GPT-4.
  • Há uma demo que realmente funciona, e o código relacionado pode ser consultado no repositório no GitHub.
  • O projeto foi criado pela Greg Technology.

Opinião do GN⁺

  • O ponto mais importante deste artigo é a existência de um projeto que implementa de fato uma demo falsa do passado usando GPT-4.
  • É um caso interessante por mostrar o processo em que o avanço da tecnologia de inteligência artificial cria resultados inovadores que podem ser realmente usados.

1 comentários

 
GN⁺ 2023-12-12
Comentários do Hacker News
  • A “mágica” da demo falsa do Gemini era fazer parecer que o LLM recebia continuamente entradas de áudio e vídeo, percebia quando o usuário terminava de falar ou desenhar e respondia no momento certo.
  • Após revisar o código-fonte, ficou claro que a demo capturava screenshots do feed de vídeo a cada 800 ms, esperava o usuário terminar o desenho e então enviava as três últimas screenshots. Isso prova que interagir com um LLM dessa forma parece pouco natural sem entrada contínua de áudio e vídeo.
  • Não dá para entender por que as empresas mentem desse jeito. Na prática, elas podem perder muito, e esse tipo de promoção exagerada pode até ajudar no curto prazo, mas não no longo prazo.
  • Estou convencido de que o Google DeepMind na verdade não tinha um LLM realmente de ponta. Quando o ChatGPT foi lançado, o Google disse que não divulgava um modelo melhor por causa da segurança em IA, mas na prática não era esse o caso.
  • O GPT-4V é muito impressionante, e recomendo que quem se interessa por visão computacional ou multimodalidade experimente o LLaVA. Pessoalmente, testei a variante 7B q5_k e achei muito impressionante.
  • Foi possível criar uma demo semelhante usando GPT-4V. Se o Google tivesse feito um marketing honesto, todo mundo teria ficado devidamente impressionado, mas em vez disso produziu um vídeo de marketing enganoso para o público geral e decepcionou os especialistas técnicos.
  • Tentei realmente usar o app de tradução de conversas por IA do Google, mas ele não serve de forma alguma para conversas reais. Na demo parecia natural, mas confirmei que na prática não funcionava.
  • Acho um desperdício usar apenas imagens JPEG como única interface com o GPT-4. O olho humano percebe mais as diferenças entre quadros do que os próprios “frames”. Um modelo cujo estado interno funcione com keyframes e deltas, como um codec de vídeo, pode ser o próximo grande passo no processamento de vídeo em tempo real.
  • Estou convencido de que o Google DeepMind na verdade não tinha um modelo de linguagem realmente de ponta. Quando o ChatGPT foi lançado, o Google disse que não divulgava um modelo melhor por causa da segurança em IA, mas na prática não era esse o caso.
  • A latência desta demo pode ser perdoada por acontecer via API. A inferência em infraestrutura local é quase imediata, então essa demo superaria todo o resto se tivesse acesso a essa infraestrutura.
  • A escolha do nome Sagittarius é divertida porque, no zodíaco, ele fica exatamente no lado oposto de Gemini.