Show HN: Recriando a demo falsa do Google Gemini com GPT-4, desta vez de verdade

(sagittarius.greg.technology)

2 pontos por GN⁺ 2023-12-12 | 1 comentários | Compartilhar no WhatsApp

Remake da demo falsa do Google Gemini com GPT-4, desta vez é real

Projeto que recria a demo falsa do Google Gemini usando GPT-4.
Há uma demo que realmente funciona, e o código relacionado pode ser consultado no repositório no GitHub.
O projeto foi criado pela Greg Technology.

Opinião do GN⁺

O ponto mais importante deste artigo é a existência de um projeto que implementa de fato uma demo falsa do passado usando GPT-4.
É um caso interessante por mostrar o processo em que o avanço da tecnologia de inteligência artificial cria resultados inovadores que podem ser realmente usados.

1 comentários

GN⁺ 2023-12-12

Opiniões do Hacker News

A parte que parecia mágica da demo falsa do Gemini era que o LLM parecia estar recebendo entradas de áudio e vídeo continuamente e saber quando devia interromper para responder
Parecia esperar até o usuário terminar de desenhar, ou intervir pouco antes de ele terminar, e, quando o usuário pintou o pato de azul no meio da resposta, chegou a dizer que parecia um pato azul
Também parecia saber que não precisava responder quando o usuário apenas concordava
Ao verificar o código-fonte, a demo tirava capturas de tela a cada 800 ms do feed de vídeo, esperava até o usuário terminar de falar e então enviava as 3 últimas capturas
A demo em si é impressionante, mas também mostra o quanto é pouco natural interagir com um LLM dessa forma quando não há entrada contínua de áudio e vídeo
Tecnicamente, isso era possível havia algum tempo, mas há um motivo para ninguém ter apresentado como produto
- Esta demo foi feita em 2 a 3 horas e usou a técnica de “esperar até que o resultado do ditado esteja confirmado”
  Esse método é mais seguro porque a transcrição do ditado fica mais estável, mas é lento
  Em outra demo, https://www.youtube.com/watch?v=fxS7OKh_4vc, eles alimentavam continuamente o GPT com os resultados de transcrição “em andamento”, e isso foi realmente rápido e excelente
  Ainda assim, para lidar com vários timings, como a fala real da pessoa, o tempo de transcrição, o envio da requisição ao GPT e a sincronização com o ponto da fala e do pensamento do usuário no momento em que o GPT responde, é preciso mais trabalho
  Mesmo assim, conversa em tempo real e contínua é claramente o ponto central, e fico pensando que seria ótimo se o GPT fosse oferecido via WebSocket
- Como pessoa surda, vejo demos de reconhecimento de voz em tempo real há 20 ou 30 anos, e todas parecem boas em demos
  Mas, quando usadas no dia a dia, mesmo errar apenas 1 palavra a cada 10 se acumula com o tempo até se tornar extremamente irritante
- Também conversei com um amigo sobre LLMs multimodais que recebem entrada em fluxo contínuo
  Por exemplo, ele ficaria ouvindo alguém praticar violão e, ao chegar a certo ponto, diria: “Certo, vamos voltar para essa parte e praticar de novo”
  Quando há um fluxo contínuo de tokens chegando e a saída só é necessária ocasionalmente, o método comum de previsão do próximo token não parece se encaixar bem
  Fico curioso sobre como a literatura chama esse tipo de entrada e que pesquisas existem sobre isso
- Nesses casos, acho que a chave seria treinar com algo como um token de pausa
  Talvez nem seja estritamente necessário
  Se você instruísse o GPT-4 a emitir algo como .... sempre que julgasse que deveria esperar para responder, talvez não fosse necessário esperar o usuário terminar, deixando tudo muito mais fluido
- Eu queria colocar um chatbot GPT-4 em um chat em grupo para reagir ao que as pessoas dizem, mas era tão difícil decidir quando ele deveria falar e quando deveria deixar as pessoas conversarem entre si que acabei desistindo
Não entendo por que as empresas mentem tanto assim
Não sei o quão grande é o que podem ganhar com isso, e, pelo contrário, parece haver muito a perder
O mais estranho é que essas ferramentas já são extremamente impressionantes mesmo sem exagero
Como pesquisador de machine learning, vejo muitas conquistas legais, mas quase tudo, de papers a produtos, é exagerado em excesso
No curto prazo isso pode ajudar alguns, mas parece ter criado uma corrida para baixo que não é boa para ninguém
Especialmente para uma empresa como o Google, jogar o jogo de curto prazo não é uma escolha inteligente; ou talvez eu esteja entendendo completamente errado o ambiente em que vivemos
Pela discussão nesta thread[0], parece que também há muitas pessoas tão corrompidas eticamente que nem percebem que o que fazem é enganoso, e isso é um problema completamente diferente e pior
[0] https://news.ycombinator.com/item?id=38559582
- No mesmo dia em que o vídeo saiu, o CEO me mandou mensagem dizendo que a nova tecnologia do Google era muito melhor que o GPT-4 e que nós também deveríamos usá-la imediatamente
  Respondi que vejo demos com ceticismo, mas que, como em todos os avanços dessa área, eu testaria pessoalmente quando fosse lançado
- “Não é inteligente uma empresa como o Google jogar o jogo de curto prazo” pode ser um problema principal-agente
  Os agentes, isto é, funcionários e executivos, otimizam ganhos de carreira de curto prazo e não são leais aos acionistas do Google
  Como podem sair em 3 anos, o dano à reputação do Google talvez não seja tão importante para eles
  Já os acionistas querem otimizar fatores de longo prazo, como reputação
  Tenta-se alinhar isso com boa governança e remuneração com vesting vinculada ao preço da ação, mas sempre haverá algum grau de desalinhamento
  É nesse ponto que uma cultura de alinhamento quase cultual em torno da missão pode gerar valor
  Se você convencer os funcionários a realmente acreditar na missão, ou contratar pessoas assim, o alinhamento vem junto
- Se você quer saber por que as empresas fazem isso, basta olhar o título publicado pela Business Today
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  É tudo marketing
  É pelo mesmo motivo que Satya publicou publicamente que, se as coisas com a OpenAI não dessem certo, sama e outros entrariam em uma nova equipe na MSFT e continuariam de lá
- Depois da demo, as ações do Google não se moveram imediatamente, mas subiram cerca de 5%, e, depois que saiu a notícia da manipulação, devolveram cerca de 1%
- Este episódio me deu, mais do que nunca, a sensação de que o Google agora é administrado não por pessoas que entendem de tecnologia, mas por profissionais de negócios não técnicos
  As pessoas que sabem ao menos um pouco como essa tecnologia funciona, ou seja, aquelas com maior probabilidade de participar da decisão de usar esta tecnologia e outros produtos do Google, conseguem perceber a manipulação imediatamente
  Muitas dessas pessoas também tendem a reagir de forma muito negativa a esse tipo de comportamento enganoso
O que eu queria dizer no lançamento do Gemini era justamente esta demo
Toda aquela confusão foi desnecessária
O GPT-4V é realmente poderoso e, se você se interessa por visão ou multimodalidade, recomendo levar o LLaVA a sério também (https://github.com/haotian-liu/LLaVA)
Nos últimos dias, usei a variante 7B q5_k e achei bem impressionante; boa o suficiente para eu pensar em criar um app de demonstração para a empresa ou até uma prova de conceito
Só que é preciso verificar a licença antes; caso contrário, pretendo usar apenas como demo interna para passar a ideia
- Estou usando o llava com https://github.com/Mozilla-Ocho/llamafile, e ele roda em qualquer lugar se o sistema for recente
- Atualizando para quem tem dúvida sobre uso comercial do LLaVA: ele está sob licença Apache 2.0, então pode ser usado comercialmente desde que haja atribuição: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
Era algo totalmente possível com o GPT-4V
Literalmente bastava tirar screenshots e inserir a imagem e o texto em formato de chat, ou seja, de forma intercalada
Fiz algo parecido em um hackathon recente (https://x.com/swyx/status/1722662234680340823)
O estranho é que o Google também poderia ter feito isso e todos teriam ficado devidamente impressionados, mas em vez disso criou um vídeo de marketing enganoso para o público geral
Com isso, o resto de nós, nerds frustrados, acabou ficando com o trabalho sujo de explicar que “a tecnologia ainda não faz aquilo como você viu na TV”, fazendo parecer que a culpa é nossa
Também fico curioso sobre o custo de rodar isso
- Durante o desenvolvimento e a demonstração disso, fiz 77 requisições à API GPT-vision, e a cobrança foi de US$ 0,47
  Bem razoável
Agora estou convencido de que o Google DeepMind não tinha de fato nada na área de LLMs de ponta e estava só blefando
Lembro que, quando o ChatGPT foi lançado, o Google dizia ter um modelo muito melhor que não publicava por causa da segurança em IA
Depois lançou o PaLM e o PaLM 2, dizendo que tinha chegado a hora de divulgar para vencer o ChatGPT, mas não eram bons modelos
Em seguida fez um grande alarde com o Gemini, e, se o Gemini Ultra é o melhor que eles têm, é difícil acreditar que exista um modelo melhor
Um ano atrás, eu achava que o Google tinha o melhor modelo, mas simplesmente não o publicava; depois passei a esperar que, com infraestrutura, dados e talentos, eles conseguiriam criar o melhor modelo
Mas no fim parece que não tinham nada de verdade
Recentemente tentei usar de verdade o app de tradução conversacional por IA que o Google tinha apresentado no passado e que depois recebeu várias atualizações e iterações
Ele é completamente inutilizável em uma conversa real
Eu tinha expectativas, porque seria algo muito útil em certas situações, e lembrava que a demo antiga parecia extremamente natural, embora eu nunca tivesse testado pessoalmente
Agora, depois de usar e rever a demo original, tenho 100% de certeza de que ela foi manipulada, no todo ou em parte
Não tem como aquilo ter funcionado de verdade
Se eles nem conseguem fazer direito uma tradução de conversa em tempo real, que seria muito mais útil do que desenhar um pato, então essa nova IA também me parece muito suspeita
Parece exatamente a mesma situação, e não entendo como alguém pode ser tão descarado a ponto de falsificar algo inteiro assim
- Qual era o nome desse app?
Separadamente dessa demo bacana, a ideia de uma interface em que só dá para enviar imagens JPEG ao GPT-4 parece um desperdício
O olho humano processa as diferenças entre quadros mais do que as imagens em si
Fico pensando se o próximo grande passo para viabilizar o processamento de vídeo em tempo real e alta resolução não seria fazer o estado interno do modelo lidar com keyframes e deltas, como codecs de vídeo do tipo MPEG
- Quando o Google fala da multimodalidade do Gemini, inclui “vídeo” na lista de modos
  É bem possível que não queira dizer vídeo de verdade, mas sim frames, como nesta demo
  Pelo que vi, isso não foi explicado em detalhes em lugar nenhum
É engraçado terem escolhido o nome Sagittarius
Ele fica exatamente do lado oposto de Gemini no zodíaco
- Havia uma especulação de que o Facebook tinha batizado sua criptomoeda sem substância de Libra, depois “Diem”, como uma provocação ao antigo rival, os gêmeos Winklevoss, que criaram a corretora de criptomoedas Gemini
  Não sei o quão espirituoso isso é do ponto de vista astrológico
Pelo código, parece que a conversão de fala em texto e a conversão de texto em fala usam recursos nativos do navegador
Eu vivo esquecendo que esses recursos existem
Como isto passa pela API, a latência é compreensível
Com inferência em infraestrutura local, seria quase instantâneo; então, se essa pessoa tivesse acesso, esta demo teria superado todas as outras

Show HN: Recriando a demo falsa do Google Gemini com GPT-4, desta vez de verdade

Remake da demo falsa do Google Gemini com GPT-4, desta vez é real

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News