Flipbook - um site transmitido ao vivo diretamente pelo modelo

(flipbook.page)

6 pontos por GN⁺ 2026-04-23 | 3 comentários | Compartilhar no WhatsApp

Com geração sob demanda em tempo real, cada página é criada como imagem, e clicar em um objeto dentro da imagem gera uma nova tela para explorar esse objeto mais a fundo
A tela não tem HTML nem campos de entrada e funciona como uma interface centrada em pixels, na qual até o texto é renderizado diretamente em pixels pelo modelo de imagem
As informações da página são criadas usando agentic web search junto com o conhecimento de mundo do modelo de imagem, e o texto diz que a precisão é parecida com o nível esperado de ChatGPT, Gemini e Claude
O recurso de live video stream anima as imagens de navegação e torna as transições mais suaves, mas no momento é difícil de prever e consome muitos recursos, por isso fica escondido atrás de um botão de alternância
Por enquanto, está mais próximo de uma ferramenta experimental de exploração e aprendizado, mas, à medida que a precisão e o desempenho dos modelos de imagem e vídeo aumentarem, pode se expandir para um ambiente que inclua mais dados reais, interação, execução de tarefas e até armazenamento de dados

Visão geral

É um navegador visual infinito que funciona com geração sob demanda em tempo real e compõe como imagem cada página à qual o usuário chega
Na tela não há HTML, código, links específicos nem campos de entrada; ao clicar em um objeto dentro da imagem, uma nova imagem é gerada para explorar esse objeto com mais profundidade
Reorganiza a web não como um conjunto de documentos e elementos de UI, mas como uma interface centrada em pixels gerada na tela

Como funciona e para onde pode evoluir

Todo o texto da tela também é renderizado diretamente em pixels pelo modelo de imagem, sem sobrepor uma camada de texto separada sobre a imagem
- Como resultado, às vezes o texto pode aparecer incompleto ou em posições erradas, e o texto diz que isso pode melhorar conforme o modelo evoluir
As informações dentro da imagem são criadas combinando agentic web search com o próprio conhecimento de mundo do modelo de imagem
- Embora às vezes possam ser imprecisas, são apresentadas como um ponto de partida útil, normalmente baseado em dados reais da internet
- O texto afirma que a precisão factual é parecida com o que se pode esperar ao usar ChatGPT, Gemini e Claude
Publicidade
Em vez de uma tela centrada em texto e retângulos coloridos, a proposta é uma experiência computacional que transmite informação por meio de representações visuais ricas
Parte da ideia de que, apenas com código e regras fixas, é difícil transmitir ideias complexas e detalhadas, e enfatiza a escolha da forma de expressão mais eficaz conforme o contexto, seja uma palavra, uma ilustração ou uma renderização realista
live video stream é um recurso experimental que transforma imagens estáticas em um fluxo de vídeo mais contínuo, animando cada imagem de navegação e tornando mais suaves as transições entre elas
- No estado atual, seu funcionamento é um tanto imprevisível e também consome muitos recursos, por isso foi colocado atrás de um botão que pode ser ligado e desligado
- O texto diz que, por enquanto, ele usa em conjunto um modelo personalizado de geração de vídeo altamente otimizado e dois sistemas de geração de imagem, com plano de integração futura em um único sistema
Atualmente foi projetado como uma ferramenta experimental de exploração e aprendizado, mas, à medida que a precisão e o desempenho dos modelos de imagem e vídeo melhorarem, pode evoluir para páginas que incluam mais dados reais, permitam interação, executem tarefas diretamente e armazenem seus próprios dados
- Como exemplo, em vez de pesquisar a próxima viagem e fazer a reserva em outro lugar, todo o processo poderia ser realizado dentro do próprio Flipbook
- O texto afirma que tarefas que hoje exigem aplicativos e sites separados poderão, no futuro, ser processadas em maior medida dentro de um ambiente que tenha a aparência e o funcionamento do Flipbook
Não roda em navegadores que não oferecem suporte a vídeo incorporado
A demonstração usa vídeo pré-gerado e foi editada para ganhar velocidade

3 comentários

xguru 2026-04-24

Só de ver isso e o vídeo de apresentação já dá vontade de testar uma vez... mas dizem que tem que esperar 3 horas. Pelo visto tem gente demais tentando acessar.

arthurk 2026-04-24

https://x.com/DongwooKim/status/2047499005580738657
Tentei girar a Namsan Tower, em Seul, e ficou bem delicadinho e legal.

GN⁺ 2026-04-23

Comentários do Hacker News

Isso é realmente impressionante. Enviei um diagrama de um sistema hidropônico que achei em algum lugar
e ele gerou diagramas separados em alta qualidade para partes detalhadas como tubulação, fornecimento de nutrientes e fiação elétrica
Não é totalmente preciso, mas gostei muito do conceito em si
Pedi para fazer um diagrama com as especificações de torque da suspensão de um carro, e como é um assunto que conheço bem, fui conferir
ele desenhou quase tudo corretamente e até os valores de torque estavam certos
Eu conseguia clicar em componentes individuais para ampliar mais e ver especificações adicionais
Foi uma das demos mais impressionantes que vi em muito tempo, e dava para usar como um manual de oficina Haynes vivo
- Pedi para projetar um sistema solar 12V para um galpão de jardim, e ele acertou só a estrutura geral; o resto estava todo errado
  Acertou apenas que seriam necessários painel solar, controlador de carga, bateria e carga, mas a fiação não fazia sentido algum
  Quando entrou em detalhes como configuração do controlador de carga, desmoronou completamente
  Não dá para usar isso de jeito nenhum como informação confiável na prática, mas como curiosidade é divertido e a implementação é impressionante
- Estou planejando fazer um abrigo para bicicletas com uma porta antiga do quintal, então pedi um projeto
  O resultado foi só um galpão comum com uma upcycled door encaixada
  Nem dava para ver onde a bicicleta entrava, e ele mostrou uma estrutura que nem se parece com a forma final real
  Como outras demos de IA, por fora parece plausível, mas o sistema fundamentalmente não entende o que está fazendo
- Testei eu mesmo
  Pedi para rotular as peças do cofre do motor de um Jeep Wrangler JK e, de início, saiu um diagrama plausível
  Mas o reservatório de fluido de freio estava do lado oposto, e nesse lugar havia um rótulo para o tanque de expansão do líquido de arrefecimento; o tanque de expansão real estava desenhado, mas sem rótulo
  A posição da bateria também estava errada, a parte de cima da grade dianteira estava marcada como tampa do filtro de óleo, e a posição da tampa de abastecimento de óleo também estava errada
  Metade da bateria foi rotulada como caixa de fusíveis, enquanto a caixa de fusíveis de verdade estava corretamente desenhada do outro lado, mas sem rótulo
  O reservatório do lavador do para-brisa também apareceu como dois reservatórios grudados
  Ao clicar no tanque de arrefecimento rotulado de forma errada, fui para outra página em que desta vez só a posição estava certa, mas o tanque tinha uma aparência totalmente diferente, e a tampa do radiador estava colocada em cima do tanque
  Na realidade, ela deveria estar no radiador
  Quem entende do assunto consegue encontrar falhas em tudo, mas para quem não entende parece bastante confiável, o que soa exatamente como a história dos LLMs
- Eu estava com um Mac Pro 5,1 totalmente desmontado em cima da mesa e pedi um diagrama interno
  Por fora parecia algo parecido com um Mac Pro, mas todos os elementos visuais estavam errados
  O texto também só parecia correto à primeira vista, e quase tudo que aparecia ao clicar também estava errado
  Ficou bonito de ver, mas fazia tempo que eu não via uma IA errar tanto assim, acho que desde 2023
- Coloquei "your mom" e ele gerou uma linha do tempo histórico-social da maternidade com uma placenta sobreposta
  Esse eu aprovo
É um projeto legal, mas sempre fico me perguntando de onde vêm os recursos e o dinheiro para criar algo assim e manter isso como um serviço público
Imagino que tenham GPUs próprias ou usem as APIs do GPT/Gemini com inferência subsidiada por empresa
Mas, para alguém acostumado a viver com frugalidade, isso ainda é meio difícil de compreender
- Infelizmente, isso está sendo pago do próprio bolso
  Eu não fazia a menor ideia de que isso iria explodir desse jeito
- Parece algo que vai sair do ar rapidinho se levar um HN hug of death e chegar uma conta de US$ 50 mil em custos de inferência da noite para o dia
- Talvez seja de alguém ligado a uma universidade
- Se pensar em gastar dinheiro com hobby, isso não é tão estranho assim
  Tem gente que gasta com jogos, arte ou marcenaria
  E algumas pessoas usam o orçamento de lazer que sobra de um salário de nível FAANG em um projeto de arte com GenAI, em vez de gastar com bebida ou esportes
  Pode não ser o seu gosto, mas todo orçamento costuma ter pelo menos uma despesa que, vista de fora, parece luxo
- Eu também quase nem tentei justamente por um motivo parecido
  Aqui a gente chama isso de immigrant mentality, não como algo pejorativo, mas mais como a frugalidade típica de quem teve de recomeçar a vida do zero
  Além disso, estava absurdamente lento, então no fim nem esperei
  Não é culpa de quem fez, só estava realmente lento demais
No começo achei que isso não gerava diagramas, e sim que a própria página web era gerada em tempo real
Sempre achei interessante a ideia de um futuro em que aplicações são criadas na hora conforme a necessidade do usuário
Fico curioso se existe algum exemplo real de algo assim
Saiu um Mac Neo, com 2 chips M4 quantum, solid state battery e graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Apareceu Sneed's Feed and Seed. Também veio com a observação Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
- Fui seguir o histórico de propriedade e no fim ele colocou o sobrenome como Chuck's Feed and Seed
  Se tivesse acertado isso direito eu teria ficado realmente impressionado
- Sinceramente, acho que é uma das melhores piadas de Os Simpsons
Parece que isso não existe nos dados de treinamento dele
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
A ideia é interessante, mas neste momento quase tudo está falhando
Provavelmente por causa do HN hug of death
Aparece 429 RESOURCE_EXHAUSTED junto com Gemini generateContent request failed
e diz para verificar plano e informações de cobrança porque a cota atual foi excedida
Também mostra um link com informações detalhadas sobre os limites
A demo da página principal mostra Paris Travel Overview / Visiting Notre Dame, então testei com algumas cidades e lugares que conheço de verdade
Os pontos de interesse em si às vezes até estavam corretos, mas as relações espaciais entre eles estavam completamente bagunçadas
Não chegava nem perto da realidade
Isso parece um produto bem caro para tomar um HN hug of death
Os vídeos de exemplo postados no Twitter estavam muito bons
Só que agora não está funcionando direito, então pretendo tentar de novo em alguns dias, quando o tráfego baixar um pouco