Flipbook - um site transmitido ao vivo diretamente pelo modelo
(flipbook.page)- Com geração sob demanda em tempo real, cada página é criada como imagem, e clicar em um objeto dentro da imagem gera uma nova tela para explorar esse objeto mais a fundo
- A tela não tem HTML nem campos de entrada e funciona como uma interface centrada em pixels, na qual até o texto é renderizado diretamente em pixels pelo modelo de imagem
- As informações da página são criadas usando agentic web search junto com o conhecimento de mundo do modelo de imagem, e o texto diz que a precisão é parecida com o nível esperado de ChatGPT, Gemini e Claude
- O recurso de live video stream anima as imagens de navegação e torna as transições mais suaves, mas no momento é difícil de prever e consome muitos recursos, por isso fica escondido atrás de um botão de alternância
- Por enquanto, está mais próximo de uma ferramenta experimental de exploração e aprendizado, mas, à medida que a precisão e o desempenho dos modelos de imagem e vídeo aumentarem, pode se expandir para um ambiente que inclua mais dados reais, interação, execução de tarefas e até armazenamento de dados
Visão geral
- É um navegador visual infinito que funciona com geração sob demanda em tempo real e compõe como imagem cada página à qual o usuário chega
- Na tela não há HTML, código, links específicos nem campos de entrada; ao clicar em um objeto dentro da imagem, uma nova imagem é gerada para explorar esse objeto com mais profundidade
- Reorganiza a web não como um conjunto de documentos e elementos de UI, mas como uma interface centrada em pixels gerada na tela
Como funciona e para onde pode evoluir
- Todo o texto da tela também é renderizado diretamente em pixels pelo modelo de imagem, sem sobrepor uma camada de texto separada sobre a imagem
- Como resultado, às vezes o texto pode aparecer incompleto ou em posições erradas, e o texto diz que isso pode melhorar conforme o modelo evoluir
- As informações dentro da imagem são criadas combinando agentic web search com o próprio conhecimento de mundo do modelo de imagem
- Embora às vezes possam ser imprecisas, são apresentadas como um ponto de partida útil, normalmente baseado em dados reais da internet
- O texto afirma que a precisão factual é parecida com o que se pode esperar ao usar ChatGPT, Gemini e Claude
- Em vez de uma tela centrada em texto e retângulos coloridos, a proposta é uma experiência computacional que transmite informação por meio de representações visuais ricas
- Parte da ideia de que, apenas com código e regras fixas, é difícil transmitir ideias complexas e detalhadas, e enfatiza a escolha da forma de expressão mais eficaz conforme o contexto, seja uma palavra, uma ilustração ou uma renderização realista
- live video stream é um recurso experimental que transforma imagens estáticas em um fluxo de vídeo mais contínuo, animando cada imagem de navegação e tornando mais suaves as transições entre elas
- No estado atual, seu funcionamento é um tanto imprevisível e também consome muitos recursos, por isso foi colocado atrás de um botão que pode ser ligado e desligado
- O texto diz que, por enquanto, ele usa em conjunto um modelo personalizado de geração de vídeo altamente otimizado e dois sistemas de geração de imagem, com plano de integração futura em um único sistema
- Atualmente foi projetado como uma ferramenta experimental de exploração e aprendizado, mas, à medida que a precisão e o desempenho dos modelos de imagem e vídeo melhorarem, pode evoluir para páginas que incluam mais dados reais, permitam interação, executem tarefas diretamente e armazenem seus próprios dados
- Como exemplo, em vez de pesquisar a próxima viagem e fazer a reserva em outro lugar, todo o processo poderia ser realizado dentro do próprio Flipbook
- O texto afirma que tarefas que hoje exigem aplicativos e sites separados poderão, no futuro, ser processadas em maior medida dentro de um ambiente que tenha a aparência e o funcionamento do Flipbook
- Não roda em navegadores que não oferecem suporte a vídeo incorporado
- A demonstração usa vídeo pré-gerado e foi editada para ganhar velocidade
3 comentários
Só de ver isso e o vídeo de apresentação já dá vontade de testar uma vez... mas dizem que tem que esperar 3 horas. Pelo visto tem gente demais tentando acessar.
https://x.com/DongwooKim/status/2047499005580738657
Tentei girar a Namsan Tower, em Seul, e ficou bem delicadinho e legal.
Comentários do Hacker News
Isso é realmente impressionante. Enviei um diagrama de um sistema hidropônico que achei em algum lugar
e ele gerou diagramas separados em alta qualidade para partes detalhadas como tubulação, fornecimento de nutrientes e fiação elétrica
Não é totalmente preciso, mas gostei muito do conceito em si
Pedi para fazer um diagrama com as especificações de torque da suspensão de um carro, e como é um assunto que conheço bem, fui conferir
ele desenhou quase tudo corretamente e até os valores de torque estavam certos
Eu conseguia clicar em componentes individuais para ampliar mais e ver especificações adicionais
Foi uma das demos mais impressionantes que vi em muito tempo, e dava para usar como um manual de oficina Haynes vivo
Acertou apenas que seriam necessários painel solar, controlador de carga, bateria e carga, mas a fiação não fazia sentido algum
Quando entrou em detalhes como configuração do controlador de carga, desmoronou completamente
Não dá para usar isso de jeito nenhum como informação confiável na prática, mas como curiosidade é divertido e a implementação é impressionante
O resultado foi só um galpão comum com uma upcycled door encaixada
Nem dava para ver onde a bicicleta entrava, e ele mostrou uma estrutura que nem se parece com a forma final real
Como outras demos de IA, por fora parece plausível, mas o sistema fundamentalmente não entende o que está fazendo
Pedi para rotular as peças do cofre do motor de um Jeep Wrangler JK e, de início, saiu um diagrama plausível
Mas o reservatório de fluido de freio estava do lado oposto, e nesse lugar havia um rótulo para o tanque de expansão do líquido de arrefecimento; o tanque de expansão real estava desenhado, mas sem rótulo
A posição da bateria também estava errada, a parte de cima da grade dianteira estava marcada como tampa do filtro de óleo, e a posição da tampa de abastecimento de óleo também estava errada
Metade da bateria foi rotulada como caixa de fusíveis, enquanto a caixa de fusíveis de verdade estava corretamente desenhada do outro lado, mas sem rótulo
O reservatório do lavador do para-brisa também apareceu como dois reservatórios grudados
Ao clicar no tanque de arrefecimento rotulado de forma errada, fui para outra página em que desta vez só a posição estava certa, mas o tanque tinha uma aparência totalmente diferente, e a tampa do radiador estava colocada em cima do tanque
Na realidade, ela deveria estar no radiador
Quem entende do assunto consegue encontrar falhas em tudo, mas para quem não entende parece bastante confiável, o que soa exatamente como a história dos LLMs
Por fora parecia algo parecido com um Mac Pro, mas todos os elementos visuais estavam errados
O texto também só parecia correto à primeira vista, e quase tudo que aparecia ao clicar também estava errado
Ficou bonito de ver, mas fazia tempo que eu não via uma IA errar tanto assim, acho que desde 2023
"your mom"e ele gerou uma linha do tempo histórico-social da maternidade com uma placenta sobrepostaEsse eu aprovo
É um projeto legal, mas sempre fico me perguntando de onde vêm os recursos e o dinheiro para criar algo assim e manter isso como um serviço público
Imagino que tenham GPUs próprias ou usem as APIs do GPT/Gemini com inferência subsidiada por empresa
Mas, para alguém acostumado a viver com frugalidade, isso ainda é meio difícil de compreender
Eu não fazia a menor ideia de que isso iria explodir desse jeito
Tem gente que gasta com jogos, arte ou marcenaria
E algumas pessoas usam o orçamento de lazer que sobra de um salário de nível FAANG em um projeto de arte com GenAI, em vez de gastar com bebida ou esportes
Pode não ser o seu gosto, mas todo orçamento costuma ter pelo menos uma despesa que, vista de fora, parece luxo
Aqui a gente chama isso de immigrant mentality, não como algo pejorativo, mas mais como a frugalidade típica de quem teve de recomeçar a vida do zero
Além disso, estava absurdamente lento, então no fim nem esperei
Não é culpa de quem fez, só estava realmente lento demais
No começo achei que isso não gerava diagramas, e sim que a própria página web era gerada em tempo real
Sempre achei interessante a ideia de um futuro em que aplicações são criadas na hora conforme a necessidade do usuário
Fico curioso se existe algum exemplo real de algo assim
Saiu um Mac Neo, com 2 chips M4 quantum, solid state battery e graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Apareceu Sneed's Feed and Seed. Também veio com a observação Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
Se tivesse acertado isso direito eu teria ficado realmente impressionado
Parece que isso não existe nos dados de treinamento dele
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
A ideia é interessante, mas neste momento quase tudo está falhando
Provavelmente por causa do HN hug of death
Aparece 429 RESOURCE_EXHAUSTED junto com
Gemini generateContent request failede diz para verificar plano e informações de cobrança porque a cota atual foi excedida
Também mostra um link com informações detalhadas sobre os limites
A demo da página principal mostra Paris Travel Overview / Visiting Notre Dame, então testei com algumas cidades e lugares que conheço de verdade
Os pontos de interesse em si às vezes até estavam corretos, mas as relações espaciais entre eles estavam completamente bagunçadas
Não chegava nem perto da realidade
Isso parece um produto bem caro para tomar um HN hug of death
Os vídeos de exemplo postados no Twitter estavam muito bons
Só que agora não está funcionando direito, então pretendo tentar de novo em alguns dias, quando o tráfego baixar um pouco