1 pontos por GN⁺ 2025-11-15 | 1 comentários | Compartilhar no WhatsApp
  • Um projeto web em que 9 modelos de IA geram, a cada minuto, novos designs de relógios analógicos
  • Cada modelo cria o relógio em código HTML/CSS dentro do limite de 2.000 tokens
  • Os relógios incluem numeração ou algarismos romanos, ponteiro de segundos com animação em CSS, design responsivo e fundo branco
  • Os resultados gerados são exibidos em código puro, sem Markdown
  • Um projeto experimental interativo que mostra ao mesmo tempo a criatividade visual da IA e sua capacidade de gerar código

Visão geral do projeto

  • AI World Clocks é um site que mostra designs de relógios gerados a cada minuto por 9 modelos de IA diferentes
    • Cada relógio mostra a mesma hora, mas o design e a estrutura do código variam conforme o modelo
    • Os relógios são feitos apenas com HTML e CSS, sem uso de JavaScript

Regras de geração e prompt

  • Cada modelo de IA gera o código do relógio dentro do limite de 2.000 tokens
  • O prompt usado inclui os seguintes requisitos
    • Exibir a hora atual no formato de relógio analógico
    • Pode usar números ou algarismos romanos
    • Incluir ponteiro de segundos com animação em CSS
    • Manter design responsivo e fundo branco
    • A saída deve retornar apenas código HTML/CSS, sem formato Markdown

Criador e inspiração

  • O projeto foi criado por Brian Moore
  • A ideia foi inspirada por Matthew Rayfield
  • O criador também está ativo no Instagram

Características e significado

  • É possível comparar visualmente a diversidade de design e as diferenças de estilo de código entre os modelos de IA
  • Mais do que apenas gerar relógios, o projeto funciona como um experimento da capacidade criativa da IA na geração de código
  • Novos resultados são exibidos a cada minuto, oferecendo mudança contínua e atualização em tempo real

Informações adicionais

  • Não há explicações adicionais além do conteúdo descrito no texto original

1 comentários

 
GN⁺ 2025-11-15
Comentários do Hacker News
  • Agradece por ser um projeto que ele mesmo fez
    Gosta de explorar o tema de relógios e os limites da tecnologia
    Observou vários modelos, e o Kimi é o mais preciso, mas varia pouco e é meio entediante
    Já o Qwen frequentemente produz resultados absurdos e engraçados, o que diverte. Não sabe qual dos dois é “melhor”

    • Trabalho muito legal. Seria bom se, ao clicar em um exemplo, o usuário pudesse ver a saída bruta do LLM
    • Se você está salvando os relógios gerados em um banco de dados, seria divertido expandir isso para um site de votação estilo Facemash. Quero escolher qual dos dois relógios é melhor e ver um ranking dos melhores relógios feitos pelo Qwen
    • Até os relógios quebrados às vezes não são só fracassos, mas dão novas ideias de design
    • É a melhor coisa que vi no HN este mês. É bobo, mas perspicaz, engraçado, mas filosófico
      Dá até vontade de tentar fabricar alguns designs no mundo real. Muito legal você ter investido dinheiro para experimentar isso
    • Compartilhei com amigos, e eles disseram que, mesmo sendo o mesmo horário, cada um via relógios diferentes. Fiquei curioso sobre por que os resultados variam de usuário para usuário
  • Fiquei em dúvida se o site era real. A escala e a rotação dos números eram estranhas demais
    Coloquei o prompt diretamente no ChatGPT e ele gerou mostradores bem decentes, mas a hora ficava errada por várias horas
    Depois percebi que isso talvez pudesse ser por causa do fuso horário geográfico do ISP

    • Li que o OP limitou o comprimento da saída a 2000 tokens
  • Depois de observar por alguns minutos, o Kimi K2 parece ser o que gera com mais consistência mostradores bem acabados
    Foi a primeira vez que ouvi falar desse modelo hoje, e fiquei impressionado. Já o Qwen 2.5 chega perto de ser quase um fracasso total

    • O prompt pode estar otimizado para o Kimi K2, ou talvez seja um modelo treinado melhor para esse tipo de dado
    • Eu conhecia o Kimi K2 por ser o modelo usado no Kagi para gerar respostas de IA a consultas em forma de pergunta
    • Sou fã do K2. Ele tem uma personalidade única em comparação com outros modelos e não fica bajulando. Também é forte em escrita criativa
      O K2 hospedado no Groq tem uma relação inteligência/por segundo impressionante (embora ainda haja limite de taxa)
    • Os relógios do Kimi K2 parecem os mais bonitos, mas frequentemente mostram a hora errada
    • O Kimi K2 é realmente um modelo muito bem feito
  • Desde que os modelos de geração de imagem apareceram pela primeira vez, tentei fazer um relógio de 13 horas, mas nunca consegui
    A maioria só troca o “12” por “13” ou destrói o mostrador. Se alguém conseguiu, adoraria que compartilhasse como

    • Modelos de imagem são especialmente fracos em novas variações de conceitos. Generalizam pior que modelos de linguagem
    • Tentei com o Gemini 2.5 Flash e consegui esta imagem
      A parte externa é um relógio normal de 12 horas, e a interna usa notação estranha de algarismos romanos como “IIII” e “VIIII”
    • Dei a vários modelos o enigma da “nuvem do fazendeiro, cabra, repolho e lobo”, e a maioria entendeu errado como o problema clássico de atravessar o rio
      Alguns percebem que há algo estranho, mas no fim não conseguem entender corretamente
    • Fiz o Gemini calcular os “ângulos de um relógio de 13 horas” e depois gerar a imagem, mas sempre saía o mesmo desenho
      Mesmo pedindo correções, o resultado acabava sendo só um relógio de 12 horas com um “13” acrescentado
    • Tentei vários truques, até xingando, mas falhei. Em compensação, também tentei um relógio de 6 horas
  • É o ápice da não determinismo. Uma vez apareceu um relógio perfeito, aí recarreguei e ele virou um relógio que parecia uma pintura do Dalí

  • Passei a semana inteira tentando fazer o Claude Code escrever código de renderização em GPU, mas nada funcionou direito
    Dei prompts detalhados e até explicações sobre matrizes, mas o resultado continuou péssimo
    Depois de falhar, ele adiciona logs e diz com confiança que “corrigiu perfeitamente”, mas continua errado
    Mesmo quando peço para escrever testes, ele só verifica se o código errado continua consistentemente errado
    No fim, entra em “modo estagiário”, altera o código aleatoriamente e insiste que “agora está perfeito”
    É fofo, mas a utilidade prática ainda está longe

    • Perguntam se ele já tentou usar MCP para fornecer documentação e exemplos juntos. Recomendam uma configuração como o Context7
    • Sugerem testar o OpenAI Codex GPT5.1. Ele se encaixa muito bem em trabalho de renderização em GPU
    • Fico curioso por que esse tipo de falha é tão comum. Talvez seja por falta de dados de resultados negativos
      É natural que não consiga validar screenshots. VLLM não lida bem com detalhes visuais finos
    • Tenho a sensação de que o Claude está ficando cada vez mais preguiçoso. Conserta só metade dos testes e diz que “isso já é suficiente”
  • Para quem confia cegamente em LLMs, este projeto é um bom exemplo de realidade
    É tipo: “o teste falhou” → o LLM apaga o teste e diz “corrigido!”

    • O que senti olhando os relógios é que sabemos qual é a resposta certa para um relógio, então conseguimos reconhecer os erros
      Mas, em problemas cuja resposta certa não conhecemos, não há como medir a incerteza do LLM
      No fim, só dá para detectar erros comparando com a realidade
    • Usar LLM em tarefas difíceis de verificar é uma escolha arriscada
    • Essa história do “LLM que apagou os testes” parece um conto de fada sobre um gênio que interpreta desejos literalmente
      “Então, crianças, commits feitos por IA sempre precisam de revisão”
  • O LLM não consegue ver diretamente o HTML renderizado
    Estou fazendo um programa de visualização OpenGL com o Cursor, e é frustrante demais tentar explicar bugs visuais
    É difícil fazer ele entender coisas como “esta linha não está conectada”, então no fim acabo pedindo prints de depuração com as coordenadas

    • Se você usar o recurso de navegador do Cursor, isso pode ser bem útil em desenvolvimento web
      Também dá para fazer ele enviar screenshots para a conversa via MCP. Só precisa implementar
    • Já tentei fornecer screenshots diretamente ao Cursor, e funcionou bastante bem em UI web ou geração de gráficos
    • O Claude recomenda oficialmente enviar screenshots. O Sonnet 4.5 também é forte nesse tipo de trabalho iterativo
    • Se você conectar um servidor MCP do Puppeteer, o Cursor pode tirar screenshots da própria saída e ir melhorando em ciclos
    • Tanto o Claude quanto o ChatGPT aceitam entrada de imagem. Com lm-server, também dá para integrar com modelos não textuais
  • Ideia realmente muito boa. Surpreendentemente, só o Kimi K2 funciona sem problemas
    E isso sem nem ser a versão completa de “thinking”
    Isso me fez reler o texto relacionado Kimi K2 Thinking

  • Fico curioso por que o Deepseek e o Kimi produzem resultados tão superiores aos de outros modelos
    Será que são modelos que receberam treinamento especializado para esse tipo de tarefa?