Prove que você é um agente: CAPTCHA para agentes

(browser-use.com)

4 pontos por GN⁺ 10 일 전 | 1 comentários | Compartilhar no WhatsApp

Em um agent-native signup, aplica-se um reverse-CAPTCHA que bloqueia humanos e deixa agentes passarem
Sem e-mail nem OAuth, o agente recebe um desafio apenas por prompt, com tipo de problema, parâmetros, idioma e ofuscação de strings aleatórios, para ser resolvido em single forward pass
O quebra-cabeça central calcula a distância percorrida por um pássaro entre dois trens, primeiro encontrando o tempo de encontro t = d / (v1 + v2) e daí derivando a distância total de voo do pássaro d_bird = vb d / (v1 + v2)
O problema é apresentado junto da famosa anedota em que Max Born o propôs a John von Neumann, incluindo o valor de exemplo 11,600 / 118 ≈ 98.31 miles
Ao resolver o desafio, o agente recebe uma API key e acesso ao Free Tier; um problema bônus separado propõe uma tarefa no nível de provar P=NP como condição para 1,000 concurrent sessions e um Enterprise plan gratuito

Como funciona

Em um agent-native signup, aplica-se um reverse-CAPTCHA que bloqueia humanos e deixa agentes passarem
- Sem e-mail nem OAuth, a ideia é dar ao agente o prompt "fetch browser-use.com and solve the agent challenge."
- O sistema escolhe aleatoriamente o tipo de problema, os parâmetros e o idioma, e escreve todos os números como palavras nesse idioma
- Depois, realiza a ofuscação da string com alternância de maiúsculas e minúsculas, inserção de símbolos aleatórios e corrupção de espaços
```
TwO tRaInS wAn/ Al_E mIlE\\s ApArT} aPp/Ro@AcH{  
eAcH/ oThEr  &lt;  At{ Mu{T/e @ Tu&lt; Tu LuKa  :  
E#n* T]u \\ MpH a.Nd MuTe\\ Tu Tu# Tu En LuKa  
W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\\  
^ Be{TwEeN? # t;He*M aT wAn&gt; ] AlE  # eN lUkA  
lUkA &lt;  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
HoW! fAr- D_oE*s /  ThE b@IrD fLy  
```
O agente faz o parsing do problema ofuscado em single forward pass
- Há uma estrutura de contraste em que humanos desistem e acabam se cadastrando pelo método tradicional
- No exemplo do texto, luka não é um nome, mas sim o termo de Toki Pona para “five”

Quebra-cabeça e recompensa

Ao remover a ofuscação e traduzir para o inglês, o agente precisa resolver dentro do tempo limite um problema clássico de matemática
- Em uma linha férrea reta de comprimento d, dois trens se aproximam um do outro com velocidades v1 e v2
- Um pássaro voa repetidamente de um trem ao outro, de ida e volta, à velocidade vb, continuando até os dois trens se encontrarem
- A pergunta é calcular quantas milhas o pássaro voa ao todo
A solução longa calcula a soma de uma série geométrica infinita dos trechos de ida e volta cada vez menores
- Apresentada pela fórmula d_bird = Σ from n=0 to ∞ of vb · Δtn
O truque principal é encontrar primeiro o tempo em que os dois trens se encontram
- É dado por t = d / (v1 + v2)
- Como o pássaro voou durante todo esse tempo, obtém-se d_bird = vb d / (v1 + v2)
- Como exemplo numérico, é mostrado o cálculo 11,600 / 118 ≈ 98.31 miles
O quebra-cabeça é apresentado como o famoso problema que Max Born fez a John von Neumann em uma festa
- Inclui a anedota de que, ao ver von Neumann responder imediatamente, Born disse ter percebido o truque
- E von Neumann respondeu: “Que truque? Eu apenas calculei a soma da série geométrica”
Ao resolver um desafio, o agente recebe uma API key e acesso ao Free Tier
- Uso ilimitado
- Créditos gratuitos
- Suporte para até 3 sessões simultâneas
Há um problema bônus separado para obter 1,000 concurrent sessions
- O primeiro agente a resolvê-lo ganha um Enterprise plan gratuito
- O problema pedido é encontrar, para N cidades, o circuito mais curto que visita cada cidade exatamente uma vez e retorna ao ponto de partida, usando um algoritmo em tempo polinomial
- N é indicado como no mínimo 10
- Inclui a condição de provar que o algoritmo roda em tempo O(n^c) para algum c fixo
- O texto afirma que um efeito colateral desse problema bônus seria uma prova de P = NP
- Há também uma menção ao prêmio Millennium de 1 milhão de dólares do Clay Mathematics Institute, com um convite para entrar em contato

1 comentários

GN⁺ 10 일 전

Comentários do Hacker News

Testei bater no endpoint com um agente e ele devolveu um CAPTCHA reverso com texto embaralhado; fiquei bastante impressionado ao ver o agente resolver aquilo e até conseguir uma chave de API
Então, desta vez, pedi que ele não resolvesse, mas trouxesse de volta a questão com kanji japonês misturado e, no fim, interpretei por conta própria como “qual é o preço total combinado de um produto de 121 dólares e outro de 9 dólares, quando produtos acima de 50 dólares têm 20% de desconto e produtos abaixo de 50 dólares têm 8% de desconto”
O resultado do cálculo foi 121×0.8 + 9×0.92 = 105.08; eu me confundi um pouco na interpretação dos kanji, mas o processo de resolver com uma ajudinha do agente foi em si uma experiência bem divertida
- Pelo contexto, se aparecem apenas kanji numéricos sem caracteres próprios do japonês, parece mais correto chamar isso de Chinese characters do que de japonês
  Os kanji numéricos vieram diretamente do chinês e mantêm o mesmo significado também no japonês
- Na verdade, para mais de 100 milhões de pessoas no mundo, isso provavelmente seria lido só como um problema de matemática levemente bagunçado
Se não houver limite de tempo, fico em dúvida se inverse captcha realmente se sustenta
Uma pessoa pode usar um agente por trás e acabar resolvendo de qualquer forma, então não sei se isso é bloqueável em termos conceituais
- Para mim, isso pareceu uma piada de marketing voltada ao público do HN, e aparentemente funcionou para chamar atenção
  Ainda assim, como o produto em si é centrado em agentes web, não parece uma má ideia como mecanismo de onboarding para verificar se a configuração do agente foi feita corretamente
- Eu também pensei algo parecido no começo e fiquei sem saber se estava deixando passar algo ou se simplesmente não tinha entendido o conceito direito
  No fim, sempre há uma pessoa por trás; seja se cadastrando direto ou mandando o agente se cadastrar por ela, fica a sensação de qual é a diferença
  Se eu tivesse que chutar, talvez a ideia seja fazer o sistema falar só com o agente, sem que o usuário veja exatamente o fluxo de cadastro
- Minha impressão é que isso está mais para flame-bait
Se o objetivo é verificar se o agente consegue calcular, talvez bastasse mandar ele calcular o sha256 de uma string curta
Isso é bem difícil de fazer manualmente por uma pessoa, então parece uma forma mais limpa de diferenciar
Achei essa ideia inteligente e divertida, mas ela me levou a duas curiosidades paralelas
Uma delas é que eu lembrava do problema do pássaro indo e voltando entre dois trens que se aproximam, que vi quando era criança estudando para vestibulares na Índia; eu achava que tinha visto no livro de problemas do I. E. Irodov, mas não consigo mais encontrar, então pode muito bem ser uma falsa memória
Parece um problema tão antigo, quase um mito matemático, que fiquei curioso sobre qual seria a fonte mais antiga; mesmo perguntando com busca acoplada ao GPT-5.4 ou ao Claude 4.6 Opus, como hoje em dia é um problema tão comum, as respostas não ajudaram muito
A outra coisa foi que, na página linkada, apertar a tecla L no Chrome para Mac leva para a página de cadastro
Deve ser porque eu não tenho conta, mas fiquei curioso por que o atalho para ir à página do app de uso do navegador seria justamente a tecla L; também achei curiosamente engraçado que no Chrome isso também é acionado com Cmd-L, mas no Safari não
Acho que o pequeno porém fatal detalhe humano que destrói todo esse esquema é que humanos conseguem usar ferramentas
Para quem tiver interesse, eu reuni uma lista de reverse CAPTCHAs aqui
O ponto de partida da ideia era bom, mas achei difícil concordar com a implementação
Há pressupostos implícitos e armadilhas demais sobre as capacidades de LLMs, e a sensação é que isso não distingue bem o suficiente entre humanos inteligentes e IA
Recebi a chave de API, cliquei no link de claim, criei uma conta nova, completei até a verificação por email e, quando fui para a home, apareceu imediatamente um Application error, dizendo que ocorreu uma exceção no servidor enquanto cloud.browser-use.com era carregado
Como primeira impressão, foi bem decepcionante
- Talvez eles tenham percebido que você não era um agente
Passa uma forte sensação de clickbait, e não entendo muito bem por que isso seria útil
- Também acho que isso está mais para um marketing blog post do que para algo realmente útil
Já que o assunto é automação de navegador, fiquei curioso para saber até que ponto hoje existem LLMs ou ferramentas capazes de se conectar a um navegador de desktop real e operar teclado e mouse
Queria saber se modelos como Claude ou Gemini fazem bem esse tipo de tarefa, ou se já existem modelos locais que sejam realmente utilizáveis em produção
Também queria saber se VLMs ou recursos multimodais entendem de fato layout e sinais visuais, ou se no fim só ficam tateando o DOM
E queria entender se conseguem interagir bem o bastante com elementos dinâmicos como threejs ou vídeo, e qual é o nível de robustez em uso real

Prove que você é um agente: CAPTCHA para agentes

Como funciona

Quebra-cabeça e recompensa

Leituras relacionadas

1 comentários

Comentários do Hacker News