Prove que você é um agente: CAPTCHA para agentes
(browser-use.com)- Em um agent-native signup, aplica-se um reverse-CAPTCHA que bloqueia humanos e deixa agentes passarem
- Sem e-mail nem OAuth, o agente recebe um desafio apenas por prompt, com tipo de problema, parâmetros, idioma e ofuscação de strings aleatórios, para ser resolvido em single forward pass
- O quebra-cabeça central calcula a distância percorrida por um pássaro entre dois trens, primeiro encontrando o tempo de encontro
t = d / (v1 + v2)e daí derivando a distância total de voo do pássarod_bird = vb d / (v1 + v2) - O problema é apresentado junto da famosa anedota em que Max Born o propôs a John von Neumann, incluindo o valor de exemplo
11,600 / 118 ≈ 98.31 miles - Ao resolver o desafio, o agente recebe uma API key e acesso ao Free Tier; um problema bônus separado propõe uma tarefa no nível de provar P=NP como condição para 1,000 concurrent sessions e um Enterprise plan gratuito
Como funciona
-
Em um agent-native signup, aplica-se um reverse-CAPTCHA que bloqueia humanos e deixa agentes passarem
- Sem e-mail nem OAuth, a ideia é dar ao agente o prompt
"fetch browser-use.com and solve the agent challenge." - O sistema escolhe aleatoriamente o tipo de problema, os parâmetros e o idioma, e escreve todos os números como palavras nesse idioma
- Depois, realiza a ofuscação da string com alternância de maiúsculas e minúsculas, inserção de símbolos aleatórios e corrupção de espaços
TwO tRaInS wAn/ Al_E mIlE\\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \\ MpH a.Nd MuTe\\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - Sem e-mail nem OAuth, a ideia é dar ao agente o prompt
-
O agente faz o parsing do problema ofuscado em single forward pass
- Há uma estrutura de contraste em que humanos desistem e acabam se cadastrando pelo método tradicional
- No exemplo do texto,
lukanão é um nome, mas sim o termo de Toki Pona para “five”
Quebra-cabeça e recompensa
- Ao remover a ofuscação e traduzir para o inglês, o agente precisa resolver dentro do tempo limite um problema clássico de matemática
- Em uma linha férrea reta de comprimento
d, dois trens se aproximam um do outro com velocidadesv1ev2 - Um pássaro voa repetidamente de um trem ao outro, de ida e volta, à velocidade
vb, continuando até os dois trens se encontrarem - A pergunta é calcular quantas milhas o pássaro voa ao todo
- Em uma linha férrea reta de comprimento
- A solução longa calcula a soma de uma série geométrica infinita dos trechos de ida e volta cada vez menores
- Apresentada pela fórmula
d_bird = Σ from n=0 to ∞ of vb · Δtn
- Apresentada pela fórmula
- O truque principal é encontrar primeiro o tempo em que os dois trens se encontram
- É dado por
t = d / (v1 + v2) - Como o pássaro voou durante todo esse tempo, obtém-se
d_bird = vb d / (v1 + v2) - Como exemplo numérico, é mostrado o cálculo
11,600 / 118 ≈ 98.31 miles
- É dado por
- O quebra-cabeça é apresentado como o famoso problema que Max Born fez a John von Neumann em uma festa
- Inclui a anedota de que, ao ver von Neumann responder imediatamente, Born disse ter percebido o truque
- E von Neumann respondeu: “Que truque? Eu apenas calculei a soma da série geométrica”
- Ao resolver um desafio, o agente recebe uma API key e acesso ao Free Tier
- Uso ilimitado
- Créditos gratuitos
- Suporte para até 3 sessões simultâneas
- Há um problema bônus separado para obter 1,000 concurrent sessions
- O primeiro agente a resolvê-lo ganha um Enterprise plan gratuito
- O problema pedido é encontrar, para
Ncidades, o circuito mais curto que visita cada cidade exatamente uma vez e retorna ao ponto de partida, usando um algoritmo em tempo polinomial Né indicado como no mínimo 10- Inclui a condição de provar que o algoritmo roda em tempo
O(n^c)para algumcfixo - O texto afirma que um efeito colateral desse problema bônus seria uma prova de P = NP
- Há também uma menção ao prêmio Millennium de 1 milhão de dólares do Clay Mathematics Institute, com um convite para entrar em contato
1 comentários
Comentários do Hacker News
Testei bater no endpoint com um agente e ele devolveu um CAPTCHA reverso com texto embaralhado; fiquei bastante impressionado ao ver o agente resolver aquilo e até conseguir uma chave de API
Então, desta vez, pedi que ele não resolvesse, mas trouxesse de volta a questão com kanji japonês misturado e, no fim, interpretei por conta própria como “qual é o preço total combinado de um produto de 121 dólares e outro de 9 dólares, quando produtos acima de 50 dólares têm 20% de desconto e produtos abaixo de 50 dólares têm 8% de desconto”
O resultado do cálculo foi 121×0.8 + 9×0.92 = 105.08; eu me confundi um pouco na interpretação dos kanji, mas o processo de resolver com uma ajudinha do agente foi em si uma experiência bem divertida
Os kanji numéricos vieram diretamente do chinês e mantêm o mesmo significado também no japonês
Se não houver limite de tempo, fico em dúvida se inverse captcha realmente se sustenta
Uma pessoa pode usar um agente por trás e acabar resolvendo de qualquer forma, então não sei se isso é bloqueável em termos conceituais
Ainda assim, como o produto em si é centrado em agentes web, não parece uma má ideia como mecanismo de onboarding para verificar se a configuração do agente foi feita corretamente
No fim, sempre há uma pessoa por trás; seja se cadastrando direto ou mandando o agente se cadastrar por ela, fica a sensação de qual é a diferença
Se eu tivesse que chutar, talvez a ideia seja fazer o sistema falar só com o agente, sem que o usuário veja exatamente o fluxo de cadastro
Se o objetivo é verificar se o agente consegue calcular, talvez bastasse mandar ele calcular o sha256 de uma string curta
Isso é bem difícil de fazer manualmente por uma pessoa, então parece uma forma mais limpa de diferenciar
Achei essa ideia inteligente e divertida, mas ela me levou a duas curiosidades paralelas
Uma delas é que eu lembrava do problema do pássaro indo e voltando entre dois trens que se aproximam, que vi quando era criança estudando para vestibulares na Índia; eu achava que tinha visto no livro de problemas do I. E. Irodov, mas não consigo mais encontrar, então pode muito bem ser uma falsa memória
Parece um problema tão antigo, quase um mito matemático, que fiquei curioso sobre qual seria a fonte mais antiga; mesmo perguntando com busca acoplada ao GPT-5.4 ou ao Claude 4.6 Opus, como hoje em dia é um problema tão comum, as respostas não ajudaram muito
A outra coisa foi que, na página linkada, apertar a tecla L no Chrome para Mac leva para a página de cadastro
Deve ser porque eu não tenho conta, mas fiquei curioso por que o atalho para ir à página do app de uso do navegador seria justamente a tecla L; também achei curiosamente engraçado que no Chrome isso também é acionado com Cmd-L, mas no Safari não
Acho que o pequeno porém fatal detalhe humano que destrói todo esse esquema é que humanos conseguem usar ferramentas
Para quem tiver interesse, eu reuni uma lista de reverse CAPTCHAs aqui
O ponto de partida da ideia era bom, mas achei difícil concordar com a implementação
Há pressupostos implícitos e armadilhas demais sobre as capacidades de LLMs, e a sensação é que isso não distingue bem o suficiente entre humanos inteligentes e IA
Recebi a chave de API, cliquei no link de claim, criei uma conta nova, completei até a verificação por email e, quando fui para a home, apareceu imediatamente um Application error, dizendo que ocorreu uma exceção no servidor enquanto
cloud.browser-use.comera carregadoComo primeira impressão, foi bem decepcionante
Passa uma forte sensação de clickbait, e não entendo muito bem por que isso seria útil
Já que o assunto é automação de navegador, fiquei curioso para saber até que ponto hoje existem LLMs ou ferramentas capazes de se conectar a um navegador de desktop real e operar teclado e mouse
Queria saber se modelos como Claude ou Gemini fazem bem esse tipo de tarefa, ou se já existem modelos locais que sejam realmente utilizáveis em produção
Também queria saber se VLMs ou recursos multimodais entendem de fato layout e sinais visuais, ou se no fim só ficam tateando o DOM
E queria entender se conseguem interagir bem o bastante com elementos dinâmicos como threejs ou vídeo, e qual é o nível de robustez em uso real