3 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp
  • Fara-7B é um modelo de linguagem agente ultracompacto (SLM) com 7 bilhões de parâmetros, com arquitetura de Computer Use Agent que realmente manipula o navegador para executar tarefas
  • Prevê diretamente entradas de mouse e teclado para reconhecer e manipular páginas da web visualmente, interagindo da mesma forma que um humano, sem árvore de acessibilidade separada nem modelo de parsing
  • Pode ser executado on-device, reduzindo a latência e reforçando a privacidade, além de concluir tarefas em média em 16 etapas, melhorando a eficiência em relação a modelos da mesma categoria
  • Registrou desempenho superior a modelos da mesma categoria e modelos maiores em vários benchmarks, como o WebTailBench, com alta taxa de sucesso especialmente em automação web e tarefas de múltiplas etapas
  • Junto com o dataset WebTailBench publicado pela Microsoft, oferece um ambiente reproduzível para avaliação de agentes web, contribuindo para a padronização da pesquisa em interação real com a web

Visão geral do Fara-7B

  • Primeiro modelo de linguagem pequeno (SLM) agente dedicado ao uso do computador da Microsoft, alcançando desempenho de ponta na escala de 7 bilhões de parâmetros
  • Baseado no Qwen2.5-VL-7B, treinado com dados sintéticos (145.000 trajetórias) usando o framework multiagente Magentic-One
  • Com 7B de parâmetros, pode ser executado localmente, reduzindo a latência e fortalecendo a privacidade dos dados

Principais características

  • Reconhece páginas da web com base em manipulação visual e imita ações reais do usuário, como rolar, clicar e digitar
  • Usa as mesmas modalidades de entrada que humanos, dispensando um modelo de parsing separado
  • Conclui tarefas em média de 16 etapas, melhorando a eficiência em relação a modelos semelhantes (média de 41 etapas)
  • A implantação on-device reduz a dependência da nuvem e reforça a proteção de dados pessoais

Funcionalidades suportadas

  • Busca na web e resumo de resultados
  • Preenchimento de formulários e gerenciamento de contas
  • Reserva de passagens aéreas, filmes e restaurantes
  • Compras online e comparação de preços
  • Busca de vagas de emprego e informações imobiliárias

Comparação de desempenho

  • Avaliado em 4 benchmarks: WebVoyager, Online-M2W, DeepShop e WebTailBench
  • O Fara-7B registrou taxas de sucesso de 73,5% no WebVoyager, 34,1% no Online-M2W, 26,2% no DeepShop e 38,4% no WebTailBench
  • Desempenho superior ao de modelos da mesma categoria (UI-TARS-1.5-7B) e de modelos maiores (GLM-4.1V-9B)

Benchmark WebTailBench

  • Composto por 609 tarefas cobrindo 11 tipos de tarefas web reais
  • Inclui tarefas em um único site (compras, voos, hotéis etc.) e tarefas de múltiplas etapas (comparação de compras, tarefas combinadas etc.)
  • O Fara-7B registrou o melhor desempenho entre modelos de uso do computador em todas as categorias
    • Ex.: hotéis 53,8%, voos 37,9%, compras 52,4%, comparação de compras 32,7%

Infraestrutura de avaliação

  • Usa o Playwright para reproduzir um ambiente real de navegador
  • O Abstract Web Agent Interface permite integrar vários modelos
  • A classe Fara-Agent oferece suporte à execução e aos testes do modelo
  • Como é uma versão experimental pública, recomenda-se execução em ambiente sandbox e restrição ao uso de dados sensíveis

Instalação e execução

  • Instalação com pip install -e . ou uv sync --all-extras
  • É necessário instalar os navegadores do Playwright
  • Suporta hospedagem em nuvem via Azure Foundry ou self-hosting em GPU com VLLM
  • Exemplo de comando:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Reprodutibilidade e ambiente de avaliação

  • Fornece o framework webeval/ para reproduzir as avaliações do WebVoyager e do OnlineMind2Web
  • Integração com o BrowserBase para gerenciamento estável de sessões de navegador
  • Garante consistência na avaliação com atualizações para tarefas sensíveis ao tempo, tratamento de erros de ambiente e limite de 100 etapas
  • Removeu 48 tarefas impossíveis do dataset WebVoyager e atualizou 50 datas futuras

Execução e análise da avaliação

  • Os scripts de avaliação são executados no diretório webeval/scripts
  • É possível escolher entre self-hosting com VLLM ou endpoint do Azure Foundry
  • Os resultados são salvos em gpt_eval/, traj/, screenshot_X.png etc.
  • Com Jupyter Notebook, é possível analisar pontuação média, causas de falha e trajetórias interrompidas

Planos futuros

  • Está prevista a publicação de um pipeline de validação para avaliação LLM-as-a-judge e dos dados oficiais com anotação humana do WebTailBench
  • Melhoria da qualidade da avaliação por meio de colaboração com o BrowserBase

Informações de citação

  • Para uso em pesquisa, recomenda-se citar o artigo da Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 comentários

 
GN⁺ 2025-11-28
Comentários do Hacker News
  • O ponto principal é que a Microsoft fez fine-tuning do Qwen2.5-VL-7B
    Acho que esse é o verdadeiro ponto de partida desta discussão. Fico curioso se outras grandes empresas também já fizeram fine-tuning de modelos externos dessa forma
  • Parece que só pegaram o Qwen2.5-VL e colaram um adesivo da Microsoft
    Agora parece que as empresas chinesas estão liderando
    • Sim. Por exemplo, o Fara-7B responde bem sobre a Batalha do Somme na Primeira Guerra Mundial, mas evita falar sobre o massacre da Praça da Paz Celestial, dizendo que não pode responder por ser um tema político sensível
  • O verdadeiro destaque é a divulgação do novo benchmark para tarefas web, WebTailBench
  • Fico me perguntando por que a Microsoft continua lançando apenas modelos treinados com dados sintéticos (synthetic data)
    Talvez seja por causa do contrato com a OpenAI e eles não possam criar seu próprio LLM. A Meta é praticamente a única nos EUA lançando modelos open source de grande porte, enquanto as empresas chinesas continuam lançando modelos totalmente abertos
    • Acho que não deve haver restrição contratual. Parece mais que eles não querem desperdiçar recursos criando mais um modelo de base (foundation model)
      Como este modelo é para controle de computador, dados sintéticos fazem sentido. Quase não existem datasets reais para isso.
      As empresas chinesas escolhem open source em grande parte para ganhar confiança e se diferenciar no marketing
    • É bem provável que o jurídico tenha mandado fazer assim. Grandes empresas têm, por natureza, uma estrutura incapaz de inovar
    • Modelos como Gemma, Phi, OLMO, Mistral e GPT-OSS também são bastante competitivos e rodam bem em hardware comum
    • Treinar com dados sintéticos é muito mais eficiente. Dados reais só informam o próximo token, mas dados sintéticos permitem conhecer toda a distribuição de probabilidades, o que multiplica o efeito do treinamento
      Artigo relacionado: https://arxiv.org/pdf/2504.14772v1
    • Usar apenas dados sintéticos é mais seguro. Dá para evitar problemas como conteúdo adulto ou roleplay
  • O modelo parece limitado ao uso no navegador. Por exemplo, não consegue controlar programas comuns como o KiCAD
    Eu usei o Qwen3-VL-30B com Playwright e ele foi bem decente para automação no navegador. Mas tarefas repetitivas acabam tendo que ser capturadas em código
    Este modelo é menor, mas é interessante por ter sido feito com um objetivo especializado
    • Se você quiser converter esse tipo de ação de CUA em scripts determinísticos, vale a pena ver o guia de cache do Stagehand
    • Dá para fazer isso com emulação em WASM dentro do navegador. Isso é menos uma limitação do modelo e mais uma restrição do sandbox de segurança
    • Há um pedido para compartilharem ferramentas ou código relacionados, se existirem
    • Testando na prática, ele só funciona no ambiente Playwright
  • Olhando a tabela, não entendo bem a maioria dos casos de uso. Só comparação de compras faz sentido para mim
    Fico pensando se as pessoas realmente estão terceirizando compras para IA
    • Não é necessariamente só para consumidor final. Por exemplo, é útil para automatizar algo como sites de seguradoras sem API
    • Juntar produtos por categoria e resumir isso é uma funcionalidade bem útil
    • Eu ficaria desconfortável em deixar a IA pagar ou fazer reservas por mim. Preferiria delegar só a pesquisa e exploração
    • Eu realmente deixo a IA cuidar das minhas compras de vinho
  • Esse tipo de automação já era possível há anos. Nem precisa de GPU e, se a interface mudar, é só ajustar o script
    Parece que a Microsoft está simplesmente jogando um monte de experimentos de IA por aí
    • O ponto principal é que dá para automatizar mais de 1 bilhão de sites sem precisar escrever os scripts manualmente
      O modelo recebe capturas de tela da página e um objetivo, e gera os comandos de automação para alcançar esse objetivo
  • Fico curioso se esse tipo de modelo também poderia ser usado para controle de entrada em videogames. Seria divertido ver uma IA jogando Kerbal Space Program
    • Já houve experiências assim antes. Com kRPC, o modelo consegue interagir com o jogo com facilidade
      Quando tentaram com o Opus3, foi bem engraçado vê-lo soltar mensagens como “Iniciando procedimento de ejeção de emergência” enquanto explodia a nave espacial
    • Também vale olhar o SIMA-2 da DeepMind (não é um modelo local)
    • O AgentEvolver da Alibaba não é voltado só para jogos, mas é interessante como sistema de agentes baseado em loop OODA
      Artigo relacionado: https://arxiv.org/abs/2511.10395
      Também vale conferir o post de feedback do Sung Kim
    • Fico imaginando o que aconteceria se colocassem isso para jogar pôquer online
  • Parece que a Microsoft fez fine-tuning do Qwen-7B
    • Mais precisamente, do Qwen2.5-VL-7B. Essa diferença é bastante importante
    • Dá a sensação de que o jogo está mudando
  • É engraçado pensar que seja preciso um modelo de 7 bilhões de parâmetros para automatizar cliques em páginas web
    Não sei se chegamos a esse ponto porque não sabemos mais escrever scripts ou porque a stack de software ficou complexa demais
    • Vi recentemente um vídeo chamado ‘My New Agent Coding Workflow’, em que a pessoa mandava a IDE baixar um arquivo por prompt em vez de simplesmente fazer o download
      Parecia quase uma tentativa de aumentar o consumo de tokens
    • Isso não é um problema técnico, e sim um problema de cooperação social.
      Como as empresas não oferecem APIs para interoperabilidade, acaba sendo mais fácil para o LLM lidar com a UI no brute force, como um humano
    • Metade da indústria atual de software e finanças é sustentada por barreiras artificiais de entrada criadas por complexidade excessiva