- Fara-7B é um modelo de linguagem agente ultracompacto (SLM) com 7 bilhões de parâmetros, com arquitetura de Computer Use Agent que realmente manipula o navegador para executar tarefas
- Prevê diretamente entradas de mouse e teclado para reconhecer e manipular páginas da web visualmente, interagindo da mesma forma que um humano, sem árvore de acessibilidade separada nem modelo de parsing
- Pode ser executado on-device, reduzindo a latência e reforçando a privacidade, além de concluir tarefas em média em 16 etapas, melhorando a eficiência em relação a modelos da mesma categoria
- Registrou desempenho superior a modelos da mesma categoria e modelos maiores em vários benchmarks, como o WebTailBench, com alta taxa de sucesso especialmente em automação web e tarefas de múltiplas etapas
- Junto com o dataset WebTailBench publicado pela Microsoft, oferece um ambiente reproduzível para avaliação de agentes web, contribuindo para a padronização da pesquisa em interação real com a web
Visão geral do Fara-7B
- Primeiro modelo de linguagem pequeno (SLM) agente dedicado ao uso do computador da Microsoft, alcançando desempenho de ponta na escala de 7 bilhões de parâmetros
- Baseado no Qwen2.5-VL-7B, treinado com dados sintéticos (145.000 trajetórias) usando o framework multiagente Magentic-One
- Com 7B de parâmetros, pode ser executado localmente, reduzindo a latência e fortalecendo a privacidade dos dados
Principais características
- Reconhece páginas da web com base em manipulação visual e imita ações reais do usuário, como rolar, clicar e digitar
- Usa as mesmas modalidades de entrada que humanos, dispensando um modelo de parsing separado
- Conclui tarefas em média de 16 etapas, melhorando a eficiência em relação a modelos semelhantes (média de 41 etapas)
- A implantação on-device reduz a dependência da nuvem e reforça a proteção de dados pessoais
Funcionalidades suportadas
- Busca na web e resumo de resultados
- Preenchimento de formulários e gerenciamento de contas
- Reserva de passagens aéreas, filmes e restaurantes
- Compras online e comparação de preços
- Busca de vagas de emprego e informações imobiliárias
Comparação de desempenho
- Avaliado em 4 benchmarks: WebVoyager, Online-M2W, DeepShop e WebTailBench
- O Fara-7B registrou taxas de sucesso de 73,5% no WebVoyager, 34,1% no Online-M2W, 26,2% no DeepShop e 38,4% no WebTailBench
- Desempenho superior ao de modelos da mesma categoria (UI-TARS-1.5-7B) e de modelos maiores (GLM-4.1V-9B)
Benchmark WebTailBench
- Composto por 609 tarefas cobrindo 11 tipos de tarefas web reais
- Inclui tarefas em um único site (compras, voos, hotéis etc.) e tarefas de múltiplas etapas (comparação de compras, tarefas combinadas etc.)
- O Fara-7B registrou o melhor desempenho entre modelos de uso do computador em todas as categorias
- Ex.: hotéis 53,8%, voos 37,9%, compras 52,4%, comparação de compras 32,7%
Infraestrutura de avaliação
- Usa o Playwright para reproduzir um ambiente real de navegador
- O Abstract Web Agent Interface permite integrar vários modelos
- A classe Fara-Agent oferece suporte à execução e aos testes do modelo
- Como é uma versão experimental pública, recomenda-se execução em ambiente sandbox e restrição ao uso de dados sensíveis
Instalação e execução
Reprodutibilidade e ambiente de avaliação
- Fornece o framework
webeval/ para reproduzir as avaliações do WebVoyager e do OnlineMind2Web
- Integração com o BrowserBase para gerenciamento estável de sessões de navegador
- Garante consistência na avaliação com atualizações para tarefas sensíveis ao tempo, tratamento de erros de ambiente e limite de 100 etapas
- Removeu 48 tarefas impossíveis do dataset WebVoyager e atualizou 50 datas futuras
Execução e análise da avaliação
- Os scripts de avaliação são executados no diretório
webeval/scripts
- É possível escolher entre self-hosting com VLLM ou endpoint do Azure Foundry
- Os resultados são salvos em
gpt_eval/, traj/, screenshot_X.png etc.
- Com Jupyter Notebook, é possível analisar pontuação média, causas de falha e trajetórias interrompidas
Planos futuros
- Está prevista a publicação de um pipeline de validação para avaliação LLM-as-a-judge e dos dados oficiais com anotação humana do WebTailBench
- Melhoria da qualidade da avaliação por meio de colaboração com o BrowserBase
Informações de citação
- Para uso em pesquisa, recomenda-se citar o artigo da Microsoft Research Fara: Fast and Accurate Web Agent (2025)
1 comentários
Comentários do Hacker News
Acho que esse é o verdadeiro ponto de partida desta discussão. Fico curioso se outras grandes empresas também já fizeram fine-tuning de modelos externos dessa forma
Agora parece que as empresas chinesas estão liderando
Talvez seja por causa do contrato com a OpenAI e eles não possam criar seu próprio LLM. A Meta é praticamente a única nos EUA lançando modelos open source de grande porte, enquanto as empresas chinesas continuam lançando modelos totalmente abertos
Como este modelo é para controle de computador, dados sintéticos fazem sentido. Quase não existem datasets reais para isso.
As empresas chinesas escolhem open source em grande parte para ganhar confiança e se diferenciar no marketing
Artigo relacionado: https://arxiv.org/pdf/2504.14772v1
Eu usei o Qwen3-VL-30B com Playwright e ele foi bem decente para automação no navegador. Mas tarefas repetitivas acabam tendo que ser capturadas em código
Este modelo é menor, mas é interessante por ter sido feito com um objetivo especializado
Fico pensando se as pessoas realmente estão terceirizando compras para IA
Parece que a Microsoft está simplesmente jogando um monte de experimentos de IA por aí
O modelo recebe capturas de tela da página e um objetivo, e gera os comandos de automação para alcançar esse objetivo
Quando tentaram com o Opus3, foi bem engraçado vê-lo soltar mensagens como “Iniciando procedimento de ejeção de emergência” enquanto explodia a nave espacial
Artigo relacionado: https://arxiv.org/abs/2511.10395
Também vale conferir o post de feedback do Sung Kim
Não sei se chegamos a esse ponto porque não sabemos mais escrever scripts ou porque a stack de software ficou complexa demais
Parecia quase uma tentativa de aumentar o consumo de tokens
Como as empresas não oferecem APIs para interoperabilidade, acaba sendo mais fácil para o LLM lidar com a UI no brute force, como um humano