Fara-7B: um modelo agente eficiente para uso do computador

(github.com/microsoft)

3 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp

Fara-7B é um modelo de linguagem agente ultracompacto (SLM) com 7 bilhões de parâmetros, com arquitetura de Computer Use Agent que realmente manipula o navegador para executar tarefas
Prevê diretamente entradas de mouse e teclado para reconhecer e manipular páginas da web visualmente, interagindo da mesma forma que um humano, sem árvore de acessibilidade separada nem modelo de parsing
Pode ser executado on-device, reduzindo a latência e reforçando a privacidade, além de concluir tarefas em média em 16 etapas, melhorando a eficiência em relação a modelos da mesma categoria
Registrou desempenho superior a modelos da mesma categoria e modelos maiores em vários benchmarks, como o WebTailBench, com alta taxa de sucesso especialmente em automação web e tarefas de múltiplas etapas
Junto com o dataset WebTailBench publicado pela Microsoft, oferece um ambiente reproduzível para avaliação de agentes web, contribuindo para a padronização da pesquisa em interação real com a web

Visão geral do Fara-7B

Primeiro modelo de linguagem pequeno (SLM) agente dedicado ao uso do computador da Microsoft, alcançando desempenho de ponta na escala de 7 bilhões de parâmetros
Baseado no Qwen2.5-VL-7B, treinado com dados sintéticos (145.000 trajetórias) usando o framework multiagente Magentic-One
Com 7B de parâmetros, pode ser executado localmente, reduzindo a latência e fortalecendo a privacidade dos dados

Principais características

Reconhece páginas da web com base em manipulação visual e imita ações reais do usuário, como rolar, clicar e digitar
Usa as mesmas modalidades de entrada que humanos, dispensando um modelo de parsing separado
Conclui tarefas em média de 16 etapas, melhorando a eficiência em relação a modelos semelhantes (média de 41 etapas)
A implantação on-device reduz a dependência da nuvem e reforça a proteção de dados pessoais

Funcionalidades suportadas

Busca na web e resumo de resultados
Preenchimento de formulários e gerenciamento de contas
Reserva de passagens aéreas, filmes e restaurantes
Compras online e comparação de preços
Busca de vagas de emprego e informações imobiliárias

Comparação de desempenho

Avaliado em 4 benchmarks: WebVoyager, Online-M2W, DeepShop e WebTailBench
O Fara-7B registrou taxas de sucesso de 73,5% no WebVoyager, 34,1% no Online-M2W, 26,2% no DeepShop e 38,4% no WebTailBench
Desempenho superior ao de modelos da mesma categoria (UI-TARS-1.5-7B) e de modelos maiores (GLM-4.1V-9B)

Benchmark WebTailBench

Composto por 609 tarefas cobrindo 11 tipos de tarefas web reais
Inclui tarefas em um único site (compras, voos, hotéis etc.) e tarefas de múltiplas etapas (comparação de compras, tarefas combinadas etc.)
O Fara-7B registrou o melhor desempenho entre modelos de uso do computador em todas as categorias
- Ex.: hotéis 53,8%, voos 37,9%, compras 52,4%, comparação de compras 32,7%

Infraestrutura de avaliação

Usa o Playwright para reproduzir um ambiente real de navegador
O Abstract Web Agent Interface permite integrar vários modelos
A classe Fara-Agent oferece suporte à execução e aos testes do modelo
Como é uma versão experimental pública, recomenda-se execução em ambiente sandbox e restrição ao uso de dados sensíveis

Instalação e execução

Instalação com pip install -e . ou uv sync --all-extras
É necessário instalar os navegadores do Playwright
Suporta hospedagem em nuvem via Azure Foundry ou self-hosting em GPU com VLLM

Exemplo de comando:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Reprodutibilidade e ambiente de avaliação

Fornece o framework webeval/ para reproduzir as avaliações do WebVoyager e do OnlineMind2Web
Integração com o BrowserBase para gerenciamento estável de sessões de navegador
Garante consistência na avaliação com atualizações para tarefas sensíveis ao tempo, tratamento de erros de ambiente e limite de 100 etapas
Removeu 48 tarefas impossíveis do dataset WebVoyager e atualizou 50 datas futuras

Execução e análise da avaliação

Os scripts de avaliação são executados no diretório webeval/scripts
É possível escolher entre self-hosting com VLLM ou endpoint do Azure Foundry
Os resultados são salvos em gpt_eval/, traj/, screenshot_X.png etc.
Com Jupyter Notebook, é possível analisar pontuação média, causas de falha e trajetórias interrompidas

Planos futuros

Está prevista a publicação de um pipeline de validação para avaliação LLM-as-a-judge e dos dados oficiais com anotação humana do WebTailBench
Melhoria da qualidade da avaliação por meio de colaboração com o BrowserBase

Informações de citação

Para uso em pesquisa, recomenda-se citar o artigo da Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 comentários

GN⁺ 2025-11-28

Comentários do Hacker News

O ponto principal é que a Microsoft fez fine-tuning do Qwen2.5-VL-7B
Acho que esse é o verdadeiro ponto de partida desta discussão. Fico curioso se outras grandes empresas também já fizeram fine-tuning de modelos externos dessa forma
Parece que só pegaram o Qwen2.5-VL e colaram um adesivo da Microsoft
Agora parece que as empresas chinesas estão liderando
- Sim. Por exemplo, o Fara-7B responde bem sobre a Batalha do Somme na Primeira Guerra Mundial, mas evita falar sobre o massacre da Praça da Paz Celestial, dizendo que não pode responder por ser um tema político sensível
O verdadeiro destaque é a divulgação do novo benchmark para tarefas web, WebTailBench
Fico me perguntando por que a Microsoft continua lançando apenas modelos treinados com dados sintéticos (synthetic data)
Talvez seja por causa do contrato com a OpenAI e eles não possam criar seu próprio LLM. A Meta é praticamente a única nos EUA lançando modelos open source de grande porte, enquanto as empresas chinesas continuam lançando modelos totalmente abertos
- Acho que não deve haver restrição contratual. Parece mais que eles não querem desperdiçar recursos criando mais um modelo de base (foundation model)
  Como este modelo é para controle de computador, dados sintéticos fazem sentido. Quase não existem datasets reais para isso.
  As empresas chinesas escolhem open source em grande parte para ganhar confiança e se diferenciar no marketing
- É bem provável que o jurídico tenha mandado fazer assim. Grandes empresas têm, por natureza, uma estrutura incapaz de inovar
- Modelos como Gemma, Phi, OLMO, Mistral e GPT-OSS também são bastante competitivos e rodam bem em hardware comum
- Treinar com dados sintéticos é muito mais eficiente. Dados reais só informam o próximo token, mas dados sintéticos permitem conhecer toda a distribuição de probabilidades, o que multiplica o efeito do treinamento
  Artigo relacionado: https://arxiv.org/pdf/2504.14772v1
- Usar apenas dados sintéticos é mais seguro. Dá para evitar problemas como conteúdo adulto ou roleplay
O modelo parece limitado ao uso no navegador. Por exemplo, não consegue controlar programas comuns como o KiCAD
Eu usei o Qwen3-VL-30B com Playwright e ele foi bem decente para automação no navegador. Mas tarefas repetitivas acabam tendo que ser capturadas em código
Este modelo é menor, mas é interessante por ter sido feito com um objetivo especializado
- Se você quiser converter esse tipo de ação de CUA em scripts determinísticos, vale a pena ver o guia de cache do Stagehand
- Dá para fazer isso com emulação em WASM dentro do navegador. Isso é menos uma limitação do modelo e mais uma restrição do sandbox de segurança
- Há um pedido para compartilharem ferramentas ou código relacionados, se existirem
- Testando na prática, ele só funciona no ambiente Playwright
Olhando a tabela, não entendo bem a maioria dos casos de uso. Só comparação de compras faz sentido para mim
Fico pensando se as pessoas realmente estão terceirizando compras para IA
- Não é necessariamente só para consumidor final. Por exemplo, é útil para automatizar algo como sites de seguradoras sem API
- Juntar produtos por categoria e resumir isso é uma funcionalidade bem útil
- Eu ficaria desconfortável em deixar a IA pagar ou fazer reservas por mim. Preferiria delegar só a pesquisa e exploração
- Eu realmente deixo a IA cuidar das minhas compras de vinho
Esse tipo de automação já era possível há anos. Nem precisa de GPU e, se a interface mudar, é só ajustar o script
Parece que a Microsoft está simplesmente jogando um monte de experimentos de IA por aí
- O ponto principal é que dá para automatizar mais de 1 bilhão de sites sem precisar escrever os scripts manualmente
  O modelo recebe capturas de tela da página e um objetivo, e gera os comandos de automação para alcançar esse objetivo
Fico curioso se esse tipo de modelo também poderia ser usado para controle de entrada em videogames. Seria divertido ver uma IA jogando Kerbal Space Program
- Já houve experiências assim antes. Com kRPC, o modelo consegue interagir com o jogo com facilidade
  Quando tentaram com o Opus3, foi bem engraçado vê-lo soltar mensagens como “Iniciando procedimento de ejeção de emergência” enquanto explodia a nave espacial
- Também vale olhar o SIMA-2 da DeepMind (não é um modelo local)
- O AgentEvolver da Alibaba não é voltado só para jogos, mas é interessante como sistema de agentes baseado em loop OODA
  Artigo relacionado: https://arxiv.org/abs/2511.10395
  Também vale conferir o post de feedback do Sung Kim
- Fico imaginando o que aconteceria se colocassem isso para jogar pôquer online
Parece que a Microsoft fez fine-tuning do Qwen-7B
- Mais precisamente, do Qwen2.5-VL-7B. Essa diferença é bastante importante
- Dá a sensação de que o jogo está mudando
É engraçado pensar que seja preciso um modelo de 7 bilhões de parâmetros para automatizar cliques em páginas web
Não sei se chegamos a esse ponto porque não sabemos mais escrever scripts ou porque a stack de software ficou complexa demais
- Vi recentemente um vídeo chamado ‘My New Agent Coding Workflow’, em que a pessoa mandava a IDE baixar um arquivo por prompt em vez de simplesmente fazer o download
  Parecia quase uma tentativa de aumentar o consumo de tokens
- Isso não é um problema técnico, e sim um problema de cooperação social.
  Como as empresas não oferecem APIs para interoperabilidade, acaba sendo mais fácil para o LLM lidar com a UI no brute force, como um humano
- Metade da indústria atual de software e finanças é sustentada por barreiras artificiais de entrada criadas por complexidade excessiva

Fara-7B: um modelo agente eficiente para uso do computador

Visão geral do Fara-7B

Principais características

Funcionalidades suportadas

Comparação de desempenho

Benchmark WebTailBench

Infraestrutura de avaliação

Instalação e execução

Reprodutibilidade e ambiente de avaliação

Execução e análise da avaliação

Planos futuros

Informações de citação

Leituras relacionadas

1 comentários

Comentários do Hacker News