API Fusion do OpenRouter
(openrouter.ai)- Parte da constatação de que sintetizar os resultados de vários modelos pode superar com folga o desempenho de qualquer modelo isolado
- Usa deliberação multi-modelo: vários modelos especialistas analisam um único prompt em paralelo, e um modelo juiz (judge model) sintetiza os resultados para produzir a resposta final
- Os modelos do painel executam análise paralela com pesquisa na web e web fetch ativados, enquanto o modelo juiz organiza a análise em consenso, contradições, concordância parcial, insights únicos e pontos cegos
- O padrão é o preset Quality, mas é possível trocar para o preset Budget para usar modelos mais baratos ou redefinir completamente painel e juiz pelos campos do plugin fusion
- Indicado para pesquisa, crítica especializada e situações em que o custo de uma resposta errada supera o custo adicional de geração
- Como executa todos os membros do painel e também a chamada do juiz, o custo da requisição é cobrado pela soma das completions individuais, não como um único modelo
Como funciona
- Converte um único prompt em uma pequena deliberação multi-modelo
- Um painel de modelos especialistas analisa o prompt em paralelo com web search e web fetch ativados
- O modelo juiz sintetiza as respostas do painel e gera uma análise estruturada em consenso, contradições, cobertura parcial, insights únicos e pontos cegos
- Com base nessa análise estruturada, o modelo juiz escreve a resposta final
Composição e configuração do painel
- O painel padrão usa o preset Quality
- Se quiser membros mais baratos, é possível mudar para o preset Budget
- Os campos
analysis_modelsemodeldo plugin fusion permitem sobrescrever completamente o painel e o juiz
- Recomendado quando um único modelo não é suficiente
- Adequado para pesquisa, crítica especializada ou áreas em que o custo de uma resposta errada supera o custo adicional de geração
Preços e limitações
- Como executa todos os membros do painel e também a chamada do juiz, o custo da requisição é calculado pela soma das completions individuais, não por um modelo único
- É possível verificar quais modelos foram realmente executados na página Activity
- O limite de contexto varia conforme os modelos escolhidos
Os presets usam 6 modelos
- Maior qualidade: Claude Opus, OpenAI GPT, Google Gemini Pro
- Menor custo: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi
Anúncio relacionado: "Superando o desempenho de frontier com Fusion"
- Uma ferramenta que sintetiza os resultados de vários modelos para superar o desempenho de modelos individuais, permitindo escolher diretamente um painel de modelos participantes e um modelo judge que funde os resultados, com chamada como se fosse um único modelo
- Em medições com 100 tarefas de deep research do benchmark DRACO, o painel superou os modelos individuais de forma consistente
- A fusão de Fable 5 + GPT-5.5 alcançou 69.0%, superando todos os modelos individuais, incluindo o Fable 5 sozinho (65.3%)
- Um painel de baixo custo (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) chegou a menos de 1% da pontuação do Fable 5 com 50% do custo, superando GPT-5.5 e Opus 4.8
- O prompt é enviado em paralelo aos modelos do painel, e o judge analisa pontos de consenso, contradições, insights únicos e pontos cegos; com isso, o modelo chamado produz a resposta final
- Todo o pipeline roda server-side, permitindo uso da mesma forma que chamadas de modelo individuais
- Mesmo ao fundir o Opus 4.8 com ele próprio, o resultado chegou a 65.5%, alta de 6.7 pontos frente ao uso isolado (58.8%), confirmando o efeito da etapa de synthesis em si
- Foi identificado um risco de contaminação quando os modelos do painel encontravam online a rubrica de avaliação; isso foi bloqueado com uma configuração de uma linha para exclusão em web search e web fetch
- Há 4 formas de uso: Chatroom (sem necessidade de código), Model slug (troca de string), Server tool (controle máximo), Plugin (definição do painel)
- Não é um substituto drop-in para o Fable; tarefas de long-horizon em que o Fable se destaca não foram incluídas, e em programação pode ser usado como ferramenta de chamada seletiva
1 comentários
Comentários do Hacker News
Há alguns meses, tentei criar o Fusion com um MCP usando o OpenRouter. A ideia era oferecer um “painel de especialistas” para consultar quando o Claude travasse
Depois de muitos testes e benchmarks, descobri que fazer um modelo avaliar a resposta de outro na prática não produzia respostas melhores. No fim, isso equivale a perguntar “o quanto esta resposta se parece com a que você teria dado”, e rodadas extras ou soluções “óbvias” que surgem na hora eram, na prática, parecidas com aumentar a temperatura. Encontrei uma solução, mas o custo era absurdamente alto. Se essa abordagem receber mais atenção, talvez eu publique a minha também
Eu peço explicitamente para encontrarem problemas por nível de gravidade, passo esses problemas por um painel de modelos julgadores e só faço corrigir a resposta original aquilo que passa de um certo limiar. A grande melhoria veio quando pedi ao modelo julgador para avaliar separadamente os eixos de veracidade e de “utilidade/precisa ser corrigido”. Isso porque, ao forçar a busca por problemas, inevitavelmente aparece implicância com detalhes triviais, e o eixo de veracidade também foi melhor para avaliar modelos de detecção de problemas adequados ao meu caso de uso. Isso é aplicado em parte ao gerar explicações como esta: https://hanzirama.com/character/%E6%9D%A5#explain — hoje esse site virou um pequeno subproduto do meu sistema de avaliação de LLM. Se você precisa da melhor qualidade, provavelmente vai ter que fixar o provedor no OpenRouter. Só
:exactodificulta obter bons resultados reproduzíveis, especialmente com modelos de pesos abertosQueria saber se mais alguém já sentiu que, quando se engana um LLM para ele entrar num modo em que “se sente superior”, ele pode ficar bem maldoso
O cenário mudou completamente em relação a dois anos atrás, então vale a pena revisitar isso. [0] https://github.com/Ceroxylon/konsensis
Testei dois modelos julgadores no meu app. O primeiro era um julgador para um modelo de adaptação de currículo: ele comparava o currículo final com o currículo original e com a vaga, avaliando adequação e honestidade numa escala de 10 pontos, e funcionou bem, sendo útil. O segundo era um modelo de revisão numa plataforma de bot de trading com LLM, revisando as decisões do modelo principal. Aqui, como o bot lida com ambiguidade, isso pode até atrapalhar, a menos que detecte erros óbvios, como julgar com um preço de candle errado ou dar BUY quando deveria ser SELL. Primeiro, isso adiciona atraso à decisão: no Gemma 4 31B, 30 segundos viram algo como 60 segundos, o dobro. Além disso, como o modelo de revisão roda só para decisões de BUY/SELL e não para HOLD, por causa do atraso e do custo o bot pode acabar ficando excessivamente cauteloso, em vez de aumentar o número de operações. Por isso, se a resposta não puder ser verificada com facilidade, acho melhor usar de uma vez um modelo melhor do que recorrer a um modelo de revisão. Nesse caso, também fica pouco claro por que o modelo julgador seria necessário e por que não deixar o próprio agente se revisar. Além disso, quando se lê o texto de raciocínio de modelos de raciocínio como o Gemma 4, dá para ver que eles já estão se revisando. Ou seja, já estão fazendo o melhor que podem, então uma nova revisão não acrescenta tanta informação. É um experimento interessante, mas precisa ser avaliado caso a caso
Eu tinha um prompt que usava assim, só com o Claude Code
Vamos revisar um problema de arquitetura. Suba 10 agentes, faça cada um criar uma persona, depois revisar
_api.goe escrever a revisão emreviews/-review.md. Faça cada agente ler o resumo no início de cada revisão, responder em round-robin a 3 revisões que quiserem e escrever emresponse/--response.md. Depois, escreva uma contestação às respostas emrebuttals/-rebuttal.md. Por fim, faça cada agente subir de novo um agente para revisar sua própria revisão, resposta e contestação, e organizar o resultado emfindings/-findings.md. No fim, outro agente reúne os resultados e escreve emreview-findings.md, apresentando ali uma versão concisa. Isso funcionou bem tanto em modelos de ponta quanto em modelos hospedados localmente. A última vez que usei foi com o Qwen 3.5Você revisa todos os arquivos gerados para verificar se não há alucinações, ou olha só o arquivo final com o resultado conciso? Também queria saber se a ideia é que, ao passar por vários agentes, as alucinações acabem se anulando e no fim reste apenas a verdade. Queria saber também se você já viu conteúdo gravemente errado na versão final. Eu me preocuparia com o custo, mas usando modelos hospedados localmente isso deve pesar menos. Ainda assim, modelos hospedados localmente não continuam tendo problemas com execução de comandos locais ou acesso à internet? Se for esse o caso, fiquei curioso se isso roda só com o contexto daquele arquivo, sem consultar o restante do projeto
O contexto de fundo está aqui: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
O lugar com uma UI um pouco melhor é https://openrouter.ai/fusion. A Fusion API da OpenRouter envia a solicitação para vários modelos ao mesmo tempo, e um modelo avaliador combina as respostas para criar a resposta final. Dizem que isso aumenta bastante o desempenho em troca de mais tempo. Pelo menos foi assim no benchmark de deep research que eles testaram. O preset Budget é composto por 3 modelos mais baratos e, nesse benchmark, fica mais ou menos no nível do Fable custando metade. O preset Quality é composto por 3 modelos caros, supera o Fable, mas custa o dobro. Gráfico de Pareto: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... Curiosamente, até fundir o mesmo modelo com ele próprio melhorou o desempenho. 2xOpus4.8 fica mais ou menos no nível do Fable no benchmark, mas custa o dobro. Misturar modelos diferentes traz um ganho adicional pequeno. O principal ganho parece vir de compute em tempo de teste adicional. Seria bom ver mais pesquisa focada em modelos recentes e baratos, por exemplo casos de fundir o DSV4 com ele mesmo ou com o Mimo, e também ver o trade-off entre fusão como compute paralelo em tempo de teste e aumentar a quantidade de raciocínio ou o número de turnos
Isso é basicamente tirar mais amostras do espaço de saídas possível. Se um modelo consegue realizar alguma tarefa com 60% de probabilidade, você pode tirar 5–10 amostras e implementar algo como voto da maioria. Isso passou a ser menos usado à medida que a precisão dos modelos aumentou em problemas em que combinar resultados é fácil, mas com avaliadores mais complexos, isto é, LLMs competentes, ainda dá para melhorar o desempenho só amostrando mais o espaço de saídas e escolhendo as partes boas
Para mim isso sugere que o Gemini é mais fraco nessa tarefa, mas melhor em convencer o modelo avaliador da própria solução. E o fato de o painel com dois Opus 4.8 ficar quase exatamente no mesmo nível de um único Fable 5 também tem um cheiro suspeito. Será que dá para saber se a Anthropic já não está fazendo algo assim nos bastidores?
Rodei uma avaliação rápida para ver como isso difere qualitativamente de chamar diretamente o Opus 4.7 ou o GPT 5.5
Como esperado, o Fusion foi 7x mais lento e 4x mais caro. Não digo isso como crítica; vejo o Fusion como algo da categoria “usar só quando precisar”. https://3fpi5avcqq.evvl.io/
A ideia principal provavelmente é usar Fusion com modelos mais simples e baratos
Fico curioso para ver como a versão deles se sustenta em uso real
Pensei bastante nesse problema e, simplificando para entender, vejo cada modelo como uma distribuição em forma de sino sobre o conhecimento humano, e cada modelo tem uma distribuição diferente
Ao usar vários modelos, dá para alterar a distribuição de outro modelo com texto que estaria fora da curva original. Mas, pensando de novo, fico em dúvida se SFP e aprendizado por reforço já não alteram tanto a distribuição original de texto que as saídas combinadas dos modelos deixam de ser suficientemente diversas para formar algo melhor, virando só uma câmara de eco. Ainda não há como provar, mas eu acredito que não
Como resultado anedótico sobre Fusion, rodei na OpenRouter Fusion a mesma consulta que usei no Fable e o resultado foi pior
O Fable parecia captar alguma camada bem profunda de conhecimento/inteligência e, em vez de apenas dar uma resposta plausível, sugeria prioridades entre os itens a resolver e até propunha descartar alguns deles, o que me pareceu bem razoável. Já o Fusion pareceu uma versão um pouco mais variada do mesmo tipo de resposta que os modelos topo de linha anteriores ao Fable dariam e, nos testes bem limitados que fiz quando tive acesso ao Fable, ele não alcançou a mesma profundidade que o Fable alcançava
No fim de semana, inspirado pelo novo modelo Fusion da OpenRouter, trabalhei para ver se dava para rodar isso no Claude Code e se eu poderia tornar fácil para outras pessoas testarem também
O que eu fiz foi o claude-fusion-launcher — ele executa o Claude Code sobre um painel de modelos em vez de um modelo único. Também mostra o custo. https://github.com/smorinlabs/claude-fusion-launcher
Fico me perguntando se regenerar o mesmo prompt várias vezes com o mesmo modelo, em temperatura mais alta, seria equivalente a rodar modelos diferentes
Suspeito que boa parte da variabilidade percebida entre diferentes modelos de ponta venha da aleatoriedade de usar temperatura diferente de zero. Parece que os modelos foram treinados para devolver quantidades “bonitinhas” e redondas de itens, como 5, 10, 15. Talvez isso também venha de interferência do treinamento em material de marketing. Além disso, a taxa de recordação em contextos grandes está longe de 100%. Então, se houver 27 bugs no código, seja usando vários modelos diferentes ou chamando repetidamente o mesmo modelo, em cada execução você pode acabar encontrando 10 problemas diferentes entre esses 27
Tenho curiosidade se existe pesquisa formal nessa área. Também tentei variações dessa abordagem, mas não consigo dizer com confiança que os resultados foram melhores.
Fico me perguntando se isso é parecido com perguntar a 2 ou 3 consultores qual é a melhor estratégia para o negócio. Não sei se combinar as respostas realmente produz algo substancialmente melhor.
Também lancei no meu TrustedRouter uma funcionalidade parecida em código aberto, com criptografia de ponta a ponta: https://trustedrouter.com/