Modelos de interação - uma abordagem escalável para colaboração entre humanos e IA

(thinkingmachines.ai)

19 pontos por GN⁺ 2026-05-13 | 3 comentários | Compartilhar no WhatsApp

Em vez de um harness externo, o modelo recebe e produz áudio, vídeo e texto ao mesmo tempo, em tempo real, colaborando naturalmente com humanos
Os modelos tradicionais baseados em turnos tinham um gargalo de colaboração: esperavam o usuário terminar de falar e não conseguiam receber novas entradas durante a geração
Com um design de microturnos em unidades de 200 ms, processa entrada e saída como fluxos contínuos, oferecendo suporte a vários modos de interação, como interrupções, fala simultânea e reações visuais
O sistema compartilha contexto entre o Interaction Model, responsável pela conversa em tempo real, e o Background Model, responsável por raciocínio de longo prazo e uso de ferramentas
Como a interatividade está embutida no próprio modelo, ao escalar ele não só fica mais inteligente, como também se torna um colaborador melhor

O gargalo de colaboração e o objetivo do Interaction Model

A Thinking Machines Lab anunciou uma prévia de pesquisa do Interaction Model, em que é o próprio modelo, e não um harness externo, que lida com a interação
O objetivo é fazer com que não apenas a inteligência da IA, mas também a interatividade escale junto; ou seja, o modelo absorve continuamente áudio, vídeo e texto e pensa, responde e age em tempo real
Hoje, muitas pesquisas e interfaces de IA valorizam a capacidade de a IA trabalhar sozinha por longos períodos, mas em trabalhos hands-on-keyboard com intervenção constante da pessoa, o modelo pode parecer lento demais, o que reduz o valor percebido
- Não foi otimizado para manter o humano dentro do loop
No trabalho real, é difícil especificar completamente os requisitos desde o início e ir embora; um processo colaborativo em que a pessoa fornece esclarecimentos e feedback no meio do caminho ajuda a gerar resultados melhores
Os modelos tradicionais baseados em turnos esperam o usuário terminar a entrada e, enquanto o modelo gera, não conseguem receber novas informações, vivendo a realidade como se fossem single-threaded
- Essa estrutura reduz a largura com que o conhecimento, a intenção e o julgamento do usuário são transmitidos ao modelo, assim como reduz o quanto a pessoa consegue entender o trabalho do modelo
A Thinking Machines Lab entende que, para resolver esse gargalo, é preciso haver interação em tempo real em todas as modalidades; em vez de as pessoas se adaptarem à interface da IA, a IA deve se adaptar à forma como as pessoas trabalham
A maioria dos modelos de IA existentes usa harnesses que juntam vários componentes para imitar interrupções, multimodalidade e simultaneidade, mas, segundo The Bitter Lesson, sistemas montados manualmente podem perder para a expansão de capacidades mais gerais
Para que a interatividade escale junto com a inteligência, ela precisa ser uma capacidade interna do modelo; ao aumentar o modelo, ele deve não só ficar mais inteligente, mas também se tornar um colaborador melhor

Capacidades abertas pela interação interna ao modelo

Gerenciamento natural de conversas
- O modelo rastreia implicitamente se o interlocutor está pensando, passando a vez de falar, se corrigindo ou induzindo uma resposta
- Ele faz esse tipo de julgamento sem um componente separado de gerenciamento de diálogo
Intervenção baseada em voz e visão (interrupção)
- O modelo não reage apenas quando o usuário termina de falar; dependendo do contexto, ele pode interromper no momento necessário
- Isso permite, por exemplo, interromper quando o usuário disser algo incorreto ou avisar ao detectar visualmente que um bug foi escrito no código
Fala simultânea
- Usuário e modelo podem falar ao mesmo tempo, o que é útil em situações como tradução em tempo real
Percepção de tempo
- O modelo percebe diretamente o tempo decorrido e pode lidar com tarefas como falar em intervalos específicos ou medir o tempo de ação do usuário
Chamadas de ferramentas, busca e geração de UI em paralelo
- O modelo pode pesquisar, navegar na web e gerar UI ao mesmo tempo em que fala e escuta o usuário
- Quando os resultados ficam prontos, ele os reinsere no fluxo da conversa de acordo com o contexto
- Em sessões reais longas, essas funções acontecem continuamente em conjunto, e a sensação fica mais próxima de colaborar do que apenas enviar prompts

Abordagem

Microturnos alinhados no tempo
- O Interaction Model divide fluxos contínuos de entrada e saída em microturnos e estrutura a interação com base no tempo
- Modelos baseados em turnos veem sequências alternadas de tokens, mas o Interaction Model com percepção temporal vê um fluxo contínuo de microturnos, de modo que silêncio, sobreposição e interrupções permanecem no contexto do modelo
- O modelo mantém um estado contínuo de troca bidirecional com o usuário, realizando percepção e resposta ao mesmo tempo
- Robótica e direção autônoma partem da premissa de operação em tempo real por causa das exigências do mundo físico, e modelos de áudio full-duplex como Moshi, PersonaPlex, nemotron-voicechat e Seeduplex também são exemplos de interação bidirecional e contínua
Composição do sistema
- O sistema é composto por um Interaction Model com percepção temporal, que mantém presença em tempo real, e um Background Model assíncrono, responsável por raciocínio contínuo, uso de ferramentas e tarefas de longa duração
- Quando um raciocínio mais profundo não pode ser gerado imediatamente, o Interaction Model delega ao Background Model
- Mesmo durante a delegação, o Interaction Model continua presente diante do usuário, respondendo a perguntas de acompanhamento, recebendo novas entradas e mantendo o contexto da conversa
- Os resultados do Background Model são transmitidos em streaming à medida que são gerados, e o Interaction Model os integra à conversa no momento adequado ao comportamento atual do usuário
- Os dois sistemas compartilham contexto, e o usuário pode aproveitar planejamento, uso de ferramentas e workflows de agente de um modelo de raciocínio com latência de resposta no nível de um modelo sem raciocínio
- Tanto o Background Model quanto o Interaction Model têm inteligência, e mesmo sozinho o Interaction Model apresenta desempenho competitivo em benchmarks de interação e inteligência
Estrutura do Interaction Model
- O ponto de partida do design são áudio e vídeo contínuos, que são inerentemente em tempo real; texto pode esperar, mas uma conversa em tempo real não
- O modelo recebe como entrada qualquer subconjunto de texto, áudio e vídeo, e prevê texto e áudio
- Ele opera em microturnos que continuam alternando entre processar 200ms de entrada e gerar 200ms de saída
- Em vez de consumir um turno completo do usuário e gerar uma resposta completa, processa tanto os tokens de entrada quanto os de saída como streams
- Essa abordagem possibilita simultaneidade quase em tempo real entre várias modalidades de entrada e saída e elimina fronteiras artificiais de turno que o modelo teria de respeitar
- Muitos sistemas existentes em tempo real tentam fazer modelos baseados em turnos parecerem em tempo real prevendo fronteiras de turno com harnesses como detecção de atividade de voz (VAD)
- Esses componentes de harness têm menos inteligência que o próprio modelo, limitando modos de interação como interrupção proativa ou reação a pistas visuais
- No Interaction Model, esses modos de interação tornam-se casos especiais que o modelo pode executar, e não um harness especial, e sua qualidade pode melhorar com a escala do modelo e dos dados de treinamento
Fusão antecipada sem encoder
- Em vez de processar áudio e vídeo com grandes encoders independentes, foi escolhida uma arquitetura que usa pré-processamento mínimo
- Muitos modelos omnimodais exigem o treinamento separado de um encoder semelhante ao Whisper ou de um decoder semelhante a TTS, mas este modelo recebe o sinal de áudio em formato dMel e o converte com uma camada leve de embedding
- dMel segue Bai, et al. 2024
- As imagens são divididas em patches 40x40 e então codificadas com hMLP
- O decoder de áudio usa um flow head
- Todos os componentes são treinados conjuntamente com o transformer desde o início
Otimização de inferência
- Na inferência, chunks de 200ms exigem prefill e decode pequenos com frequência, e cada etapa precisa atender a requisitos rígidos de latência
- Bibliotecas existentes de inferência para LLM não são otimizadas para situações com prefills pequenos e frequentes, o que traz muito overhead por turno
- Para isso, foi implementada uma streaming session: quando o cliente envia cada chunk de 200ms como uma solicitação separada, o servidor de inferência anexa o chunk a uma sequência persistente na memória da GPU
- Essa abordagem evita realocações frequentes de memória e cálculos de metadados, e uma versão desse recurso foi enviada upstream para o SGLang
- Os kernels também foram otimizados com base nos shapes e na latência observados no serving bidirecional
- Para kernels de MoE, foi usada a estratégia gather+gemv em vez do grouped gemm padrão, seguindo trabalhos anteriores de PyTorch e Cursor
Alinhamento entre trainer e sampler
- O trainer-sampler alignment em nível de bit foi útil para a estabilidade do treinamento e para depuração dos componentes do sistema
- Foram implementados batch-invariant kernels, com overhead total de desempenho inferior a 5%
- Para all-reduce e reduce-scatter, foi usado NVLS para implementar kernels de comunicação determinísticos e de baixa latência no Blackwell
- Esses kernels alcançam alinhamento em nível de bit até mesmo entre diferentes estratégias de paralelização, como Sequence Parallelism e Tensor Parallelism
- O principal desafio em Attention é o Split-KV, que normalmente pode criar inconsistências na ordem de acumulação entre decode e prefill
- Selecionar o split de forma consistente entre decode e prefill permite manter a ordem de acumulação; por exemplo, processar SM com alinhamento à esquerda em unidades de 4096 tokens pode trazer eficiência tanto em prefill quanto em decode
Coordenação entre os dois modelos
- Quando o Interaction Model delega, ele envia não uma consulta isolada, mas um pacote rico de contexto que inclui a conversa completa
- Os resultados do Background Model retornam em streaming conforme são gerados, e o Interaction Model os entrelaça na conversa no momento certo para o comportamento atual do usuário, em vez de fazer uma mudança brusca de contexto
Segurança
- Como a interação em tempo real pressiona a segurança de maneira diferente das trocas baseadas em turnos, o trabalho se concentrou em recusas adequadas à modalidade e robustez em conversas longas
- Para que recusas em voz soem naturais na fala coloquial, foram gerados com um modelo TTS dados de treinamento para recusar faixas de temas não permitidos e também para excesso de recusa
- Os limites de recusa foram calibrados para preferir expressões naturais sem reduzir a firmeza
- Para aumentar a robustez em conversas longas de speech-to-speech, foram gerados dados de recusa de múltiplos turnos com um harness automatizado de red team
- A similaridade comportamental com recusas baseadas em texto também foi mantida próxima

Benchmarks e avaliação

Inteligência e interatividade
- O nome do modelo é TML-Interaction-Small, apresentado como o primeiro modelo a combinar forte inteligência, seguimento de instruções e interatividade
- A qualidade da interação é medida pelo FD-bench
- O FD-bench v1.5 exige que o modelo responda em momentos específicos quando recebe áudio pré-gravado, medindo seu comportamento em situações de interrupção do usuário, sinais de escuta ativa, conversa com outras pessoas e falas de fundo
- A inteligência é medida pelo Audio MultiChallenge, um benchmark geral que acompanha inteligência e seguimento de instruções
- O TML-Interaction-Small registrou 0,40 segundo de latência de tomada de turno no FD-bench V1, mostrando latência menor que os modelos de comparação da tabela
- A pontuação média no FD-bench V1.5 foi 77,8, superior à de GPT-realtime-2.0, GPT-realtime-1.5, Gemini-3.1-flash-live e Qwen 3.5 OMNI-plus-realtime
- No FD-bench V3 Audio+Tools, registrou qualidade de resposta de 82,8% / Pass@1 de 68,0% com o Background Agent ativado
- A precisão em QIVD Video+Audio é de 54,0%, inferior ou semelhante à de alguns modelos de comparação
- O APR do Audio MultiChallenge é 43,4%, abaixo dos 48,5% do GPT-realtime-2.0 xhigh, mas acima dos modelos instant
- No BigBench Audio, foi reportado 75,7 / 96,5 com o Background Agent ativado
- No IFEval, registrou 82,1% no VoiceBench Audio e 89,7% em Text
- A taxa de recusa em texto no Harmbench é de 99,0%
Dimensões de interação que as avaliações existentes não capturam
- Como os benchmarks de interação existentes não capturam suficientemente o salto qualitativo observado nos modelos, foram adicionadas avaliações internas e adaptadas para medir percepção temporal, fala simultânea e proatividade visual
Percepção temporal e fala simultânea
- Modelos baseados em turnos e sistemas de gerenciamento de diálogo não oferecem suporte a estimativa temporal precisa nem a fala simultânea
- Exemplos de tarefas incluem formatos como “quanto tempo levou para correr 1 milha”, “corrija minha pronúncia assim que ouvir” e “quanto tempo levou para usar esta função”
- O TimeSpeak testa se o modelo consegue começar a falar no momento especificado pelo usuário e dizer o conteúdo correto
- Um exemplo é: “Quero fazer um exercício de respiração, então me diga para inspirar e expirar a cada 4 segundos até eu dizer para parar”
- O CueSpeak testa se o modelo diz uma resposta semanticamente correta no momento apropriado
- Os dados são estruturados de modo que, para obter a pontuação máxima, o modelo precise falar ao mesmo tempo que o usuário
- Um exemplo é: “Sempre que eu alternar o código e usar outro idioma, diga a palavra correta no idioma original”
- Os dois benchmarks têm, para cada exemplo, uma resposta semântica esperada e uma janela temporal, e um LLM judge só marca como correto quando semântica e timing são ambos atendidos
Proatividade visual
- As APIs comerciais de tempo real atuais detectam turnos principalmente com harnesses de gerenciamento de diálogo baseados em áudio e não conseguem decidir sozinhas quando falar quando o mundo visual muda
- StreamBridge, Streamo, StreamingVLM e MMDuet2 tratam de quando emitir texto a partir de entrada de vídeo em streaming
- Essas pesquisas de saída em texto não lidam com as restrições da interação por saída de voz, em que a fala tem duração, pode se sobrepor à do usuário e precisa ser coordenada com tomada de turno, interrupções e sinais de escuta ativa
- AURA é uma arquitetura em que um VideoLLM decide quando emitir texto ou permanecer em silêncio, com uma demo de ASR/TTS anexada, enquanto o modelo da Thinking Machines Lab difere por ser speech-native e full-duplex
Avaliação de proatividade visual
- RepCount-A foi adaptado para uma tarefa de contagem online de vídeos com ações repetitivas
- O modelo recebe uma instrução em áudio “conte o número de repetições de {action}” junto com o vídeo em streaming, e a avaliação verifica se o último número falado pelo modelo após a penúltima repetição da resposta correta está a até 1 da resposta correta
- Essa tarefa mede rastreamento visual contínuo e contagem no momento certo
- ProactiveVideoQA é composto por vídeos com perguntas cuja resposta só se torna conhecida em um momento específico
- Depois de transmitir a pergunta em áudio, o vídeo é enviado; se houver legendas, elas são embutidas no vídeo e o vídeo de entrada é silenciado para enfatizar a proatividade visual
- A avaliação usa a métrica PAUC@ω=0.5 ponderada por turno do artigo, escalada de 0 a 100, e tira a média por turno e categoria; se permanecer sempre em silêncio, recebe 25,0 pontos
- Uma pontuação alta exige dizer a resposta correta no momento correto, e respostas erradas recebem penalidade
- Charades é um benchmark padrão de localização temporal de ações, em que cada vídeo contém ações ocorrendo em intervalos de tempo rotulados
- O modelo recebe uma instrução em áudio “quando a pessoa começar a {action}, diga ‘start’, e quando parar, diga ‘Stop’” junto com um stream de vídeo, e a avaliação é feita pelo IoU temporal entre os intervalos previstos e os de referência
Limitações dos modelos atuais
- Os modelos existentes não conseguem realizar de forma significativa essas tarefas de percepção temporal, fala simultânea e proatividade visual
- Para fins de completude, são reportados os resultados do GPT Realtime-2 minimal, mas todos os modelos avaliados, incluindo os modelos thinking high, têm desempenho semelhante ou pior, ficando em silêncio ou dando respostas erradas
- A interatividade é vista como uma importante área de pesquisa futura, e foram anunciados planos de bolsas de pesquisa para o Interaction Model e para frameworks de avaliação de colaboração entre humanos e IA

Limitações e plano de lançamento

Sessões longas
- Áudio e vídeo contínuos acumulam contexto rapidamente
- O design de streaming-session lida bem com interações curtas e de duração média, mas sessões muito longas exigem gerenciamento de contexto cuidadoso
Computação e implantação
- Fazer streaming de áudio e vídeo com baixa latência exige uma conexão estável
- Sem uma boa conexão, a experiência piora significativamente
- Há espaço para melhorias ao aumentar a confiabilidade do sistema e treinar o modelo para ser mais robusto a frames atrasados
Alinhamento e segurança
- Interfaces em tempo real abrem novas áreas de pesquisa tanto em alinhamento quanto em segurança, e a coleta de feedback e a análise de bolsas de pesquisa estão em andamento
Escalonamento do tamanho do modelo
- Atualmente, o TML-Interaction-Small é um MoE de 276B parâmetros, com 12B parâmetros ativos
- Espera-se que a interatividade também melhore à medida que a escala do modelo aumenta, mas modelos pré-treinados maiores são lentos demais para servir nessa configuração no momento
- O plano é lançar modelos maiores mais tarde neste ano
Melhorias no Background Agent
- O foco principal é a interatividade em tempo real, mas a inteligência de agente também é uma capacidade essencial
- Além de elevar a inteligência de agente ao nível de frontier, a forma como o Background Agent trabalha junto com o Interaction Model ainda está em estágio inicial
Cronograma de lançamento
- Nos próximos meses, será aberta uma prévia de pesquisa limitada para coletar feedback, com uma disponibilização mais ampla prevista para mais tarde neste ano

3 comentários

xguru 2026-05-13

Vocês precisam ver os vídeos anexados. Mesmo com esse nível de latência, já parece bem realista.
Se evoluir só mais um pouco, acho que vai dar mesmo para conversar como nos filmes.

godrm 29 일 전

Uau... parece que vai ser comercializado nessa direção. Acho que falta muito pouco.

GN⁺ 2026-05-13

Comentários do Hacker News

Esses vídeos valem a pena assistir. Há muitas cenas impressionantes, mas fui convencido logo na primeira, quando a mulher diz “vou contar uma história” e então toma um longo gole de café enquanto o modelo não faz nada e simplesmente espera. Deu até vontade de pagar para usar
Já que falaram de dinheiro, fico curioso sobre qual é o modelo econômico de uma empresa dessas. Eles abriram bastante da arquitetura, e parece que divulgaram o suficiente para que laboratórios de fronteira consigam implementar. Patentes? Segredos comerciais? É difícil entender como podem vencer a escala de computação de treinamento e o know-how de Anthropic/GOOG/oAI/Meta sem proteção legal
Fico animado para ver o que acontece se uma arquitetura de modelo como essa reduzir a latência em 30~40% e ainda ficar mais inteligente. Pelo que entendi, este modelo parece ter algo como 275B, com 12B ativos, ou seja, cerca de 1/10 do tamanho de uma linhagem Opus 4.7 / GPT 5.x, então ainda há muito espaço para adicionar inteligência e talvez reduzir ainda mais a latência
- A arquitetura divulgada provavelmente é só a ponta do iceberg. Ajuste de hiperparâmetros, receita de dados, coleta de dados, kernels customizados e infraestrutura de RL/avaliação são todos temas profundos, e para alcançar esse nível de desempenho de ponta é preciso condensar décadas de trabalho de vários doutores
  O simples ato de esperar está mais para pós-treinamento, então não convém interpretar demais o fato de Gemini ou oAI não terem priorizado isso. O full duplex mostrado aqui é um feito tecnicamente muito mais difícil
- Na China, é bem conhecido que startups promissoras acabam recebendo propostas de aquisição da Alibaba ou da Tencent. Nos EUA deve ser parecido. O que é tornado público pode acabar sendo adquirido ou simplesmente copiado. Talvez a Thinking Machines esteja contando com isso
- Acho que o modelo econômico original era LLM corporativo. O tinker serviria para ajuste fino de modelos corporativos personalizados, e os interaction models seriam a forma de fazê-los trabalhar como colegas digitais, sem que a empresa precise reinventar todo o processo em torno de agentes de IA
- Para contratar pesquisadores de ponta, você precisa deixá-los publicar artigos, senão eles nem entram
O que chama atenção é que essa arquitetura é um transformer que recebe texto, imagem e áudio como entrada, e produz texto e áudio como saída, tudo treinado em conjunto. Além disso, em vez de gerar a saída de forma puramente autorregressiva a partir de um prompt dado, ele funciona quase em tempo real intercalando entrada e saída
“Time-Aligned Micro-Turns. The interaction model works with micro-turns continuously interleaving the processing of 200ms worth of input and generation of 200ms worth of output. Rather than consuming a complete user-turn and generating a complete response, both input and output tokens are treated as streams. Working with 200ms chunks of these streams enables near real-time concurrency of multiple input and output modalities.”
Na minha visão, esse é o ponto central que diferencia isso dos modelos multimodais de outros laboratórios de fronteira
- É realmente fascinante pensar que, se for projetado desde o início como uma arquitetura multimodal, podem surgir aplicações em que modalidades diferentes sejam tratadas como “faces” do mesmo objeto. Por exemplo, um agente de programação poderia ver “código” + “IDE” + “mapeamento de memória” + feedback de vários plugins como modalidades diferentes, e a saída também poderia ser texto quando texto for necessário e ação quando ação for necessária, em vez de algo como call_something(params)
  A capacidade de “ficar parado” até que certa modalidade seja acionada também é interessante. Isso já dá para fazer hoje, mas parece algo enxertado depois, e mesmo assim funciona bem. Fico curioso para saber quão bom isso pode ficar se for treinado dessa forma desde o início
- Fico me perguntando como funciona isso de “intercalar o processamento de 200 ms de entrada com a geração de 200 ms de saída”. LLMs/transformers não precisam do contexto inteiro para produzir o próximo bloco de tokens?
Pelos demos, parece que em muitos casos eles estão movendo para dentro do modelo componentes que antes ficavam em um harness externo, e não sei se isso vai mesmo ser a abordagem mais flexível
Em muitos casos, acho que dá para iterar mais rápido quando o harness de interação com o usuário fica do lado de fora. Por exemplo, se existe uma UI entre o usuário e o modelo e essa UI precisa mudar, o próprio usuário pode até customizá-la
Na minha opinião, flexibilidade é essencial. Para casos de uso fixos, como tradução em tempo real ou bots de voz simples, esse tipo de modelo pode ajudar, mas em cada um desses casos ele provavelmente acabará perdendo para alternativas mais especializadas
Independentemente de o modelo em si ser impressionante, os demos aqui foram muito bem feitos. Diferente do que se vê na Anthropic ou na OpenAI, eles são curtos e têm personalidade
- Concordo que é interessante, impressionante e que os demos são bons
  Mas a pantomima inesperada da mulher no demo de “postura curvada” foi muito engraçada. Foi comédia perfeita, não precisa mudar nada
  Gosto mais desse clima humano do que dos demos no estilo OpenAI/Anthropic. Dá até para chamar isso de exemplo de “design centrado no ser humano”? (https://en.wikipedia.org/wiki/Human-centered_design)
Muito legal. Dito isso, o demo pareceu bem ensaiado. Por exemplo, contar objetos enquanto eu estou falando. Fico curioso para saber como seriam aplicações mais úteis ou mais comerciais
- Em teoria, espero que seja algo capaz de fazer tudo o que os modelos de fronteira atuais fazem, mas com interatividade em tempo real adicionada para permitir uma colaboração melhor. A maior vantagem talvez seja a entrada de vídeo em tempo real. Em vez de receber um vídeo inteiro ou um conjunto de imagens de uma vez e então produzir uma única saída, ele pode ir recebendo a entrada enquanto cria, em paralelo, uma saída ajustada por essa própria entrada
- Sinto muito isso em todos os demos de IA. Se o melhor caso de uso que conseguiram imaginar para mostrar a tecnologia é reservar férias, algo que eu facilmente consigo fazer sozinho, será que esse serviço realmente agrega tanto valor? Ou será que o uso real é mais sutil e especializado, e por isso não cabe em um demo curto voltado ao público? Não sei
Parece que padrões mais naturais de interação humano-IA precisam ir nessa direção. O texto e o demo são bons
Não gosto de dizer isso, mas isso parece ao mesmo tempo bastante impressionante e um avanço na forma de interagir com IA, enquanto os casos de uso e a UX apresentados parecem irreais ou pouco úteis
Tradução em tempo real é a exceção e parece merecer virar um produto separado. Fora isso, contar animais ou cronometrar quiz tem pouca utilidade. O demo de detecção de postura foi engraçado, mas também bem distópico e estranho. Também não gostei de a IA interromper no meio da história sobre levar um pai idoso para andar de mountain bike, sem esperar a pessoa terminar, para dar bronca
A UX também é problemática. Quando o modelo interrompe o usuário, isso quebra o fluxo, mesmo quando parece necessário para aquele caso de uso estranho. Até nos vídeos de demo publicados, dá para ver que funcionários/atores precisam se concentrar bastante para continuar falando como se não tivessem sido cortados por uma máquina robótica e sem tato. Quando pessoas participam desse tipo raro de “interrupção convidada”, elas conseguem falar por baixo do orador principal e geralmente acertam um timing muito mais sutil
Até no demo de tradução automática, embora tenham abaixado a voz da pessoa, a IA entrou por cima; e para fazer aquele demo na prática, eles devem ter controlado muito a fala, ou, mais provavelmente, silenciado a saída. Intérpretes humanos têm formas de direcionar sua “saída” ao ouvinte pretendido
A melhor parte dessa tecnologia foi a cena do primeiro vídeo em que a IA não interrompe desnecessariamente o usuário. Parece que corrigiram um bug importante que os modelos atuais ainda têm
Um bom caso de uso talvez fosse contar muletas de linguagem ao praticar falar em público
- Modelos omni parecem muito úteis para interação humano-computador em tempo real. Exemplos que vêm à mente de imediato: assistentes de voz, experiência do cliente, jogos, apoio em reuniões, coaching em tempo real ou assistência ao usuário no uso de software, tradução e tarefas de computador controladas por voz
  Por exemplo, desenvolvimento frontend/mobile, CAD e modelagem 3D. Tradicionalmente, esses casos de uso com agentes baseados em LLM sofrem bastante com latência, porque o modelo precisa esperar o falante terminar para decidir se chama uma ferramenta ou se responde; e, se chamar uma ferramenta, precisa processar o resultado dela antes de decidir novamente se chama outra ferramenta ou responde
Isso parece semelhante ao que as pessoas já estão montando localmente com Gemma4 e TTS, só um pouco mais polido
Os modelos locais logo devem alcançar isso
A intenção pode ser boa, mas nas mãos erradas isso parece reforçar tecnologia de vigilância. Já passou da hora de reagir

Modelos de interação - uma abordagem escalável para colaboração entre humanos e IA

O gargalo de colaboração e o objetivo do Interaction Model

Capacidades abertas pela interação interna ao modelo

Gerenciamento natural de conversas

Intervenção baseada em voz e visão (interrupção)

Fala simultânea

Percepção de tempo

Chamadas de ferramentas, busca e geração de UI em paralelo

Abordagem

Microturnos alinhados no tempo

Composição do sistema

Estrutura do Interaction Model

Fusão antecipada sem encoder

Otimização de inferência

Alinhamento entre trainer e sampler

Coordenação entre os dois modelos

Segurança

Benchmarks e avaliação

Inteligência e interatividade

Dimensões de interação que as avaliações existentes não capturam

Percepção temporal e fala simultânea

Proatividade visual

Avaliação de proatividade visual

Limitações dos modelos atuais

Limitações e plano de lançamento

Sessões longas

Computação e implantação

Alinhamento e segurança

Escalonamento do tamanho do modelo

Melhorias no Background Agent

Cronograma de lançamento

Leituras relacionadas

3 comentários

Comentários do Hacker News