Combatendo fogo com fogo: ampliando exames orais com agentes de voz com IA

(behind-the-enemy-lines.com)

2 pontos por GN⁺ 2026-01-05 | 1 comentários | Compartilhar no WhatsApp

Com a disseminação dos grandes modelos de linguagem (LLMs), tarefas e provas tradicionais deixaram de medir adequadamente a compreensão do aprendizado, então docentes experimentaram introduzir exames orais em tempo real usando a IA de voz da ElevenLabs
A prova foi composta por duas partes, explicação do projeto e perguntas sobre casos, exigindo que o aluno explicasse diretamente à IA os fundamentos de suas decisões e seu processo de raciocínio
Os três modelos Claude, Gemini e ChatGPT atribuíram notas em formato de deliberação conjunta para aumentar a consistência e a qualidade do feedback, e também revelaram um tópico fraco da disciplina no mundo real (desenho experimental)
36 alunos ao longo de 9 dias foram avaliados, em média por 25 minutos cada, e o custo por aluno foi de US$ 0,42, extremamente baixo
O exame oral com IA pode se tornar um novo modelo de prova que torna escalável a avaliação centrada na compreensão

Reconhecimento do problema e contexto para adoção do exame oral

A qualidade das tarefas dos alunos estava anormalmente alta, levantando suspeitas de textos produzidos por IA, e em muitas verificações aleatórias foi confirmado que os próprios alunos não conseguiam explicar o que haviam entregue
Com a acessibilidade dos LLMs, a confiabilidade de tarefas e provas tradicionais entrou em colapso, e o exame oral, capaz de avaliar raciocínio em tempo real, surgiu como alternativa
Porém, exames orais têm a limitação de serem inviáveis em larga escala, então foram usados agentes de voz com IA para resolver esse problema

Configuração do agente de voz baseado em ElevenLabs

Foi usado o ElevenLabs Conversational AI para integrar elementos complexos como reconhecimento e síntese de voz, além do gerenciamento de turnos
Com variáveis dinâmicas, foram enviados o nome do aluno e informações do projeto, e uma estrutura de workflow separou os agentes de autenticação, projeto e perguntas de caso
- Agente de autenticação: verificação do ID do aluno
- Agente de projeto: perguntas com base no material enviado
- Agente de casos: seleção aleatória de um caso e formulação de perguntas
A separação em vários agentes menores garantiu prevenção de desvios na conversa e facilidade de depuração

Operação da prova e resultados numéricos

No total, 36 alunos, durante 9 dias, com média de 25 minutos (mínimo de 9 e máximo de 64)
Média de 65 trocas de mensagens, com custo total de US$ 15 (US$ 0,42 por aluno)
89% dos resultados de correção por LLM ficaram dentro de 1 ponto de diferença, e o exame mais curto (9 minutos) registrou a maior nota (19/20)
Em comparação com correção humana, houve redução de custo superior a 50 vezes, além de automação da avaliação, registro e feedback em tempo real

Tentativas, erros e medidas de melhoria

Feedback dos alunos de que o tom de voz era intimidador → testes A/B com diferentes vozes estão planejados
Problema de acúmulo de perguntas (stacking) → adicionada a regra de “uma pergunta por vez”
Alteração de sentido ao repetir perguntas → especificado que a repetição deve ser “com a frase exatamente igual”
Falta de tempo para pensar → tempo de espera ampliado para 10 segundos
Falha na seleção aleatória de casos → resolvida no nível do código com mapeamento aleatório

Correção por deliberação entre LLMs (council grading)

Claude, Gemini e ChatGPT fizeram correção independente e depois revisaram e ajustaram mutuamente
A taxa de divergência na primeira correção era alta, mas após a segunda deliberação a taxa de concordância dentro de 1 ponto subiu de 62% para 85%
O Gemini foi ajustado para baixo em média em 2 pontos, e houve alta consistência entre Claude e OpenAI
No item de desenho experimental, a divergência de notas foi a maior, o que foi analisado como resultado da ambiguidade das respostas dos alunos
A correção por IA é mais rigorosa, mas justa, do que a humana, e o feedback se destacou por ser específico e orientado à ação

Insights pedagógicos e diagnóstico

Na análise de desempenho por tema, desenho experimental teve a menor média, 1,94/4
- Nota 0: 8%, nota 1: 19%, nota 2: 42%, nota 4: 0%
Ficou claro que a causa foi a explicação insuficiente de testes A/B dentro da disciplina, confirmando a necessidade de melhoria pedagógica por parte dos docentes
Não houve correlação entre tempo de prova e nota (r=-0,03), e respostas curtas e claras estiveram associadas a notas mais altas

Prevenção de cola e transparência

Foi obrigatório que os alunos usassem webcam e gravação de áudio, bloqueando ajuda externa
A estrutura da prova e os tipos de perguntas foram operados com diretrizes públicas, eliminando o risco de vazamento das questões
Os alunos podem praticar repetidamente com a mesma estrutura, fortalecendo o aprendizado real

Reação dos alunos

Apenas 13% preferiram o exame oral com IA, 57% preferiram a prova escrita tradicional, e 83% responderam que se sentiram mais estressados
Ainda assim, 70% reconheceram que ele avaliou bem a compreensão real, indicando alta confiança no método de avaliação
A flexibilidade de fazer a prova em horário e local escolhidos pelo próprio aluno foi bem avaliada
Demandas de melhoria: ritmo mais lento, voz mais calma e formato de pergunta única

Planos de melhoria futuros

Controle de velocidade e maior variedade de vozes, perguntas com RAG baseadas no material entregue pelo aluno e distribuição de casos com seed aleatória explícita
Introdução de um gatilho para revisão humana quando houver divergência entre LLMs na correção
Maior acessibilidade: modo de prática, tempo extra e oferta de meios alternativos

Conclusão: avaliação centrada na compreensão, escalável com IA

Tarefas e provas escritas perderam eficácia na era dos LLMs, tornando necessária a transição para avaliação de raciocínio em tempo real
O exame oral com IA mede compreensão, julgamento e pensamento improvisado, sendo um novo método de avaliação viável em larga escala
Sem risco de vazamento das questões, é possível reforçar o aprendizado por meio de prática repetida
“Fight fire with fire” — uma inovação avaliativa que resolve com IA os problemas criados pela própria IA

1 comentários

GN⁺ 2026-01-05

Opiniões do Hacker News

Acho que os dados e as conclusões apresentados no artigo não batem
Mesmo depois de conversar com a AI, os estudantes ainda preferiram provas escritas
As universidades vêm aplicando provas escritas há séculos enquanto evitam cola, e depois da pandemia introduziram a "roda quadrada" das avaliações online, mas dá vontade de dizer que seria melhor voltar para a roda redonda
- Surpreende que, apesar de os resultados do experimento terem sido claramente ruins, o autor tenha chamado isso de “grande sucesso”
  Nem sequer validaram a precisão da avaliação por LLM. No fim, parece que definiram a conclusão antes e encaixaram os dados nela
- A frase citada não é uma conclusão, mas apenas uma afirmação
  Dizer que a prova para fazer em casa acabou é algo óbvio, não um resultado do experimento
  Hoje em dia ficou fácil demais colar até sozinho
  Além disso, cada área acadêmica deveria ter formas de avaliação diferentes, e campos novos como ciência da computação ainda carecem de maturidade na avaliação
  Por fim, a preferência dos alunos não é critério para julgar a qualidade de uma prova
- O fato de os alunos preferirem provas escritas não significa que isso seja o melhor
  Na prática, há muitas situações em que a pessoa precisa explicar o raciocínio por trás de uma decisão diante de outras pessoas
  Dá para entender que uma geração que teve menos experiências presenciais na pandemia tenha medo de falar, mas esse tipo de treinamento para superar a ansiedade pode justamente ajudar
- Em aulas online, provas escritas são difíceis
  Como a possibilidade de cola em provas para fazer em casa aumentou, uma prova oral, embora não seja perfeita, pode ser uma alternativa melhor
- A corrida armamentista entre cola e vigilância entre alunos e professores já acontece há séculos
Antigamente, todas as provas eram de um tipo em que a AI não tinha absolutamente nenhum espaço para interferir
Eram feitas à mão, com caneta, em um ginásio com fiscais observando
Colar significava expulsão, e só 1% entre milhares se formava
Quando ouço falarem em mudar as provas por causa da AI, parece loucura. A solução já existia
- Não há nada de admirável em um sistema no qual 99% dos alunos reprovam
  No fim, é uma estrutura que joga toda a responsabilidade no estudante, e o problema era a preguiça do professor e o reaproveitamento de questões de prova
  A solução de verdade é criar questões novas toda vez e variar a forma de cobrança
- Fico em dúvida se fazer alguém escrever código C++ à mão é mesmo a melhor forma de avaliar
  Acho melhor fazer a prova em computadores fornecidos pela escola com ambiente de desenvolvimento
- Também há quem diga que prova oral é melhor para diagnosticar compreensão
  Se isso for verdade, faz sentido buscar um modelo escalável de prova oral
- É difícil acreditar em uma taxa de reprovação de 99%. Uma universidade dessas deveria fechar
Não precisa ficar obcecado com escalabilidade
Universidades têm dinheiro, então o professor pode simplesmente aplicar a prova oral pessoalmente
Em programas de pós-graduação na Alemanha, havia muitas provas orais, e funcionava bem
- Na Europa, provas orais são comuns, como a Matura ou a defesa de tese de doutorado
  Depender de AI parece um símbolo de preguiça
  AI é boa para trabalho repetitivo, mas em situações adversariais é difícil confiar
Eu também fiz prova oral na graduação, e a mudança de atitude do professor era tão grande que a tensão era extrema
Fico em dúvida se a AI conseguiria gerar esse tipo de pressão emocional
No meu caso, eu me irrito mais com pequenos erros da AI
- Na Itália, desde o ensino fundamental até a universidade, todas as provas incluem parte oral
  Mas eu travo completamente nessas situações e não consigo dizer nada. É realmente sofrido
No passado, eu passava tarefas para fazer em casa em processos seletivos, mas alguns candidatos não conseguiam explicar o próprio código que haviam enviado
Agora, com a chegada dos LLMs, a tentação de deixar a AI escrever no lugar da pessoa ficou muito maior
Mas precisamos avaliar a capacidade de resolver problemas e de se comunicar do candidato
Entrevistas que permitem LLM acabam virando um “teste de habilidade no uso de AI”
Não concordo com o método do artigo, mas a preocupação em si é realista
- A expressão “synthetic pronouns” é interessante
O próximo passo talvez seja usar uma AI que responde por voz no lugar da outra AI
No fim, o ser humano vai precisar voltar ao centro
- Já dá para enganar bem só com um teleprompter
  No futuro, com óculos inteligentes, microfones de condução óssea e afins, isso vai ficar ainda mais sofisticado
  No fim, quem vai sair prejudicado são apenas os alunos honestos, mas socialmente ansiosos
- Se o espaço de prova for preenchido por dezenas de cabines telefônicas, parece algo ainda pior do que divisórias de escritório
Parece uma boa ideia oferecer simulados orais voluntários durante o semestre
Assim, o estudante se acostuma com o formato e até com o tom de voz
É surpreendente dizer que, com umas 36 pessoas, prova oral seria inviável
- Como mencionado no fim do artigo, a AI gera perguntas novas a cada vez, então dá para praticar sem medo de vazamento
  Esse tipo de aprendizado repetido é justamente a forma real de aprender
- Se um monitor ganha US$ 25 por hora, prova oral é totalmente viável
  Prefiro receber meus US$ 25 de volta a deixar um LLM fazer a prova
- Na Charles University, em Praga, até turmas com mais de 200 alunos fizeram prova oral
- Depende da profundidade e da frequência da prova oral
  Se apenas alguns alunos forem escolhidos por amostragem, isso pode gerar motivação ou frustração ao mesmo tempo
- No fim, a ideia é economizar dinheiro substituindo a prova por um chatbot
  Mesmo que fosse só com os melhores alunos, fazer uma prova oral de 10 minutos com conversa é totalmente possível
Só de imaginar ser interrogado por um aplicativo de voz com AI já parece horrível
Se esse modelo continuar, talvez seja melhor pensar em um modelo educacional sem avaliação
- No fim, voltar para a prova manuscrita talvez seja a solução mais realista
- Recentemente eu também fiz uma entrevista com AI, e não senti culpa nenhuma em mentir para ela
  Coisas que eu jamais diria a um ser humano saíam com facilidade
- Se as provas desaparecerem por completo, a motivação para estudar não se sustenta
Eu sou justamente o autor do post do blog
Foi só uma tentativa nova em nossa aula de AI
Não estamos tentando abolir a prova escrita, mas adicionar a prova oral como mais uma ferramenta
O objetivo era verificar, em projetos em grupo, se o aluno realmente entendeu o próprio trabalho
Como esperado, os alunos que tiraram notas baixas na prova oral tinham pouca compreensão do projeto
Com 36 alunos ainda dá para entrevistar pessoalmente, mas com mais de 100 fica difícil
Acima de tudo, havia pesquisas indicando que a AI fornece avaliações consistentes por não se cansar. Por isso confiei nisso
- Disseram que permitir o uso de LLM seria algo natural, mas eu discordo
  Não é muito diferente de usar uma empilhadeira na academia
  Talvez funcione em disciplinas simples de nível MBA, mas em matérias que exigem julgamento sutil, a AI não é justa
  Se a ideia é só fazer uma verificação simples, acho melhor aplicar múltipla escolha em um quiosque
Na nossa época, todas as provas eram orais
As provas grandes levavam dois dias, mas professor e assistentes organizavam seis sessões por ano
- Na minha graduação e no mestrado em física, prova oral era o padrão, mas no doutorado isso desapareceu
  Um dos motivos foi a diferença na interpretação cultural de justiça
  Em ambientes muito diversos, prova oral pode gerar discussões sobre viés
- Professor também é humano
  Se puder corrigir com AI por US$ 5 e passar 20 horas rolando o celular, vai escolher isso

Combatendo fogo com fogo: ampliando exames orais com agentes de voz com IA

Reconhecimento do problema e contexto para adoção do exame oral

Configuração do agente de voz baseado em ElevenLabs

Operação da prova e resultados numéricos

Tentativas, erros e medidas de melhoria

Correção por deliberação entre LLMs (council grading)

Insights pedagógicos e diagnóstico

Prevenção de cola e transparência

Reação dos alunos

Planos de melhoria futuros

Conclusão: avaliação centrada na compreensão, escalável com IA

Leituras relacionadas

1 comentários

Opiniões do Hacker News