2 pontos por GN⁺ 2026-01-05 | 1 comentários | Compartilhar no WhatsApp
  • Com a disseminação dos grandes modelos de linguagem (LLMs), tarefas e provas tradicionais deixaram de medir adequadamente a compreensão do aprendizado, então docentes experimentaram introduzir exames orais em tempo real usando a IA de voz da ElevenLabs
  • A prova foi composta por duas partes, explicação do projeto e perguntas sobre casos, exigindo que o aluno explicasse diretamente à IA os fundamentos de suas decisões e seu processo de raciocínio
  • Os três modelos Claude, Gemini e ChatGPT atribuíram notas em formato de deliberação conjunta para aumentar a consistência e a qualidade do feedback, e também revelaram um tópico fraco da disciplina no mundo real (desenho experimental)
  • 36 alunos ao longo de 9 dias foram avaliados, em média por 25 minutos cada, e o custo por aluno foi de US$ 0,42, extremamente baixo
  • O exame oral com IA pode se tornar um novo modelo de prova que torna escalável a avaliação centrada na compreensão

Reconhecimento do problema e contexto para adoção do exame oral

  • A qualidade das tarefas dos alunos estava anormalmente alta, levantando suspeitas de textos produzidos por IA, e em muitas verificações aleatórias foi confirmado que os próprios alunos não conseguiam explicar o que haviam entregue
  • Com a acessibilidade dos LLMs, a confiabilidade de tarefas e provas tradicionais entrou em colapso, e o exame oral, capaz de avaliar raciocínio em tempo real, surgiu como alternativa
  • Porém, exames orais têm a limitação de serem inviáveis em larga escala, então foram usados agentes de voz com IA para resolver esse problema

Configuração do agente de voz baseado em ElevenLabs

  • Foi usado o ElevenLabs Conversational AI para integrar elementos complexos como reconhecimento e síntese de voz, além do gerenciamento de turnos
  • Com variáveis dinâmicas, foram enviados o nome do aluno e informações do projeto, e uma estrutura de workflow separou os agentes de autenticação, projeto e perguntas de caso
    • Agente de autenticação: verificação do ID do aluno
    • Agente de projeto: perguntas com base no material enviado
    • Agente de casos: seleção aleatória de um caso e formulação de perguntas
  • A separação em vários agentes menores garantiu prevenção de desvios na conversa e facilidade de depuração

Operação da prova e resultados numéricos

  • No total, 36 alunos, durante 9 dias, com média de 25 minutos (mínimo de 9 e máximo de 64)
  • Média de 65 trocas de mensagens, com custo total de US$ 15 (US$ 0,42 por aluno)
  • 89% dos resultados de correção por LLM ficaram dentro de 1 ponto de diferença, e o exame mais curto (9 minutos) registrou a maior nota (19/20)
  • Em comparação com correção humana, houve redução de custo superior a 50 vezes, além de automação da avaliação, registro e feedback em tempo real

Tentativas, erros e medidas de melhoria

  • Feedback dos alunos de que o tom de voz era intimidador → testes A/B com diferentes vozes estão planejados
  • Problema de acúmulo de perguntas (stacking) → adicionada a regra de “uma pergunta por vez”
  • Alteração de sentido ao repetir perguntas → especificado que a repetição deve ser “com a frase exatamente igual”
  • Falta de tempo para pensar → tempo de espera ampliado para 10 segundos
  • Falha na seleção aleatória de casos → resolvida no nível do código com mapeamento aleatório

Correção por deliberação entre LLMs (council grading)

  • Claude, Gemini e ChatGPT fizeram correção independente e depois revisaram e ajustaram mutuamente
  • A taxa de divergência na primeira correção era alta, mas após a segunda deliberação a taxa de concordância dentro de 1 ponto subiu de 62% para 85%
  • O Gemini foi ajustado para baixo em média em 2 pontos, e houve alta consistência entre Claude e OpenAI
  • No item de desenho experimental, a divergência de notas foi a maior, o que foi analisado como resultado da ambiguidade das respostas dos alunos
  • A correção por IA é mais rigorosa, mas justa, do que a humana, e o feedback se destacou por ser específico e orientado à ação

Insights pedagógicos e diagnóstico

  • Na análise de desempenho por tema, desenho experimental teve a menor média, 1,94/4
    • Nota 0: 8%, nota 1: 19%, nota 2: 42%, nota 4: 0%
  • Ficou claro que a causa foi a explicação insuficiente de testes A/B dentro da disciplina, confirmando a necessidade de melhoria pedagógica por parte dos docentes
  • Não houve correlação entre tempo de prova e nota (r=-0,03), e respostas curtas e claras estiveram associadas a notas mais altas

Prevenção de cola e transparência

  • Foi obrigatório que os alunos usassem webcam e gravação de áudio, bloqueando ajuda externa
  • A estrutura da prova e os tipos de perguntas foram operados com diretrizes públicas, eliminando o risco de vazamento das questões
  • Os alunos podem praticar repetidamente com a mesma estrutura, fortalecendo o aprendizado real

Reação dos alunos

  • Apenas 13% preferiram o exame oral com IA, 57% preferiram a prova escrita tradicional, e 83% responderam que se sentiram mais estressados
  • Ainda assim, 70% reconheceram que ele avaliou bem a compreensão real, indicando alta confiança no método de avaliação
  • A flexibilidade de fazer a prova em horário e local escolhidos pelo próprio aluno foi bem avaliada
  • Demandas de melhoria: ritmo mais lento, voz mais calma e formato de pergunta única

Planos de melhoria futuros

  • Controle de velocidade e maior variedade de vozes, perguntas com RAG baseadas no material entregue pelo aluno e distribuição de casos com seed aleatória explícita
  • Introdução de um gatilho para revisão humana quando houver divergência entre LLMs na correção
  • Maior acessibilidade: modo de prática, tempo extra e oferta de meios alternativos

Conclusão: avaliação centrada na compreensão, escalável com IA

  • Tarefas e provas escritas perderam eficácia na era dos LLMs, tornando necessária a transição para avaliação de raciocínio em tempo real
  • O exame oral com IA mede compreensão, julgamento e pensamento improvisado, sendo um novo método de avaliação viável em larga escala
  • Sem risco de vazamento das questões, é possível reforçar o aprendizado por meio de prática repetida
  • “Fight fire with fire” — uma inovação avaliativa que resolve com IA os problemas criados pela própria IA

1 comentários

 
GN⁺ 2026-01-05
Opiniões do Hacker News
  • Acho que os dados e as conclusões apresentados no artigo não batem
    Mesmo depois de conversar com a AI, os estudantes ainda preferiram provas escritas
    As universidades vêm aplicando provas escritas há séculos enquanto evitam cola, e depois da pandemia introduziram a "roda quadrada" das avaliações online, mas dá vontade de dizer que seria melhor voltar para a roda redonda

    • Surpreende que, apesar de os resultados do experimento terem sido claramente ruins, o autor tenha chamado isso de “grande sucesso”
      Nem sequer validaram a precisão da avaliação por LLM. No fim, parece que definiram a conclusão antes e encaixaram os dados nela
    • A frase citada não é uma conclusão, mas apenas uma afirmação
      Dizer que a prova para fazer em casa acabou é algo óbvio, não um resultado do experimento
      Hoje em dia ficou fácil demais colar até sozinho
      Além disso, cada área acadêmica deveria ter formas de avaliação diferentes, e campos novos como ciência da computação ainda carecem de maturidade na avaliação
      Por fim, a preferência dos alunos não é critério para julgar a qualidade de uma prova
    • O fato de os alunos preferirem provas escritas não significa que isso seja o melhor
      Na prática, há muitas situações em que a pessoa precisa explicar o raciocínio por trás de uma decisão diante de outras pessoas
      Dá para entender que uma geração que teve menos experiências presenciais na pandemia tenha medo de falar, mas esse tipo de treinamento para superar a ansiedade pode justamente ajudar
    • Em aulas online, provas escritas são difíceis
      Como a possibilidade de cola em provas para fazer em casa aumentou, uma prova oral, embora não seja perfeita, pode ser uma alternativa melhor
    • A corrida armamentista entre cola e vigilância entre alunos e professores já acontece há séculos
  • Antigamente, todas as provas eram de um tipo em que a AI não tinha absolutamente nenhum espaço para interferir
    Eram feitas à mão, com caneta, em um ginásio com fiscais observando
    Colar significava expulsão, e só 1% entre milhares se formava
    Quando ouço falarem em mudar as provas por causa da AI, parece loucura. A solução já existia

    • Não há nada de admirável em um sistema no qual 99% dos alunos reprovam
      No fim, é uma estrutura que joga toda a responsabilidade no estudante, e o problema era a preguiça do professor e o reaproveitamento de questões de prova
      A solução de verdade é criar questões novas toda vez e variar a forma de cobrança
    • Fico em dúvida se fazer alguém escrever código C++ à mão é mesmo a melhor forma de avaliar
      Acho melhor fazer a prova em computadores fornecidos pela escola com ambiente de desenvolvimento
    • Também há quem diga que prova oral é melhor para diagnosticar compreensão
      Se isso for verdade, faz sentido buscar um modelo escalável de prova oral
    • É difícil acreditar em uma taxa de reprovação de 99%. Uma universidade dessas deveria fechar
  • Não precisa ficar obcecado com escalabilidade
    Universidades têm dinheiro, então o professor pode simplesmente aplicar a prova oral pessoalmente
    Em programas de pós-graduação na Alemanha, havia muitas provas orais, e funcionava bem

    • Na Europa, provas orais são comuns, como a Matura ou a defesa de tese de doutorado
      Depender de AI parece um símbolo de preguiça
      AI é boa para trabalho repetitivo, mas em situações adversariais é difícil confiar
  • Eu também fiz prova oral na graduação, e a mudança de atitude do professor era tão grande que a tensão era extrema
    Fico em dúvida se a AI conseguiria gerar esse tipo de pressão emocional
    No meu caso, eu me irrito mais com pequenos erros da AI

    • Na Itália, desde o ensino fundamental até a universidade, todas as provas incluem parte oral
      Mas eu travo completamente nessas situações e não consigo dizer nada. É realmente sofrido
  • No passado, eu passava tarefas para fazer em casa em processos seletivos, mas alguns candidatos não conseguiam explicar o próprio código que haviam enviado
    Agora, com a chegada dos LLMs, a tentação de deixar a AI escrever no lugar da pessoa ficou muito maior
    Mas precisamos avaliar a capacidade de resolver problemas e de se comunicar do candidato
    Entrevistas que permitem LLM acabam virando um “teste de habilidade no uso de AI”
    Não concordo com o método do artigo, mas a preocupação em si é realista

    • A expressão “synthetic pronouns” é interessante
  • O próximo passo talvez seja usar uma AI que responde por voz no lugar da outra AI
    No fim, o ser humano vai precisar voltar ao centro

    • Já dá para enganar bem só com um teleprompter
      No futuro, com óculos inteligentes, microfones de condução óssea e afins, isso vai ficar ainda mais sofisticado
      No fim, quem vai sair prejudicado são apenas os alunos honestos, mas socialmente ansiosos
    • Se o espaço de prova for preenchido por dezenas de cabines telefônicas, parece algo ainda pior do que divisórias de escritório
  • Parece uma boa ideia oferecer simulados orais voluntários durante o semestre
    Assim, o estudante se acostuma com o formato e até com o tom de voz
    É surpreendente dizer que, com umas 36 pessoas, prova oral seria inviável

    • Como mencionado no fim do artigo, a AI gera perguntas novas a cada vez, então dá para praticar sem medo de vazamento
      Esse tipo de aprendizado repetido é justamente a forma real de aprender
    • Se um monitor ganha US$ 25 por hora, prova oral é totalmente viável
      Prefiro receber meus US$ 25 de volta a deixar um LLM fazer a prova
    • Na Charles University, em Praga, até turmas com mais de 200 alunos fizeram prova oral
    • Depende da profundidade e da frequência da prova oral
      Se apenas alguns alunos forem escolhidos por amostragem, isso pode gerar motivação ou frustração ao mesmo tempo
    • No fim, a ideia é economizar dinheiro substituindo a prova por um chatbot
      Mesmo que fosse só com os melhores alunos, fazer uma prova oral de 10 minutos com conversa é totalmente possível
  • Só de imaginar ser interrogado por um aplicativo de voz com AI já parece horrível
    Se esse modelo continuar, talvez seja melhor pensar em um modelo educacional sem avaliação

    • No fim, voltar para a prova manuscrita talvez seja a solução mais realista
    • Recentemente eu também fiz uma entrevista com AI, e não senti culpa nenhuma em mentir para ela
      Coisas que eu jamais diria a um ser humano saíam com facilidade
    • Se as provas desaparecerem por completo, a motivação para estudar não se sustenta
  • Eu sou justamente o autor do post do blog
    Foi só uma tentativa nova em nossa aula de AI
    Não estamos tentando abolir a prova escrita, mas adicionar a prova oral como mais uma ferramenta
    O objetivo era verificar, em projetos em grupo, se o aluno realmente entendeu o próprio trabalho
    Como esperado, os alunos que tiraram notas baixas na prova oral tinham pouca compreensão do projeto
    Com 36 alunos ainda dá para entrevistar pessoalmente, mas com mais de 100 fica difícil
    Acima de tudo, havia pesquisas indicando que a AI fornece avaliações consistentes por não se cansar. Por isso confiei nisso

    • Disseram que permitir o uso de LLM seria algo natural, mas eu discordo
      Não é muito diferente de usar uma empilhadeira na academia
      Talvez funcione em disciplinas simples de nível MBA, mas em matérias que exigem julgamento sutil, a AI não é justa
      Se a ideia é só fazer uma verificação simples, acho melhor aplicar múltipla escolha em um quiosque
  • Na nossa época, todas as provas eram orais
    As provas grandes levavam dois dias, mas professor e assistentes organizavam seis sessões por ano

    • Na minha graduação e no mestrado em física, prova oral era o padrão, mas no doutorado isso desapareceu
      Um dos motivos foi a diferença na interpretação cultural de justiça
      Em ambientes muito diversos, prova oral pode gerar discussões sobre viés
    • Professor também é humano
      Se puder corrigir com AI por US$ 5 e passar 20 horas rolando o celular, vai escolher isso