- Com a disseminação dos grandes modelos de linguagem (LLMs), tarefas e provas tradicionais deixaram de medir adequadamente a compreensão do aprendizado, então docentes experimentaram introduzir exames orais em tempo real usando a IA de voz da ElevenLabs
- A prova foi composta por duas partes, explicação do projeto e perguntas sobre casos, exigindo que o aluno explicasse diretamente à IA os fundamentos de suas decisões e seu processo de raciocínio
- Os três modelos Claude, Gemini e ChatGPT atribuíram notas em formato de deliberação conjunta para aumentar a consistência e a qualidade do feedback, e também revelaram um tópico fraco da disciplina no mundo real (desenho experimental)
- 36 alunos ao longo de 9 dias foram avaliados, em média por 25 minutos cada, e o custo por aluno foi de US$ 0,42, extremamente baixo
- O exame oral com IA pode se tornar um novo modelo de prova que torna escalável a avaliação centrada na compreensão
Reconhecimento do problema e contexto para adoção do exame oral
- A qualidade das tarefas dos alunos estava anormalmente alta, levantando suspeitas de textos produzidos por IA, e em muitas verificações aleatórias foi confirmado que os próprios alunos não conseguiam explicar o que haviam entregue
- Com a acessibilidade dos LLMs, a confiabilidade de tarefas e provas tradicionais entrou em colapso, e o exame oral, capaz de avaliar raciocínio em tempo real, surgiu como alternativa
- Porém, exames orais têm a limitação de serem inviáveis em larga escala, então foram usados agentes de voz com IA para resolver esse problema
Configuração do agente de voz baseado em ElevenLabs
- Foi usado o ElevenLabs Conversational AI para integrar elementos complexos como reconhecimento e síntese de voz, além do gerenciamento de turnos
- Com variáveis dinâmicas, foram enviados o nome do aluno e informações do projeto, e uma estrutura de workflow separou os agentes de autenticação, projeto e perguntas de caso
- Agente de autenticação: verificação do ID do aluno
- Agente de projeto: perguntas com base no material enviado
- Agente de casos: seleção aleatória de um caso e formulação de perguntas
- A separação em vários agentes menores garantiu prevenção de desvios na conversa e facilidade de depuração
Operação da prova e resultados numéricos
- No total, 36 alunos, durante 9 dias, com média de 25 minutos (mínimo de 9 e máximo de 64)
- Média de 65 trocas de mensagens, com custo total de US$ 15 (US$ 0,42 por aluno)
- 89% dos resultados de correção por LLM ficaram dentro de 1 ponto de diferença, e o exame mais curto (9 minutos) registrou a maior nota (19/20)
- Em comparação com correção humana, houve redução de custo superior a 50 vezes, além de automação da avaliação, registro e feedback em tempo real
Tentativas, erros e medidas de melhoria
- Feedback dos alunos de que o tom de voz era intimidador → testes A/B com diferentes vozes estão planejados
- Problema de acúmulo de perguntas (stacking) → adicionada a regra de “uma pergunta por vez”
- Alteração de sentido ao repetir perguntas → especificado que a repetição deve ser “com a frase exatamente igual”
- Falta de tempo para pensar → tempo de espera ampliado para 10 segundos
- Falha na seleção aleatória de casos → resolvida no nível do código com mapeamento aleatório
Correção por deliberação entre LLMs (council grading)
- Claude, Gemini e ChatGPT fizeram correção independente e depois revisaram e ajustaram mutuamente
- A taxa de divergência na primeira correção era alta, mas após a segunda deliberação a taxa de concordância dentro de 1 ponto subiu de 62% para 85%
- O Gemini foi ajustado para baixo em média em 2 pontos, e houve alta consistência entre Claude e OpenAI
- No item de desenho experimental, a divergência de notas foi a maior, o que foi analisado como resultado da ambiguidade das respostas dos alunos
- A correção por IA é mais rigorosa, mas justa, do que a humana, e o feedback se destacou por ser específico e orientado à ação
Insights pedagógicos e diagnóstico
- Na análise de desempenho por tema, desenho experimental teve a menor média, 1,94/4
- Nota 0: 8%, nota 1: 19%, nota 2: 42%, nota 4: 0%
- Ficou claro que a causa foi a explicação insuficiente de testes A/B dentro da disciplina, confirmando a necessidade de melhoria pedagógica por parte dos docentes
- Não houve correlação entre tempo de prova e nota (r=-0,03), e respostas curtas e claras estiveram associadas a notas mais altas
Prevenção de cola e transparência
- Foi obrigatório que os alunos usassem webcam e gravação de áudio, bloqueando ajuda externa
- A estrutura da prova e os tipos de perguntas foram operados com diretrizes públicas, eliminando o risco de vazamento das questões
- Os alunos podem praticar repetidamente com a mesma estrutura, fortalecendo o aprendizado real
Reação dos alunos
- Apenas 13% preferiram o exame oral com IA, 57% preferiram a prova escrita tradicional, e 83% responderam que se sentiram mais estressados
- Ainda assim, 70% reconheceram que ele avaliou bem a compreensão real, indicando alta confiança no método de avaliação
- A flexibilidade de fazer a prova em horário e local escolhidos pelo próprio aluno foi bem avaliada
- Demandas de melhoria: ritmo mais lento, voz mais calma e formato de pergunta única
Planos de melhoria futuros
- Controle de velocidade e maior variedade de vozes, perguntas com RAG baseadas no material entregue pelo aluno e distribuição de casos com seed aleatória explícita
- Introdução de um gatilho para revisão humana quando houver divergência entre LLMs na correção
- Maior acessibilidade: modo de prática, tempo extra e oferta de meios alternativos
Conclusão: avaliação centrada na compreensão, escalável com IA
- Tarefas e provas escritas perderam eficácia na era dos LLMs, tornando necessária a transição para avaliação de raciocínio em tempo real
- O exame oral com IA mede compreensão, julgamento e pensamento improvisado, sendo um novo método de avaliação viável em larga escala
- Sem risco de vazamento das questões, é possível reforçar o aprendizado por meio de prática repetida
- “Fight fire with fire” — uma inovação avaliativa que resolve com IA os problemas criados pela própria IA
1 comentários
Opiniões do Hacker News
Acho que os dados e as conclusões apresentados no artigo não batem
Mesmo depois de conversar com a AI, os estudantes ainda preferiram provas escritas
As universidades vêm aplicando provas escritas há séculos enquanto evitam cola, e depois da pandemia introduziram a "roda quadrada" das avaliações online, mas dá vontade de dizer que seria melhor voltar para a roda redonda
Nem sequer validaram a precisão da avaliação por LLM. No fim, parece que definiram a conclusão antes e encaixaram os dados nela
Dizer que a prova para fazer em casa acabou é algo óbvio, não um resultado do experimento
Hoje em dia ficou fácil demais colar até sozinho
Além disso, cada área acadêmica deveria ter formas de avaliação diferentes, e campos novos como ciência da computação ainda carecem de maturidade na avaliação
Por fim, a preferência dos alunos não é critério para julgar a qualidade de uma prova
Na prática, há muitas situações em que a pessoa precisa explicar o raciocínio por trás de uma decisão diante de outras pessoas
Dá para entender que uma geração que teve menos experiências presenciais na pandemia tenha medo de falar, mas esse tipo de treinamento para superar a ansiedade pode justamente ajudar
Como a possibilidade de cola em provas para fazer em casa aumentou, uma prova oral, embora não seja perfeita, pode ser uma alternativa melhor
Antigamente, todas as provas eram de um tipo em que a AI não tinha absolutamente nenhum espaço para interferir
Eram feitas à mão, com caneta, em um ginásio com fiscais observando
Colar significava expulsão, e só 1% entre milhares se formava
Quando ouço falarem em mudar as provas por causa da AI, parece loucura. A solução já existia
No fim, é uma estrutura que joga toda a responsabilidade no estudante, e o problema era a preguiça do professor e o reaproveitamento de questões de prova
A solução de verdade é criar questões novas toda vez e variar a forma de cobrança
Acho melhor fazer a prova em computadores fornecidos pela escola com ambiente de desenvolvimento
Se isso for verdade, faz sentido buscar um modelo escalável de prova oral
Não precisa ficar obcecado com escalabilidade
Universidades têm dinheiro, então o professor pode simplesmente aplicar a prova oral pessoalmente
Em programas de pós-graduação na Alemanha, havia muitas provas orais, e funcionava bem
Depender de AI parece um símbolo de preguiça
AI é boa para trabalho repetitivo, mas em situações adversariais é difícil confiar
Eu também fiz prova oral na graduação, e a mudança de atitude do professor era tão grande que a tensão era extrema
Fico em dúvida se a AI conseguiria gerar esse tipo de pressão emocional
No meu caso, eu me irrito mais com pequenos erros da AI
Mas eu travo completamente nessas situações e não consigo dizer nada. É realmente sofrido
No passado, eu passava tarefas para fazer em casa em processos seletivos, mas alguns candidatos não conseguiam explicar o próprio código que haviam enviado
Agora, com a chegada dos LLMs, a tentação de deixar a AI escrever no lugar da pessoa ficou muito maior
Mas precisamos avaliar a capacidade de resolver problemas e de se comunicar do candidato
Entrevistas que permitem LLM acabam virando um “teste de habilidade no uso de AI”
Não concordo com o método do artigo, mas a preocupação em si é realista
O próximo passo talvez seja usar uma AI que responde por voz no lugar da outra AI
No fim, o ser humano vai precisar voltar ao centro
No futuro, com óculos inteligentes, microfones de condução óssea e afins, isso vai ficar ainda mais sofisticado
No fim, quem vai sair prejudicado são apenas os alunos honestos, mas socialmente ansiosos
Parece uma boa ideia oferecer simulados orais voluntários durante o semestre
Assim, o estudante se acostuma com o formato e até com o tom de voz
É surpreendente dizer que, com umas 36 pessoas, prova oral seria inviável
Esse tipo de aprendizado repetido é justamente a forma real de aprender
Prefiro receber meus US$ 25 de volta a deixar um LLM fazer a prova
Se apenas alguns alunos forem escolhidos por amostragem, isso pode gerar motivação ou frustração ao mesmo tempo
Mesmo que fosse só com os melhores alunos, fazer uma prova oral de 10 minutos com conversa é totalmente possível
Só de imaginar ser interrogado por um aplicativo de voz com AI já parece horrível
Se esse modelo continuar, talvez seja melhor pensar em um modelo educacional sem avaliação
Coisas que eu jamais diria a um ser humano saíam com facilidade
Eu sou justamente o autor do post do blog
Foi só uma tentativa nova em nossa aula de AI
Não estamos tentando abolir a prova escrita, mas adicionar a prova oral como mais uma ferramenta
O objetivo era verificar, em projetos em grupo, se o aluno realmente entendeu o próprio trabalho
Como esperado, os alunos que tiraram notas baixas na prova oral tinham pouca compreensão do projeto
Com 36 alunos ainda dá para entrevistar pessoalmente, mas com mais de 100 fica difícil
Acima de tudo, havia pesquisas indicando que a AI fornece avaliações consistentes por não se cansar. Por isso confiei nisso
Não é muito diferente de usar uma empilhadeira na academia
Talvez funcione em disciplinas simples de nível MBA, mas em matérias que exigem julgamento sutil, a AI não é justa
Se a ideia é só fazer uma verificação simples, acho melhor aplicar múltipla escolha em um quiosque
Na nossa época, todas as provas eram orais
As provas grandes levavam dois dias, mas professor e assistentes organizavam seis sessões por ano
Um dos motivos foi a diferença na interpretação cultural de justiça
Em ambientes muito diversos, prova oral pode gerar discussões sobre viés
Se puder corrigir com AI por US$ 5 e passar 20 horas rolando o celular, vai escolher isso