Estudo da Stanford Law mostra que IA teve desempenho melhor que professores de direito

(law.stanford.edu)

1 pontos por GN⁺ 2026-06-04 | 2 comentários | Compartilhar no WhatsApp

Em um estudo da Stanford Law School, professores de direito preferiram de forma esmagadora respostas geradas por IA às respostas de professores colegas para perguntas de alunos, indicando resultados que podem influenciar a forma como o ensino jurídico é oferecido
Em uma avaliação cega com 16 professores de direito de faculdades de direito dos EUA, foram realizadas cerca de 3.000 comparações anônimas, e a IA registrou 75% de vitórias em confrontos diretos com respostas de professores
Os participantes criaram 40 perguntas que um aluno provavelmente faria após a aula de direito contratual ou no horário de atendimento, responderam elas próprios e depois avaliaram respostas da IA e de colegas sem saber a origem
Os professores marcaram respostas da IA como pedagogicamente prejudiciais em 3,5% dos casos, enquanto respostas de colegas receberam 12%, e o sistema de IA apresentou desempenho semelhante ao melhor instrutor humano do estudo
Os resultados não sustentam a adoção total de tutores de IA, mas oferecem base para discutir formas responsáveis de implementação mesmo em áreas como o direito, nas quais o julgamento é crucial

Desenho do estudo e principais resultados

O estudo “Law Professors Prefer AI Over Peer Answers”, liderado pelo professor da Stanford Law School Julian Nyarko, investigou se grandes modelos de linguagem podem atuar como tutores eficazes em aulas de direito contratual
Participaram do estudo 16 professores de direito de faculdades de direito dos EUA, e os participantes criaram 40 perguntas representativas de direito contratual que um aluno poderia fazer após a aula ou no horário de atendimento, respondendo-as diretamente
Os professores avaliaram as respostas sem saber se vinham da IA ou de outro professor participante, e, em cerca de 3.000 comparações anônimas, as respostas da IA obtiveram taxa de vitória de 75% em comparações diretas
Os pesquisadores ajustaram o comprimento e a estrutura das respostas da IA para corresponder às respostas humanas, usaram vários métodos de avaliação e também pediram aos professores que avaliassem se as respostas poderiam induzir os alunos ao erro ou à confusão
O sistema de IA teve desempenho semelhante ao melhor instrutor humano do estudo, e a taxa de respostas marcadas pelos professores como pedagogicamente prejudiciais foi de 3,5% para a IA e 12% para respostas de colegas

Significado e limitações para o ensino jurídico

No direito, muitas vezes não há uma resposta claramente correta, e argumentos conflitantes podem ser ambos persuasivos, por isso julgamento, raciocínio sutil e capacidade de lidar com ambiguidades são importantes
Os pesquisadores também examinaram vários modelos de IA, incluindo sistemas comerciais de tutoria e o NotebookLM do Google, e houve diferenças de desempenho entre os modelos
Mesmo quando limitações de contexto afetaram as respostas da IA, os professores frequentemente preferiram essas respostas às alternativas escritas por humanos
As faculdades de direito precisam manter padrões acadêmicos rigorosos ao discutir a integração de ferramentas de IA ao ensino jurídico, além de considerar riscos como alucinações, dependência excessiva e enfraquecimento da capacidade de pensamento crítico
O estudo avaliou a qualidade das respostas produzidas pelas ferramentas de IA, mas a forma de implementação que melhora o aprendizado dos alunos com maior eficácia ainda é uma questão em aberto, e o debate deve mudar de se a IA pode fornecer respostas precisas e de alta qualidade para como implantá-la de maneira responsável para beneficiar os estudantes

2 comentários

adieuxmonth 2026-06-04

Caramba

GN⁺ 2026-06-04

Comentários do Hacker News

Este estudo parece bem suspeito. Precisa ser investigado mais a fundo, mas qualquer leitor deveria ouvir sinais de alerta bem altos
A Figura 2 (página 6) parece problemática. São só 16 professores, mas cada um com 3 mil comparações, e os resultados por professor também são bem irregulares. A variância é muito alta, o que parece sinal de que o estudo não tem poder estatístico significativo
Além disso, nos resultados principais aparecem apenas modelos do Google, o que também sugere um viés evidente. Outros modelos aparecem em outras partes, então fica a dúvida de por que foram excluídos dos resultados centrais
Não sou especialista em direito, mas entendo bastante de estatística, e posso dizer com segurança que este artigo cheira mal. Não dá para afirmar que é bobagem, mas há sinais de perigo por todos os lados
- É verdade, mas há 2 anos a conversa era “a IA é uma ferramenta impressionante, mas não vai substituir trabalhadores do conhecimento”, e agora virou “um estudo que diz que ela superou trabalhadores do conhecimento de elite pode ter falhas metodológicas”. Daqui a 2 anos talvez já era
- Mais do que isso, a estrutura inteira do estudo parece sem sentido. Eles montaram tudo em formato de pergunta/resposta e depois fizeram humanos avaliarem as respostas, mas isso é literalmente o trabalho para o qual LLMs são treinados. No fim, trata-se de convencer um humano a apertar o botão “esta resposta é melhor”
- Independentemente de o artigo inteiro poder ser meio ambíguo, é interessante notar que os índices de nocividade dos Instrutores 3 e 8 são consideravelmente mais baixos do que os dos LLMs, mas a preferência por eles não é a mais alta. A nocividade anda em direção oposta à preferência, mas não perfeitamente. Parece que até na escolha de especialistas existe certa influência de carisma
- Parece que o número de 3 mil vem daqui, e isso está explicado no artigo
  Os professores, como avaliadores, realizaram 2.918 comparações cegas de escolha forçada, com mediana de 200 por avaliador, e em cada caso escolhiam, entre uma resposta anonimizada do instrutor e uma resposta do LLM, qual gostariam de dar ao aluno
- Quando vejo artigos hoje em dia, está cada vez mais comum o estilo “entrevistamos 8 pessoas e tiramos conclusões com base na opinião de especialistas”. A área de IA e cibersegurança está especialmente cheia disso
  Já vi até artigo que chamava de “metodologia” o ato de jogar entrevistas e protocolos no ChatGPT e tirar um resultado. Passou por revisão por pares e foi publicado
Talvez isso possa ser explicado de forma parecida com filmes de Hollywood. Quando um filme é feito para satisfazer o maior número possível de pessoas, ele tende a ser escolhido com mais frequência do que outros filmes
Professores humanos de direito deixam transparecer sua personalidade, crenças e opiniões no texto, enquanto os LLMs são treinados para agradar o público mais amplo possível. Isso não significa que a resposta seja melhor. É como dizer que Captain America é necessariamente um filme melhor do que American Beauty
Como engenheiro de software, tenho certa intuição sobre que tipo de tarefa é arriscado delegar a um agente
Mas, quando peço à IA para redigir um rascunho de documento jurídico, não tenho a mesma intuição calibrada sobre o que pode dar errado. Algo como redigir um testamento parece inofensivo à primeira vista, mas na verdade não tenho tanta certeza. O sistema jurídico é notoriamente cheio de armadilhas
- Já usei bastante IAs LLM de uso geral, como o Claude ou o GPT comuns, para redigir rascunhos de documentos jurídicos. A maior armadilha são as citações de precedentes alucinadas
  Ela facilmente insere uma citação plausível de outro caso que parece provar perfeitamente o argumento desejado, e até inventa nomes de casos com cara de reais, como United States v. Shenzhou Electronics Inc. Aí você revisa algumas vezes, não encontra nenhuma citação falsa e relaxa, mas na petição seguinte ela de repente coloca três
  Ainda assim, o advogado que não usa LLM em pesquisa jurídica está ficando para trás. É incrivelmente boa em encontrar precedentes de nicho que eu jamais encontraria sozinho. Antes, havia muita dependência de correspondência exata de termos de busca, o que muitas vezes é essencialmente inútil em pesquisa jurídica. Você precisa de algo que permita buscar com critérios mais vagos, e a IA faz isso muito bem. Mas os resultados precisam ser verificados sem falta. Os LLMs da Lexis Nexis ou da Westlaw provavelmente são melhores do que modelos de uso geral
  LLM é um excelente assistente jurídico. Se você trabalha com direito, deveria usá-la nem que seja só para jogar ideias. Também é útil pedir que faça o papel de advogado do diabo do lado oposto. Um amigo meu sempre manda a IA atuar como advogada da parte contrária para conferir todas as objeções que podem surgir
  É igual ao desenvolvimento de software. Se o resultado produzido importa, você precisa verificar a saída
- Acho que isso vale para a maioria das profissões especializadas. A IA é mais bem aproveitada por quem já conhece bem aquela habilidade ou profissão
  É como comparar o que eu pesquiso como administrador de sistemas com o que a Jane do financeiro pesquisaria. Um usuário final não técnico tem muito mais chance de piorar o problema ou instalar algo suspeito a partir de um resultado de busca cheio de anúncios. Eu ou alguém do help desk temos bem menos chance de fazer isso
  Eu não confiaria em redigir um documento jurídico importante com IA sem orientação de um advogado. Do mesmo modo, eu também não gostaria de depender do meu advogado para escrever meu código com IA
- Como advogado e engenheiro de software, minha impressão até agora é que a taxa de erro dos LLMs em código e em rascunhos de documentos jurídicos é bastante parecida. Só que, no contexto jurídico, isso é mais problemático. Documentos jurídicos não têm vários dos mecanismos estruturais de segurança que existem no código
  Documentos jurídicos não têm testes automatizados, tipagem estática, ambiente de testes, instrumentação de logging/observabilidade nem sandboxing
  O intervalo entre a redação e o “deploy” também torna o ciclo de depuração muito menos eficaz e mais caro. Código pode ser colocado em produção em segundos, você vê o erro nos logs e depura na hora. Mas erros em contratos ou peças protocoladas em juízo costumam ser descobertos só dias depois, e muitas vezes anos depois; quando isso acontece, frequentemente já não dá mais para corrigir. Por isso, os erros são mais difíceis tanto de detectar quanto de resolver
  As consequências dos erros também tendem a ser muito maiores. Muitas vezes são impossíveis de corrigir, e um erro jurídico pode colocar em risco a vida, a liberdade ou um patrimônio substancial de alguém. Claro, bugs em sistemas críticos de segurança podem ser tão ruins quanto, ou piores, que erros jurídicos, então não é uma divisão absoluta. Ainda assim, em geral, a maioria dos softwares envolve menos risco do que a maioria dos documentos jurídicos
  Por outro lado, os LLMs parecem se sair melhor com o estilo e a estrutura básicos de documentos jurídicos do que com código. Coisas como seguir o formato IRAC, anexar citações a proposições jurídicas e escrever frases compreensíveis. Claro, alucinações continuam sendo um problema. No código, isso seria equivalente a boas práticas como bons comentários, coesão, uso consistente de padrões de projeto, cobertura de testes, nomes de variáveis claros e DRY
  Esse melhor desempenho nesses indicadores qualitativos pode ser porque mesmo os documentos jurídicos mais longos geralmente têm estrutura mais simples e menos linhas de texto do que uma codebase grande e complexa. Ou pode ser porque os LLMs foram treinados mais em texto de linguagem natural do que em código, ou porque linguagem natural tolera mais variações do que código. Pequenas diferenças de formulação ou gramática provavelmente não mudam muito a interpretação de um documento, mas um erro de um único caractere no código pode ter um impacto enorme
- Dizer que redigir um testamento é inofensivo está longe da verdade. Para o inventariante que tiver de lidar com um testamento de IA quebrado, certamente não é. Neste outono cuidei do espólio do meu pai, e até mesmo o inventário mais simples foi um processo frustrante e confuso
- Não considero redigir testamento algo inofensivo. Se ele for mal feito, parentes próximos podem acabar herdando um enorme problema e passando por um processo de inventário que pode durar meses ou anos
Mesmo que este estudo específico seja ruim, isso não é surpreendente no panorama geral
Há áreas do trabalho jurídico que envolvem analisar grandes volumes de texto, chegar a conclusões e depois escrever outros textos com base nisso. Isso é literalmente o ponto forte dos LLMs
Esse tipo de advogado deveria estar na linha de frente da fila do desemprego. Não os programadores, nem tem comparação
- Em teoria, ser o ponto forte dos LLMs não significa que eles consigam fazer esse trabalho. Deixando de lado crenças prévias, isso ainda precisa ser demonstrado. O direito é um sistema diretamente ligado à vida das pessoas e deve passar pelo mais alto nível de validação
- Dizer que é o ponto forte dos LLMs está certo. Mas, em termos de uso de LLM, programação tem mais vantagens do que o direito
  Dá para executar lógica e montar loops com a saída. É mais fácil configurar aprendizado por reforço mais útil e também criar dados sintéticos de treinamento. O uso de ferramentas e a paralelização de agentes também são naturalmente suportados. Integrar APIs também é mais fácil, em comparação com as poucas APIs que o sistema judicial oferece
  Como a programação codifica explicitamente abstrações no nível de funções e módulos, é mais fácil transformá-la em grafo de conhecimento, raciocinar sobre ela e construir em cima disso do que com pedaços de texto
- O mesmo problema da IA aparece tanto em programação quanto em direito
  A IA é como uma casquinha sobre uma ferida. Ela tapa lacunas temporariamente e corre para preencher vazios, mas provavelmente não será a solução final
  Os modelos mostraram que havia uma enorme demanda reprimida por letramento, tanto em software quanto em direito. Agora a escolha é resolver as causas estruturais dessa demanda reprimida ou encobri-la com camadas e mais camadas de casquinhas de IA
- O objeto deste estudo são pessoas da academia. Não estou tentando diminuir elas nem o trabalho delas, mas isso é muito diferente do trabalho transacional ou contencioso feito em BigLaw
  É muito mais focado em analisar e resumir textos existentes, e esses próprios textos também podem ser usados com mais facilidade no treinamento de LLMs. Coisas como leis, precedentes, periódicos jurídicos e livros didáticos
  Então provavelmente é o tipo de trabalho jurídico mais fácil de transformar em LLM, mas ao mesmo tempo também pode ser o de menor valor. Professores de direito não recebem o mesmo que advogados de BigLaw. Essa abordagem não vai escalar diretamente. Isso não quer dizer que a IA não consiga entrar em BigLaw, mas esse seria outro desafio
Entendo por que a discussão deste post está indo nessa direção, mas o estudo em si se concentra na possibilidade de LLMs funcionarem como tutores de direito. Expandir isso para se vão substituir advogados é interessante, mas não era o que o estudo tratava
Se o enquadramento for usar LLMs como tutores jurídicos e reduzir o custo da educação em direito, isso parece um resultado socialmente positivo. Indo além, se sistemas LLM modernos puderem acessar materiais de referência jurídicos, então parece intuitivamente plausível que consigam responder de forma abrangente a perguntas feitas por estudantes e fornecer pistas ou referências diretas para materiais didáticos ou fontes primárias. Os resultados do estudo parecem apontar nessa direção
Os autores enfatizam de forma explícita e intencional que muitas perguntas jurídicas não exigem uma resposta calculada isolada, mas sim contextualização. Os resultados sugerem que sistemas baseados em LLM podem, por meio da “geração algorítmica de melhor ajuste probabilístico” dos modelos de linguagem modernos, contextualizar adequadamente a pergunta de um estudante, explicar os trade-offs ou complexidades inerentes à pergunta e, de forma crucial, explicar essa complexidade ao estudante de um modo que atenda ao padrão profissional de educadores jurídicos
Na prática, espero que esses resultados deem aos leitores do HN um pouco mais de confiança de que, ao fazer perguntas jurídicas a um LLM, podem esperar respostas que expliquem as complexidades do direito relacionadas à questão. É uma boa notícia e, se o tempo permitir, provavelmente representa o mínimo de trabalho prévio que deveríamos fazer antes de consultar um advogado de verdade
Por outro lado, não acho que este estudo sinalize que os LLMs já estejam prontos para oferecer aconselhamento jurídico direto. É parecido com o fato de um livro didático de direito não substituir orientação jurídica ou, mais precisamente, com o fato de encontrar por acaso um caso jurídico mais ou menos semelhante à sua situação não garantir o mesmo resultado
- Parece mostrar que os LLMs são inteligentes o bastante para serem úteis no contexto da educação jurídica
A Figure I.1 diz muita coisa. O tamanho da resposta aparece como o preditor mais forte da taxa de vitória. Isso pode ser por causa de uma falha metodológica do estudo
Os professores foram instruídos a responder de forma concisa. Algo como “escreva de forma concisa. Espera-se que cada resposta não leve mais de 3 minutos para ser redigida”, então provavelmente houve um viés em favor de textos curtos. Já que estavam tentando ser concisos, pode ser que os professores também não tenham colocado muito esforço nas respostas escritas. Esse não é o tipo de manchete que os autores imaginam
Surpreende que Stanford Law tenha concordado com um título de press release tão exagerado. Algo como “Para perguntas gerais de contratos do 1º ano, professores de direito preferiram respostas geradas por IA a respostas geradas por professores” não seria mais correto?
- O título revisado está correto. É estranho ver acadêmicos soando como CEOs de grandes institutos de pesquisa tentando inflar a avaliação com alegações exageradas
Meu melhor palpite é que o Gemini foi treinado com o livro didático que as perguntas queriam testar e, por isso, talvez tivesse mais força em recordação explícita dessas perguntas ou de perguntas relacionadas
Pelo que está na metodologia do artigo, parece ser um curso introdutório bem limitado
- Além disso, este estudo foi realizado no instituto HAI de Stanford e parece ter um viés claro, e estranhamente o artigo não traz uma declaração de conflito de interesses
  Correção: acabei de descobrir que o Google é um dos principais doadores do HAI. Então este estudo foi, pelo menos em parte, financiado pelo Google. Esse provavelmente também é o motivo pelo qual os autores não puderam declarar ausência de conflito de interesses
A área jurídica, por natureza, combina idealmente com modelos de linguagem de IA. No fundo, tudo se baseia em texto interconectado
Acho que pode haver uma onda de demissões ainda maior aqui do que em TI. Só que provavelmente haverá um lobby mais forte em ação, tentando inflar muito o valor do próprio trabalho e barrar a entrada de agentes externos
- Como advogado, acho que essa intuição sobre LLMs está correta. O direito é um jogo de linguagem em que os LLMs se dão bem
  Mas essa onda já começou e vai ser enorme. Clientes corporativos estão exigindo uso de IA. Eles não querem pagar para um associado gastar horas escrevendo um rascunho e um sócio revisar. Querem que o sócio principal use IA e faça só a revisão final
O que os LLMs não conseguem fazer é explicar por que disseram aquilo quando são submetidos a contraditório. Eles apenas alucinam a melhor explicação possível para por que alguém teria dito o que disse, e também conseguem apresentar de forma plausível por que outra pessoa teria dito algo diferente
A pergunta “por que disse isto e não aquilo?” não faz com que os fundamentos da fala sejam explicitados; ela apenas leva à criação de uma nova afirmação mais complexa
- Em casos simples, isso é verdade
  Mas existem técnicas de construção de contexto para LLMs que fixam o resultado final em uma estrutura de dados. Essa estrutura mantém a organização das afirmações que sustentam a conclusão contida no texto final. Organizar a lógica dentro da linguagem é uma área rica, com vários padrões, e o meu favorito era algo chamado Claim Dependency Graph, que modela como arestas de um grafo as relações entre afirmações atômicas
  Há muitas operações que podem ser executadas sobre essa estrutura, e “reconstruir como se chegou a essa conclusão” claramente é uma delas
- Os humanos têm uma motivação real que molda a estrutura do pensamento expresso. Já os LLMs acabam criando pensamentos gerados de novo em resposta ao fluxo de perguntas
- Provavelmente o mesmo também vale para humanos. Em conversas, muitas vezes respondemos por instinto e só construímos uma racionalização retroativa quando isso é solicitado
  Mesmo no caso de pensamentos mais refletidos, com sorte conseguimos lembrar o “rastro de raciocínio”, mas nossa autoinspeção vai só até aí. A menos que você seja neurocientista, provavelmente nem sabe quantos neurônios temos, muito menos como eles produzem pensamentos
  O raciocínio motivado atrapalha ainda mais a autoinspeção e, somado à desonestidade e a falhas de comunicação, faz com que nem mesmo a informação limitada que resta seja transmitida adequadamente entre as pessoas
  A pesquisa em interpretabilidade de modelos avançou bastante. De forma controversa, já dá até para argumentar que conseguimos explicar melhor a tomada de decisão da IA do que a do cérebro humano
- LLMs alucinam porque humanos alucinam
  Pedir que um LLM anote as fontes, como se faz com humanos, pode aumentar bastante a correspondência de padrões que imita de perto a lógica
  Entendo o que significa a pergunta “por que disse isto e não aquilo?”. Só que também já vi outras formas de perguntar isso sem fazer o LLM reagir de forma excessiva na direção oposta

Estudo da Stanford Law mostra que IA teve desempenho melhor que professores de direito

Desenho do estudo e principais resultados

Significado e limitações para o ensino jurídico

Leituras relacionadas

2 comentários

Comentários do Hacker News