- A Deloitte fez um reembolso parcial ao governo australiano depois de entregar um relatório de US$ 440 mil com erros produzido com inteligência artificial generativa
- O relatório tinha como objetivo revisar a estrutura de conformidade e os sistemas de TI do sistema de bem-estar social, e foram encontrados vários erros, além de citações falsas e referências a materiais inexistentes
- A Deloitte informou no apêndice do relatório que usou modelos de linguagem de grande porte como o Azure OpenAI GPT–4o, mas não reconheceu que a IA foi a causa direta dos erros
- Uma senadora trabalhista criticou o papel da IA e afirmou que houve falta de especialização da consultoria
- Mesmo após a revisão final do relatório, o conteúdo central e as conclusões não mudaram, e as recomendações foram mantidas
Deloitte reembolsa governo australiano por uso de IA
Visão geral do caso
- A Deloitte decidiu reembolsar parte do valor do contrato depois de admitir que usou inteligência artificial generativa na elaboração de um relatório governamental de US$ 440 mil no qual foram encontrados erros
- O relatório foi produzido a pedido do Departamento de Emprego e Relações de Trabalho da Austrália (DEWR) para revisar o sistema automatizado de conformidade de beneficiários de assistência social
- O documento apontava vários problemas, como a falta de conexão entre as regras da estrutura e a legislação real, além de falhas fundamentais no sistema de TI
Uso de IA e problemas encontrados
- Após a publicação inicial em 4 de julho, a imprensa apontou vários erros e citações inexistentes no relatório
- Segundo o Dr. Christopher Rudge, da University of Sydney, o relatório apresentava em vários trechos o fenômeno de "hallucination" (alucinação) comum em IA, isto é, a geração de materiais que não existem
- Por exemplo, mesmo na nova versão do relatório, as citações falsas chegaram a aumentar, sugerindo que algumas conclusões foram geradas por IA mais do que por material de referência real
- A Deloitte adicionou ao apêndice da versão atualizada do relatório a informação de que utilizou modelos de linguagem de grande porte como o Azure OpenAI GPT–4o
- A empresa afirmou que usou uma cadeia de ferramentas baseada em licenciamento executada no ambiente Azure do DEWR
- No entanto, não reconheceu que a causa dos problemas do relatório original tenha sido diretamente a IA
Reações e medidas posteriores
- A senadora trabalhista Deborah O’Neill criticou o caso, afirmando que "a Deloitte pode ser vista como sofrendo de falta de especialização humana, e o reembolso parcial é um pedido de desculpas insuficiente por um trabalho ruim"
- Ela defendeu que o governo e o órgão contratante precisam de especialistas reais e comprovação de ausência de dependência da IA
- Também expressou a crítica de que "seria melhor assinar o ChatGPT do que contratar uma consultoria"
- Segundo a apuração da imprensa, o relatório incluía conteúdos falsos específicos, como citação de estudos universitários inexistentes e resumos incorretos de decisões judiciais reais
- Exemplos: resumos falsos relacionados à University of Sydney, a artigos de professores da Lund University e à decisão do caso Robodebt (Deanna Amato v Commonwealth)
Posição oficial e impacto
- A Deloitte afirmou que tratou diretamente da questão com o DEWR e enfatizou que não houve mudanças nas conclusões nem nas recomendações do relatório atualizado
- O DEWR também declarou que apenas corrigiu algumas notas de rodapé e citações incompletas, mantendo as recomendações gerais e o conteúdo central
- Alguns especialistas observam que, embora as conclusões gerais do relatório estejam alinhadas com as evidências existentes, sua credibilidade passou a ser questionada
Implicações
- O caso destaca socialmente a necessidade de transparência e de garantia de especialização no uso de IA generativa no setor de consultoria
- Para quem contrata esse tipo de serviço, cresce a percepção da necessidade de reforçar os processos de verificação do uso de IA e de validação nominal da especialização
1 comentários
Comentários no Hacker News
Para acrescentar mais contexto, este relatório trata de um sistema de TI problemático que aplicou multas erradas, arruinando a vida de pessoas sob a alegação de que elas não cumpriram os requisitos de busca de emprego para receber benefícios do governo. As multas eram emitidas diretamente como decisões de dívida, e cobradores chegaram a ir às casas das pessoas para levar seus bens. Pior ainda, por causa de falhas graves no sistema, multas foram aplicadas por engano até a pessoas que nunca receberam qualquer benefício do governo. Nesse contexto, pagaram US$ 440 mil a uma consultoria como a Deloitte para encomendar um relatório, eles usaram IA para produzi-lo e ainda introduziram mais erros. Há preocupação de que, se a Deloitte também tivesse ficado responsável por construir o sistema, o caso Royal Mail e Fujitsu poderia se repetir
Há preocupação de que esse tipo de abuso de IA se torne uma verdadeira questão de vida ou morte. Não é que as pessoas da Deloitte sejam ignorantes ou sem motivação, mas sim que agem como um grupo focado apenas em dinheiro, usando IA para cumprir os requisitos de qualquer jeito e passar logo para o próximo contrato. Como resultado, a vida de muitas pessoas pode ser destruída ou até levá-las a escolhas extremas. Não se trata apenas de manipular documentos, mas de fazer com que pessoas armadas apareçam na sua casa de fato
Nem é preciso imaginar, isso já aconteceu. Veja o caso do vazamento de dados da Deloitte em Rhode Island
Se até passar pela Deloitte já for incômodo demais, então seria melhor contratar a OpenAI diretamente
O problema desde o início pode ser justamente que provavelmente já usaram a Deloitte na construção do sistema original
Já que estamos falando dos problemas de consultoria/terceirização, também quero mencionar o problema da troca entre time A/time B. No começo, alguém que parece muito competente aparece nas reuniões para fechar o contrato, mas, assim que ele é assinado, essa pessoa vai embora para outra frente comercial, e então surgem membros do time B ou até do time C
Pela minha experiência, em grandes contratos de serviço, o time A seduz a gente no começo para fechar o contrato, mas quem realmente trabalha é o time B. Quando nossa atenção diminui, trocam de novo, desta vez pelo time Z. Mesmo quando dissemos que pagaríamos para sempre sem economizar em qualidade, ainda assim acabaram sendo gananciosos e perdendo o contrato inteiro
Quanto maior a escala dos times, mais acontece de um profissional de nível A ficar circulando por 100 equipes, aparecendo por um momento para acalmar o cliente quando ele fica bravo e depois sumindo de novo. O resto é tudo gente júnior ou quase isso (e agora, com IA, há ainda menos especialistas). Meu cliente gastou US$ 500 mil num projeto e achava que tinha pago 15 pessoas durante meses, mas, depois de entrevistá-las em reuniões no Zoom, descobrimos que só 1 das 15 sabia algo sobre o projeto. Essa única pessoa era o tech lead contratado no começo e estava participando mal e mal em meio período. Pela qualidade do código, parecia que umas outras 5 pessoas só copiavam e colavam código do Codex ou Claude, passavam por uma "QA falsa" e já colocavam em produção. Esse tipo de coisa já existia antes da IA, a diferença é que antes eram de fato 15 juniores codando aleatoriamente
Essa história é uma piada que retrata muito bem a época em que vivemos, veja a tirinha do Dilbert
Esse é o jogo inteiro. Você conhece os sócios, e no fim trazem os juniores, cobrando tarifa de sócio. Se der azar, ainda acaba treinando os juniores você mesmo
Para colocar de forma positiva, uma das razões para usar consultoria/terceirização é lidar com projetos grandes e pontuais que o time interno não consegue absorver sozinho. Em vez de contratar vários freelancers separadamente e montar uma equipe, pode ser mais eficiente usar por pouco tempo um time externo que já está estruturado. Na prática, porém, as consultorias também costumam reunir gente de fora na hora e apresentar isso como se fosse um time estabelecido
Gostaria de ouvir alguém explicar como e por que consultoria funciona. Se fosse só um indivíduo dando "conselhos", ele seria visto como alguém que fracassou, mas quando isso vira empresa, corporações e governos fazem fila para pedir conselho. Os funcionários internos conhecem a empresa melhor do que consultores externos, então não entendo por que alguém de fora, que só faz apresentação e pesquisa no Google, recebe mais confiança e dinheiro
Na prática, quando querem empurrar uma má ideia sem assumir responsabilidade, contratam consultoria e repetem o processo até ouvir o que querem. A qualidade da consultoria não importa, e até estagiário ou IA dá conta. Se der tudo errado, dá para culpar a consultoria. Funcionários internos aconselham pensando no interesse da empresa, então suas vozes são abafadas ou ignoradas quando isso conflita com interesses pessoais. Quando o problema aparece, a pessoa já trocou de emprego e ficou só com mais uma linha no currículo
Na realidade, há muitas grandes empresas sem nenhuma especialização interna de verdade. Além disso, é comum uma pessoa fingir que é especialista e impedir a contratação de alguém melhor. Um bom consultor aconselha com evidências sobre o que deve ser feito e, se necessário, executa o projeto. Consultores de TI realmente bons têm conjuntos de habilidades raros no país, então pode ser caro demais contratá-los em tempo integral, mas vale muito a pena tê-los por algumas horas por mês como terceirizados. Já as grandes consultorias vivem de vendas e tratam os decisores como VIPs. Viagem, bebida, entretenimento e outros bastidores também contam. Eu mesmo já participei como consultor de um projeto e rebati publicamente, na frente do cliente, o discurso de venda absurdo de um consultor sobre Dynamics CRM e Sharepoint
Consultoria não é só "conselho". Muitas vezes envolve trabalho prático, como implementação de software. Quanto maior a empresa, mais ela quer uma "garantia legal". Se o projeto der errado, precisa haver um alvo claro para processar. A "qualidade" do resultado é secundária perto dessa garantia jurídica. A consultoria assume esse papel. Elas têm muita gente, inclusive muitos recém-formados. Quando falta qualidade, a resposta é colocar mais pessoas ou impor horas extras. Por causa dessa estrutura, também são chamadas de "meatfarm". E não quebram facilmente. Desenvolvimento de software também é frequentemente feito em camadas de subcontratação ou outsourcing internacional, com várias comissões sendo tiradas no caminho. O trabalho em si é difícil, chato e cheio de tarefas ingratas. Os contratos são detalhados a ponto de parecerem um romance inteiro. Quando eu era júnior na Accenture, vi um orçamento de 3 mil euros para mudar a cor da barra de rolagem de um site, mesmo que um funcionário na Índia resolvesse isso com 10 linhas de código. Depois disso, mudei de emprego
Em teoria, também existem pessoas com capacidade única de resolver problemas ou experiência muito específica em certos domínios. Dá para reunir esse tipo de talento numa empresa e vender isso com prêmio. É um erro presumir que toda consultoria carece de competência real. Não existe só "consultoria de gestão"; há também consultoria técnica, segurança e outras áreas com expertise concreta. Muitas vezes vi casos em que a equipe interna não conseguia resolver ou já tinha causado problemas antes. Bons consultores tentam extrair ao máximo os insights ocultos dos funcionários internos e usá-los para resolver o problema. Isso inclui habilidades que se sobrepõem às de engenheiros de software, como levantamento de requisitos e comunicação com gestores
Exemplos de uso de consultoria que vi na prática:
Organizações como governos em geral ignoram a opinião dos engenheiros internos e preferem gastar uma fortuna contratando consultorias externas para ouvir exatamente a mesma conclusão, ou apenas para mostrar que "estão fazendo alguma coisa" em busca de solução. Às vezes isso acontece porque a liderança desconfia da equipe interna ou quer resultados rápidos sem desviar o time de suas funções principais. Em alguns casos, a motivação é só gerar métricas inúteis ou até comissões de indicação e acordos por baixo dos panos
Como quem está dentro da empresa pode ao mesmo tempo ser parte do problema e juiz da situação, às vezes usar consultoria externa não é necessariamente uma má escolha. Um olhar independente, ainda que imperfeito, pode ajudar justamente por não estar envolvido diretamente
Estão deixando passar o papel importante da consultoria como instrumento de dispersão de responsabilidade legal e por resultados
Isso é uma espécie de "teatro de due diligence". Especialmente executivos querem saber o que engenheiros da concorrência recomendariam, e os consultores tentam ocupar esse papel de representante desse melhor conselho possível
Um jeito simples de dizer isso é "lavagem de decisão". Quando se quer dar credibilidade a uma direção que já foi definida internamente, contrata-se consultoria externa. Até CEOs admitem isso em conversas privadas
Se tudo der errado, o diretor pode dizer: "seguimos a recomendação da Deloitte". É uma blindagem muito diferente de dizer: "foi o Bob do TI que falou"
Sou alguém que quase entrou no setor de consultoria depois do MBA, mas mudei de ideia e fui para engenharia de software. O cliente real dos projetos de consultoria costuma ser o "executivo"
Uma vez me apresentaram uma espécie de assistente do tipo "O que o Elon faria?". Executivos querem saber como concorrentes (ou concorrentes imaginários) tomariam decisões com base nas mesmas informações. Ao mesmo tempo, querem considerar também o julgamento do assessor de consultoria que faz essa mediação
Isso varia muito conforme o setor e a região. Em algumas grandes empresas onde trabalhei, o cliente da consultoria não era um executivo, mas um gerente intermediário, vários níveis abaixo da diretoria
O essencial é fazer uma pesquisa leve + entregar o que a pessoa quer ouvir. Nesse sentido, a IA tem chance de virar esse mercado de consultoria de cabeça para baixo
Nesse processo, a diferença entre "cliente" e "customer" também é importante
Mesmo enganando o governo australiano e desperdiçando dinheiro público, a consequência é só um reembolso parcial
O caso do Craig Wright mostra isso bem. Ele é o famoso falso Satoshi. Antes mesmo das fraudes com Bitcoin, já tinha cometido fraude de milhões de dólares em reembolsos de GST e incentivos fiscais de P&D, tentou aplicar golpes de dezenas de milhões, foi pego, fugiu da Austrália, devolveu só parte do dinheiro e vive bem no exterior sem maiores punições
Na prática, o sistema quase força que seja assim. Se 1 em cada 10 cometer fraude, recuperar tudo é impossível. Cobra-se apenas o "custo + prejuízo" e pronto. Se o princípio fosse exigir devolução integral em todos os casos, os contratos ficariam maiores do que o próprio trabalho real
No fundo, este caso não é um problema de IA, mas um problema maior de falha de supervisão na elaboração do relatório. O papel da consultoria externa é garantir que os resultados da investigação resistam ao escrutínio público, e aqui ela fracassou completamente. O chocante é que, mesmo com esse desempenho ruim, houve apenas reembolso parcial e nenhuma reavaliação ampla dos contratos atuais e futuros. Não deveria importar se os erros do relatório vieram da IA ou de um consultor virado a noite sem dormir; o tratamento deveria ser o mesmo com base no resultado
Os CEOs estão se enganando ao achar que GenAI vai substituir pessoas, quando na realidade os clientes também querem pagar muito menos por entregas feitas com GenAI. No fim, o ganho de economia desaparece. O resultado é um ciclo de margens menores, pior qualidade e redução de preços
Para complementar: o cliente está pagando por "um ser humano responsável que assume a missão e entrega". A IA não tem capacidade de responder por nada, então não há muito valor em pagar por relatórios desse tipo feitos por ela
Em relação a isso, no mundo pós-IA, o caminho para o sucesso é produzir mais com a mesma equipe (ou até com mais gente). Com a IA, automação se torna comum e o valor unitário do trabalho cai, então simplesmente operar com menos pessoas não é uma estratégia de sobrevivência. O novo padrão passa a ser atingir uma escala e uma qualidade que antes eram impossíveis
Essa é a lógica de "levar o valor do serviço a zero enquanto cria novo valor"
Este relatório tratava justamente de uma política que corta benefícios de desempregados quando eles falham em procurar trabalho — ou seja, exatamente o grupo que se teme perder emprego por causa da IA
Do ponto de vista do cliente, se for possível usar entregas feitas com GenAI de forma mais barata, isso não poderia até aumentar a receita? Separando a polêmica da Deloitte, usar GenAI bem pode de fato gerar resultados melhores
Trabalhei por muito tempo em empresas de consultoria, e me parece que muita gente não entende bem como esse setor funciona. Claro que existem casos antiéticos e problemáticos, mas as vantagens e o valor que a consultoria entrega são reais. Basta ver que o mercado continua existindo e movimenta dezenas de bilhões de dólares por ano
Há quem diga que, em proporção ao tamanho econômico, é difícil pensar em outra organização que gere tão pouco valor para a sociedade quanto as Big Four