- A YouTube aplicou tecnologia de aprimoramento baseada em IA em vídeos de alguns canais populares sem avisar criadores ou espectadores
- Os YouTubers de música Rick Beato e Rhett Shull apontaram o problema ao perceberem alterações sutis em aspectos como pele, cabelo e dobras de roupa em seus próprios vídeos
- A YouTube afirmou que se tratava de uma “experiência limitada a alguns vídeos do Shorts” e disse que melhorou a nitidez e o ruído do vídeo por meio de machine learning tradicional
- Especialistas, no entanto, criticaram a falta de transparência e o uso de linguagem evasiva, dizendo que “machine learning também é parte da IA”, e levantaram preocupações sobre a redução da confiança no conteúdo
- O episódio, em que o conteúdo é modificado sem o consentimento dos criadores, é avaliado como um caso que evidencia problemas de veracidade e confiança da mídia digital
Experimento confidencial da YouTube de aprimoramento de vídeo com IA
- A YouTube aplicou tecnologia de aprimoramento de vídeo baseada em IA em segredo a vídeos de alguns criadores populares
- Ajustou elementos visuais dos vídeos sem aviso prévio para criadores ou espectadores
- Beato e Shull descobriram que textura da pele, cabelo, dobras de roupa e formato das orelhas mudaram em seus vídeos
- Beato comentou que “o cabelo parecia estranho e dava a impressão de que tinha sido maquiado”
- Shull observou que parecia “algo gerado por IA”, destacando que a confiança entre espectadores e criador pode ser prejudicada
Confirmação do experimento e explicação da YouTube
- A YouTube reconheceu que está conduzindo uma pequena experiência em alguns vídeos Shorts
- René Ritchie, Creator Liaison, explicou no X (antigo Twitter) que era uma “experiência para melhorar a clareza e o ruído do vídeo com machine learning tradicional”
- A empresa disse que era um nível parecido com a função de ajuste automático de um smartphone
- No entanto, o professor Samuel Woolley da Universidade de Pittsburgh criticou, afirmando que “machine learning é um subtipo de IA” e que a explicação da YouTube é uma descrição enganosa
Expansão de pré-processamento com IA e questões de confiança
- Especialistas indicaram que este caso faz parte de uma tendência ampla de pré-processamento de conteúdo com IA
- A Samsung usa recursos de IA para tornar fotos da Lua mais nítidas, e o “Best Take” do Google Pixel combina várias expressões faciais para gerar uma única foto perfeita
- Woolley alertou que alterar e distribuir conteúdo sem a autorização do criador cria uma camada invisível de manipulação entre espectadores e mídia
- Isso leva a preocupações sobre verdade de conteúdo e transparência
Reação de criadores e especialistas
- Beato mostrou postura positiva sobre a iniciativa da YouTube, dizendo que ela é “uma plataforma que sempre experimenta novas ferramentas”
- Ele disse “A YouTube mudou minha vida” e foi diplomático com as críticas
- Críticos, porém, destacaram que alterações sem aviso prévio estabelecem um precedente perigoso
- Eles ressaltaram que, como a YouTube é uma plataforma principal não só de entretenimento, mas também de conteúdo de notícias, educação e informação, precisão e autenticidade são especialmente importantes
Direção futura da mídia digital
- O caso antecipa um futuro em que a IA reestruturará conteúdos antes da percepção do usuário
- Ele mostra que um vídeo já alterado por IA pode já estar sendo entregue antes mesmo de o espectador apertar o botão de reprodução
- A necessidade de avisos transparentes sobre o uso de IA e processos de consentimento de criadores ficou em evidência
1 comentários
Opiniões do Hacker News
Em vídeos de maquiagem labial, os lábios ficam maiores; em vídeos de maquiagem para os olhos, os olhos ficam maiores; ou seja, a IA detecta o tipo de conteúdo e aplica automaticamente um filtro
O vídeo relacionado pode ser visto aqui. É chocante que modifiquem o upload de um criador sem consentimento
Como a influenciadora não é técnica, ela provavelmente confundiu isso com um filtro de IA. Blocos de movimento flutuando pela tela são um fenômeno típico de compressão pesada
É estranho que esse tipo de alegação seja aceita assim num fórum técnico. O vídeo inteiro tem poucos detalhes e marcas evidentes de compressão
Como os termos de uso dizem que a plataforma pode “fazer o que quiser”, depois podem tentar justificar dizendo que foi uma “configuração do usuário”
“Quando a Meta faz tradução automática de voz, ela adiciona um filtro de IA para sincronizar o movimento da boca com o áudio, e nesse processo às vezes um filtro estranho acaba cobrindo o rosto inteiro”
Dizer que aplicam filtros diferentes para cada tipo de conteúdo parece uma conspiração exagerada
A pele fica lisa demais, o cabelo parece cera e aparecem anéis estranhos ao redor de objetos em movimento
No começo achei que fosse upscaling no cliente, mas como o processamento é no servidor, não dá para desligar
Se as pessoas se acostumarem com essa qualidade, depois vai ficar mais difícil perceber quando houver conteúdo gerado por IA misturado
As pessoas vão ficar rolando infinitamente vendo só anúncios e conteúdo que derrete o cérebro
ffmpeg -i source.mkv -i suspect.mkv -filter_complex "blend=all_mode=difference" diff_output.mkvHá muitas alegações assim, mas ainda não vi ninguém publicar um vídeo de comparação (diff) de verdade. Seria interessante se alguém fizesse isso
No vídeo do YouTube, em 0:31, ela mostra o Shorts e o original lado a lado
Na versão em alta qualidade postada no Patreon, a diferença fica muito mais clara
Hoje em dia eu tiro screenshot da thumbnail e pergunto ao ChatGPT, ou coloco a URL do vídeo num extrator de transcrição para o Gemini analisar
Quem faz clickbait agora foi rebaixado a mero “sugeridor de assuntos para perguntar ao ChatGPT”
Não é inteligente fazer essas “melhorias” sem informar os criadores
Mais gente deveria experimentar plataformas melhores, especialmente por causa dos criadores pequenos e médios que sofrem com denúncias falsas de copyright
Como alternativa, há plataformas como o PeerTube do Fediverse
Aumentar engajamento é papel do criador; quando a plataforma interfere, no fim os usuários acabam indo embora
Há um exemplo relacionado neste texto
Compressão com perdas e quantização adaptativa podem fazer a pele parecer mais lisa
Cientistas, políticos, economistas e especialistas em tecnologia aparecem totalmente clonados por IA
Reportagem relacionada: matéria do The Guardian
Não vejo motivo para o Google fornecer dados limpos para terceiros
Por exemplo, este canal usa uma imagem-resumo que parece gerada por Stable Diffusion, e não um frame real do vídeo
Eu já vi isso uma vez no meu canal, mas agora a opção sumiu. A maioria dos canais que acompanho está usando esse recurso
Pessoalmente, não gosto
Por exemplo, seria legal poder digitar prompts abaixo do vídeo como “trocar inglês por gaélico”, “substituir piadas de tiozão por lorem ipsum” ou “trocar o cachorro por uma forma de vida alienígena”
Seria incrível se desse para rodar localmente no navegador, mas até lá talvez isso já esteja proibido por lei