1 pontos por GN⁺ 2024-09-23 | 1 comentários | Compartilhar no WhatsApp
  • Jeff Geerling encontrou uma narração muito parecida com a sua própria voz em um tutorial promocional da Elecrow no YouTube, mas nunca disse aquelas frases
  • A voz em questão parece ter sido usada em várias séries de vídeos sobre ESP32 e RP2040, e Jeff suspeita que seus vídeos no YouTube possam ter sido usados em uma ferramenta de clonagem de voz por IA
  • Como Jeff já analisou o CrowPi 2 no passado e a Elecrow é uma empresa que fabrica acessórios para Raspberry Pi e produtos eletrônicos, o contexto da relação é mais complexo do que uma simples disputa com um fornecedor externo
  • O precedente legal sobre clonagem de voz por IA sem autorização em si ainda é incerto, mas o problema de usar a voz de outra pessoa sem consentimento em trabalhos comerciais se conecta ao caso Midler vs. Ford
  • Antes de pedir remoção ou tomar medidas legais, Jeff enviou um e-mail à Elecrow pedindo explicações e a retirada dos vídeos, e defende que empresas devem resolver isso contratando dubladores ou fazendo colaborações formais

Uma voz semelhante à de Jeff Geerling ouvida em vídeos da Elecrow

  • Jeff Geerling ouviu um clipe no YouTube da Elecrow e concluiu que a narração soava bastante familiar, muito parecida com a sua voz
  • O vídeo não é do canal Jeff Geerling, mas da Elecrow, e Jeff afirma que nunca disse as frases presentes nele
  • Alguém enviou o link do vídeo da Elecrow por e-mail dizendo que o áudio parecia estranho, e Jeff acredita que, por seu canal tratar do mesmo tema, alguns espectadores podem ter pensado que ele havia concordado em participar com a voz no vídeo da Elecrow
  • A Elecrow é uma empresa que fabrica eletrônicos e acessórios para Raspberry Pi, e Jeff já analisou o CrowPi 2 da empresa no passado
  • Não havia um histórico ruim com a Elecrow, por isso Jeff ainda não tem 100% de certeza de que isso foi intencional
  • Na versão em vídeo deste texto, é possível comparar diretamente o clipe da Elecrow com a voz natural de Jeff

Suspeita de clonagem de voz por IA e resposta

  • Jeff diz que é difícil provar, mas considera provável que a Elecrow tenha colocado seus vídeos do YouTube em alguma ferramenta de clonagem de voz por IA e usado essa voz para narrar vários tutoriais promocionais
  • Depois do caso em que a OpenAI teria essencialmente reproduzido a voz de Scarlett Johansson, Jeff esperava que empresas fossem mais cuidadosas com vozes de IA usadas em demos de produtos ou tutoriais, mas este caso vai na direção oposta
  • Até onde Jeff sabe, não há um precedente legal claro sobre clonagem de voz por IA sem autorização, mas ele menciona Midler vs. Ford como precedente de que não se deve usar a voz de outra pessoa sem consentimento em trabalhos comerciais
  • Responder por meio de advogado custa caro, e também não está claro se a clonagem de voz sem consentimento viola os termos de serviço do YouTube
  • As exigências de Jeff são claras
    • Não se deve roubar a voz ou imagem de outra pessoa para colocar em um produto ou vídeo
    • Marcas devem contratar dubladores ou pagar criadores de conteúdo para colaborar formalmente
  • Jeff enviou um e-mail à Elecrow pedindo que retirasse pelo menos duas séries com uma voz de IA parecida com a sua
    • Ele perguntou se a voz foi criada intencionalmente para soar como a sua
    • Também pediu confirmação sobre se a voz foi treinada com seus vídeos ou conteúdo de áudio
  • Em vez de começar com um pedido de remoção no YouTube ou ação legal, ele preferiu iniciar por e-mail, deixando em aberto a possibilidade de ter sido um erro honesto, já que não havia problemas anteriores
  • Ainda assim, é evidente que a Elecrow conhecia o canal de Jeff
    • Desde 2020 até hoje, houve mais de 43 e-mails trocados com 5 profissionais de marketing da Elecrow
    • Desses, 22 foram enviados neste ano
    • Em 2 de abril de 2024, uma pessoa do marketing da Elecrow enviou um e-mail dizendo que queria discutir uma parceria paga
  • Em uma atualização de 23 de setembro, o CEO da Elecrow respondeu, e Jeff publicou um texto de acompanhamento com essa resposta e suas reflexões sobre clonagem de voz por IA

1 comentários

 
GN⁺ 2024-09-23
Opiniões do Hacker News
  • Cada pessoa tem seus próprios medos em relação à IA, mas um caso especialmente assustador é forjar, com IA, alguém como se tivesse feito uma declaração blasfema.
    No meu país, mesmo algo que pareça um insulto muito pequeno, real ou imaginário, já basta para surgir uma multidão de linchamento por blasfêmia. Eles chegam em bando, lincham a pessoa e queimam o corpo; depois, enquanto a família se esconde e grava uma mensagem em vídeo negando a vítima e perdoando a multidão, os agressores distribuem doces entre si.
    Isso já acontecia antes de a IA ficar facilmente acessível. Dá para dizer que é “coisa de país atrasado”, mas não vai parar ali; vai se espalhar. Não dá para colocar uma faca na mão de uma criança pequena e depois culpá-la por esfaquear alguém.
    Independentemente de reputação, segurança ou direitos autorais, isso pode fazer pessoas morrerem, e não há ferramenta para controlar.
    https://x.com/search?q=blasphemy
    Tenho medo do futuro

    • Contra a intuição, acho que a resposta é tornar essas ferramentas de IA mais abertas e acessíveis.
      Se elas continuarem restritas, reguladas ou difíceis de acessar, as pessoas continuarão achando que vídeos e gravações são impossíveis de manipular. Mas, se a clonagem de voz virar uma brincadeira fácil e divertida em um app de 1 dólar, e adolescentes puderem fazer trotes com isso, em pouco tempo essa ideia entra na percepção do público.
      Na semana passada, minha mãe de 70 anos perguntou se deveria apagar a saudação da caixa postal. A preocupação dela era que alguém pudesse roubar sua voz com aquilo; fiquei surpreso, talvez ela tenha ouvido isso em algum lugar como a Fox.
      Alguns anos serão difíceis, mas espero que passem rápido.
    • Nesse caso, o problema não está na IA, mas nesse país.
    • Por causa da ideia “e se alguém for falsificado por IA como se tivesse feito uma declaração blasfema?”, venho pensando em escrever uma carta aberta ao Dang pedindo para excluir minha conta.
      Hoje, se um usuário tem uma quantidade razoável de comentários, é bem provável que seja possível desanonimizá-lo por análise de correlação. Mesmo que não seja 100% preciso, o estilo de escrita pode ser roubado. Pode ser paranoia, mas não há garantia de que não estejamos entrando numa floresta escura, e há motivos para crer que estamos indo nessa direção.
      Ao mesmo tempo, também fico me perguntando se não recuar para as sombras é uma forma de não desistir.
    • O melhor cenário, pessoalmente, parece ser evitar esse tipo de coisa nos primeiros 5 anos mais ou menos; depois disso, ela terá se espalhado tanto e ficado tão fácil que todos passarão a desconfiar dos vídeos que veem.
      É parecido com o que aconteceu em mídias sociais como o Reddit: por alguns anos houve “caça ao culpado” e “exposição de identidade”, até que os moderadores perceberam que multidões online erravam com frequência e, em geral, passaram a proibir isso.
      Mas muita gente será prejudicada até que leis sejam aprovadas ou até que vire senso comum a percepção de que um vídeo tem mais chance de ser falso do que verdadeiro. Pode levar mais de 5 anos, e também há o problema de que as leis geralmente só surgem depois que o dano a alguém foi comprovado.
    • Nesse caso, talvez a única saída seja criar, com IA, vídeos de toda a liderança da multidão de linchamento cometendo blasfêmia e deixar que resolvam isso internamente.
  • Não vejo por que usar IA permitiria escapar do precedente Midler vs. Ford.
    Pelo contrário, se a voz foi clonada por IA, em vez de contratar outro dublador para imitá-la, a defesa parece ainda mais fraca.

    • Esse precedente se aplica apenas aos estados sob jurisdição do Nono Circuito de Apelações.
      Em vários outros estados, as leis e precedentes sobre o chamado direito de publicidade estão espalhados e variam bastante. Está longe de haver consenso universal entre os estados sobre se esse conceito deve ser reconhecido, como delimitar seus limites, e de que forma.
    • Nesse caso, o tribunal limitou explicitamente a decisão à voz de uma cantora profissional.
      “...essa observação se aplica ao canto, especialmente ao canto de uma cantora famosa. Uma cantora se manifesta em sua canção. Imitar sua voz é piratear sua identidade...”
      “Não precisamos decidir, e não decidimos, que toda imitação de voz para anunciar produtos seja passível de ação judicial. Decidimos apenas que, quando a voz distintiva de uma cantora profissional amplamente conhecida é deliberadamente imitada para vender um produto, o vendedor se apropriou de algo que não lhe pertence...”
    • A solução de verdade é simplesmente excluir a pessoa sem reescalar a dubladora desde o início.
  • Agradeço por apontar os precedentes, mas precedentes são apenas o ponto de partida; no fim, precisamos estabelecer princípios que vão além dos precedentes.
    Quando uma tecnologia traz capacidades sem precedentes, a sociedade precisa traçar limites para que ela funcione a favor das pessoas, e não contra elas; caso contrário, vamos nos aproximar ainda mais de um mundo em que os fortes fazem o que querem e os fracos, ou quem mal consegue manter um Camry, precisam arcar com as consequências.

    • A Califórnia recentemente colocou em vigor uma lei relacionada, e isso é um começo. O Congresso também está trabalhando no “No Artificial Intelligence Fake Replicas And Unauthorized Duplications Act”.
      Ainda está em desenvolvimento na Câmara, mas tem apoio bipartidário. Você pode entrar em contato com seu representante local e pedir que ele coassine ou vote a favor.
      https://www.cbsnews.com/losangeles/news/california-bills-pro...
      https://salazar.house.gov/media/press-releases/salazar-intro...
      https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
    • Ser parte de um processo que vira precedente não parece divertido nem fácil.
      Você teria de encontrar uma organização política sem fins lucrativos, como a ACLU, disposta a bancar os custos de sucessivos recursos, e, nesse meio-tempo, suportar cobertura negativa da imprensa e atenção pública.
      Concordo totalmente que a classe do Camry precisa de defensores, mas um dos princípios centrais da prática moderna é que as pessoas devem poder escolher o nível de contribuição que conseguem assumir. Devemos incentivar, exaltar e encorajar, mas não envergonhar.
      De todo modo, acho que só este post de blog já pode bastar. Quase ninguém quer ficar do lado de quem rouba a voz de uma pessoa, e, ao contrário de raspar o NYT ou o arquivo do deviantart como dados de treinamento, isso causa um desconforto intuitivo muito maior. A humilhação pública não vai render uma grande indenização, mas também não parece que era isso que se queria.
  • Se os grandes modelos de linguagem são a máquina de remix definitiva, fico me perguntando se qualquer pessoa com geração aumentada por recuperação (RAG) não é um DJ digital.
    Na informação digital, está cada vez mais difícil até saber o que é roubo. Como faltam precedentes legais, parece o Velho Oeste da propriedade intelectual e da lei de direitos autorais.
    Se até uma superestrela como Scarlett Johansson só consegue escrever uma carta dolorosa sobre a tentativa da OpenAI de imitar a persona de “Her”, o que um nerd de nicho relativamente comum pode fazer?
    Provavelmente algo como o Geerling: ficar igualmente triste, irritado e frustrado, mas ainda assim dizer “por favor, ajam de boa-fé e respeitem as regras de honra”.

    • Esse tipo de uso indevido só fica interessante quando há reputação que valha a pena roubar.
      Nesses casos, essa reputação também pode ser usada para retaliação. Por exemplo, é difícil imaginar que isso vá acabar sendo bom para a reputação da Elecrow. Da próxima vez que eu vir o nome dessa empresa, vou pensar “ah, aquela empresa que engana as pessoas”, e isso não é bom para eles.
      O que preocupa mais é o uso disso para se livrar de alguém de quem não se gosta. Dá para imaginar, por exemplo, um professor universitário que não fez nada de errado, mas um aluno insatisfeito com a nota usa clonagem de voz para fazer parecer que o professor disse algo que justificaria sua demissão. Se a clonagem de voz ficar muito boa, como essa pessoa poderia se defender? Vai ser difícil até que gravações se tornem comuns o bastante para não serem mais confiáveis por si só.
    • Não existe roubo; existem apenas cartas de corso que permitem saquear pessoas que não pagaram por usar memes e complexos de memes reivindicados antes por alguém.
      Para haver roubo, precisa haver a condição de que a vítima perca o benefício do objeto roubado. Copiar e colar apenas derruba um castelo de cartas que ameaça pessoas com prisão e pobreza se elas usarem memes reivindicados sem pagar.
      Se eu fosse jurado em um caso de violação de direitos autorais em que o réu fosse uma pessoa, e não uma empresa, eu anularia o veredito em todos os casos.
    • Parece que isso não é apenas um problema digital.
      Eric Schmidt não disse recentemente para roubar primeiro e deixar que os advogados resolvam depois, caso desse certo?[0,1]
      [0] https://x.com/alexeheath/status/1823873344133062680
      [1] Mais precisamente, a ideia era roubar legalmente, mas não sei o que isso significa.
    • Parece que sempre há algum tipo de Velho Oeste nos direitos autorais.
      Se o mundo continua pulando e chutando por baixo para derrubar você, talvez o lugar onde você está de pé seja o lugar errado.
    • A expressão “o que é roubo” foi arrastada por várias etapas, mas isso é apenas projeção de vontade.
      Em objetos que têm uma interface .copy(), roubo não é definido. Ainda assim, se olhar de perto, ele continua existindo.
      As pessoas precisam ajustar expectativas, não a lei. Computadores substituíram caixas de supermercado, e agora a atuação de voz substitui dubladores. Popularidade, na verdade, não significa grande coisa; e, se apenas pessoas populares conseguem manter seus empregos, isso também não é injusto?
  • Mesmo deixando de lado a parte de IA, parece que distorceram seriamente a opinião do Jeff ou usaram sua imagem sem autorização.
    Ao usar a voz dele, criam uma garantia implícita e manipulada sobre o produto, o que parece muito errado. Imagino que já existissem leis para lidar com esse tipo de situação muito antes da IA.

    • Tenho pensado algo parecido recentemente.
      Sempre houve pessoas que imitavam vozes muito bem e, em geral, usavam essa habilidade para comédia ou sátira, não para distorcer a opinião de outras pessoas. Não sou advogado, mas isso parece estar em bases jurídicas bastante sólidas, e representar alguém de forma indevida deve ser algo relativamente fácil de tratar legalmente.
      A diferença é a democratização. Passamos de uma situação em que pouquíssimas pessoas tinham essa habilidade para outra em que quase qualquer pessoa com um computador consegue fazer algo parecido. Por isso, a fiscalização fica muito mais difícil e, se a solução exigir medidas legais, provavelmente será algo difícil de bancar para alguém como Jeff Geerling.
  • Talvez eu é que seja estranho, mas não acho que aquela voz se pareça tanto assim com a dele.
    É um pouco parecida, mas diferente; o tom é um pouco mais agudo, soa mais anasalado e a entonação também é um pouco diferente.

    • Como alguém que nunca tinha ouvido ele antes, só os primeiros segundos deste vídeo já soam parecidos o bastante para eu considerar uma voz clonada por IA imperfeita.
      https://www.youtube.com/watch?v=UMofZIT9FcQ
    • Como alguém que viu todos os vídeos e transmissões ao vivo dele, acho que é realmente muito parecido.
    • Está claro que foi treinado com a voz dele.
      As diferenças de entonação e tom mencionadas são simplesmente diferenças que surgem por ser uma voz gerada por IA, e não fala humana.
    • Já vi centenas de vídeos dele, e soa mesmo muito parecido com ele.
    • As ferramentas que conheço permitem adicionar vários tipos de clipes de voz que você quer misturar; elas combinam todos os elementos de um modo em que não dá para conhecer nem controlar tudo, e ainda acrescentam a aleatoriedade do sistema.
      A versão deles provavelmente será algo como dizer que misturaram vozes mais agradáveis para criar diferenciação suficiente.
      O problema é quem decide quão diferente precisa ser para escapar de apropriação de imagem ou semelhança vocal. O “rei da voz genérica de nerd” alegará semelhança excessiva, e o lado sob suspeita não vai revelar todo o processo.
      Em breve também será possível ajustar vozes de IA de ouvido, então pedir para ser excluído do treinamento por ser uma voz representativa de uma área específica não deixará ninguém seguro. A ideia de uma autoridade de vozes soa sombria.
  • Como um pequeno YouTuber de tecnologia, também já tive contato com a Elecrow.
    Pelo que sei, não só na Elecrow, mas em várias empresas, funcionários recebem recompensas, promoções ou comissões quando fecham parcerias de longo prazo ou colaborações em vídeo com YouTubers. Alguém pode ter achado esperto clonar a voz do Jeff, já que o canal dele é bem conhecido nesse nicho.
    Para a Elecrow, isso certamente não é uma boa publicidade agora, e também fico curioso para saber se eles vão admitir que foi intencional.

  • A ideia de que o tom da voz roubada seria importante é uma das partes mais míopes dos investimentos em IA. É impulsionada por uma mentalidade hollywoodiana de “não vamos criar nada novo jamais”
    Daqui a cerca de 5 anos, vozes de IA serão personalizadas e mais agradáveis de ouvir do que humanos reais. Não serão limitadas pela fadiga das cordas vocais, poderão ser alteradas à vontade e ajustadas facilmente ao analisar o engajamento dos usuários
    No futuro, o ponto central será ajustar finamente a saída de voz e observar o engajamento

    • O que foi roubado aqui não foi tanto a voz em si, mas a semelhança com o autor, a reputação que ele construiu na área de tecnologia no YouTube e a confiança em produtos comerciais que ele já havia analisado
      É exatamente por isso que escolheram a voz dele
      Vozes de IA podem se tornar esteticamente indistinguíveis, ou até preferíveis, mas não carregam reputação nem autenticidade. Essas coisas têm valor justamente por serem inerentemente escassas. Na verdade, em um mar de conteúdo ruim comoditizado e genérico, a demanda por pessoas com valor de marca próprio talvez suba, não caia. É também por isso que influenciadores ganham tanto dinheiro com publicidade hoje
    • “Esta chamada pode ser monitorada ou gravada para fins de garantia de qualidade e treinamento”
      “Treinamento”, claro
    • Não tenho certeza se vai levar sequer 5 anos. Você já testou o elevenlabs?
      Ele já oferece várias técnicas de clonagem de voz que começam com uma entrada de áudio de 30 segundos. A de 30 segundos fica parecida em algum grau com a voz da pessoa clonada, mas não idêntica; se você fornecer várias horas de áudio, soa como uma pessoa real. Além disso, dá para ajustar a voz com alguns parâmetros ou até criar uma nova só definindo parâmetros
      Pela qualidade, a voz do vídeo pode ser uma voz de “clonagem instantânea” feita a partir de uma entrada de poucos segundos. Para fazer uma clonagem mais avançada, é preciso provar que a voz é sua
      [1] https://elevenlabs.io
    • Estou apostando no longo prazo nos humanos, e acho que, como reação ao excesso de conteúdo gerado por IA, muita gente vai começar a preferir imperfeições
    • No nosso país há muita dublagem, e há dubladores cujas vozes milhões de pessoas cresceram ouvindo em animações e afins
      Nesse contexto, empresas podem querer comprar as vozes deles. Não é só uma questão de soar bem; o valor da familiaridade é grande. Por exemplo, a ElevenLabs já comprou de familiares os direitos de voz de pessoas falecidas
      Mas, fora esses contextos especiais carregados de nostalgia, não vejo motivo para não criar uma voz sintética do zero
  • Todo mundo vai tratar como diversão até alguém criar uma gravação que faça outra pessoa parecer admitir um crime, e isso ser usado em tribunal
    É exatamente disso que não gosto em IA

    • Vai ser ruim por alguns anos, mas será que algum dia não vai ficar tão fácil manipular que acabará sendo inadmissível como prova em tribunal?
      Mas, se provas em vídeo e áudio se tornarem inadmissíveis, o que vamos fazer?
    • É pior do que isso. As pessoas vão começar a alegar que gravações de áudio reais, que de fato as prejudicam, são falsas
      Mas, em ambos os casos, isso parece mais importante no tribunal da opinião pública do que no tribunal de verdade
    • Se você também não odeia editores de imagem, não entendo muito bem esse argumento
      Ao avaliar uma nova tecnologia útil, preservar formatos de prova dificilmente deveria ser a principal preocupação
  • Existem centenas de ferramentas de clonagem de voz, então é natural que apareça conteúdo com vozes clonadas
    É parecido com o uso não autorizado da imagem de alguém. Plataformas e equipes de operação já têm processos para denunciar e remover isso. Parece que algo semelhante será necessário para voz