A necessidade de tornar públicas as diretrizes de comportamento da IA

(twitter.com/ID_AA_Carmack)

2 pontos por GN⁺ 2024-02-22 | 1 comentários | Compartilhar no WhatsApp

Tweet de John Carmack, ex-desenvolvedor de Doom e ex-CTO da Oculus

"Guardrails de comportamento da IA definidos por engenharia de prompt e filtragem devem ser públicos, e os criadores devem orgulhosamente revelar sua visão do que é melhor para a sociedade, bem como o processo de concretizá-la em comandos e código. Eu acredito que muita gente fica envergonhada com isso. Claro, milhares de pequenos "nudges" codificados por aprendizado por reforço com feedback humano oferecem uma possibilidade de problemas negativos muito mais convincente."

1 comentários

GN⁺ 2024-02-22

Opiniões no Hacker News

Nunca implementei moderação em grande escala nem controle de conteúdo, mas parece padrão não divulgar as regras automáticas que servem de base
Se uma lista de bloqueio de palavras for divulgada, as pessoas conseguem facilmente expressar conteúdo problemático com palavras que não estão na lista, e sempre vi o shadowban como um mecanismo para não deixar claros os limites
Entendo que seja frustrante, mas por enquanto não parece haver uma abordagem claramente melhor, e se existir um método aberto que funcione em escala, seria um bom ponto de partida
- Neste caso, não há necessidade de implementar censura e moderação em grande escala. Não vejo qual é a preocupação de segurança em eu gerar, por 5 minutos de diversão, imagens de pessoas brancas em várias situações
  É só conversar com um computador, ninguém se machuca. Censurar o que escrevo em um app de notas é diferente de gerenciar o que escrevo no mural do Facebook; no primeiro caso não se espera moderação, no segundo entendo que algum nível de verificação seja necessário
- Esta é uma abordagem ruim e uma lógica ruim. Segurança por obscuridade é uma expressão quase sempre usada de forma depreciativa no setor de segurança
  As pessoas conseguem contornar bem esse tipo de censura automática, e não divulgá-la cria mais problemas para usuários legítimos e aumenta o espaço para políticas ruins ficarem escondidas
  Mesmo fazendo a mesma coisa, é melhor fazê-la com uma política pública, embora ainda seja algo ruim. A verdadeira solução para o problema de uma enorme praça pública ser controlada por empresas privadas é simplesmente acabar com esse estado de coisas
- Talvez nem seja preciso lidar com os problemas implícitos desde o início. Isto é inculcação ideológica consistente, e o nível de concordância varia de pessoa para pessoa
  Se a empresa não quiser divulgar todas as medidas, poderia ao menos fazer um resumo. Acho bem provável que até esse resumo contenha aquilo que o tweet original chamou de “vergonhoso”
  Sem explicitar o problema e a abordagem, não é possível discuti-los nem reconhecê-los. A analogia com moderação de conteúdo é um pouco diferente, porque o que está escondido não é a lista de medidas, mas as próprias “regras do fórum”
  A IA se recusar com uma explicação é um caso, e mesmo que isso reduza parte da utilidade, é um direito da empresa. Mas, se por causa dessas restrições ela evita silenciosamente certos temas ou direciona o usuário, isso é outro problema
  Parece difícil até para quem a criou separar claramente os dois casos mantendo a mesma qualidade do modelo original. No fim, talvez as pessoas passem a usar IA chinesa. Se ela não desenhar figuras do Partido Comunista Chinês, mas fizer melhor todo o resto, quem vai se importar?
- A maioria dos sistemas jurídicos funciona em escala nacional, mas não é composta por leis-enigma ocultas. Há várias razões para isso
  Já tivemos uma discussão parecida na época das criptomoedas e, em geral, a conclusão foi que, embora o sistema jurídico existente seja um mecanismo externo, ele oferece ferramentas suficientes para rastrear agentes mal-intencionados
  Por fim, vendo as tendências iliberais de muitos seguidores de segurança em IA que escrevem na internet, não gosto do tipo de pessoa que eles são e não confio neles a ponto de lhes entregar algo assim
- Quero me aprofundar mais na parte “se uma lista de bloqueio de palavras for divulgada, as pessoas expressam conteúdo problemático com palavras que não estão na lista”
  Isso quer dizer que o problema não são as palavras, mas a própria ideia, independentemente de como seja expressa? Isso por si só parece uma ideia bastante problemática
As proteções do Gemini são realmente frustrantes. Elas foram acionadas várias vezes até com prompts totalmente inofensivos, e o ChatGPT é parecido, mas parece menos intenso
Espero que levem o feedback em conta e baixem um pouco essas barreiras, mas infelizmente acho que essa situação vai continuar no futuro próximo
- Uso bastante os dois e só esbarrei uma vez nas proteções do GPT, mas dezenas de vezes nas proteções do Gemini
  Não faz sentido uma empresa que está atrás no mercado agir desse jeito. Somando isso ao histórico de produtos do Google e agora à postura de tentar aplicar diretrizes “de segurança” malfeitas à IA, não sei que empresa poderia criar com confiança um produto em cima do Google
LLM e Stable Diffusion são muito fáceis de rodar localmente e fazem o que você pede, sem dar sermão
Se você tiver uma máquina potente, como um Mac Studio, um LLM local pode até ser mais rápido que OpenAI ou Gemini, e você também pode escolher o modelo que melhor se adapta a você
O LM Studio torna muito fácil executar LLMs localmente, e o AUTOMATIC1111 simplifica a execução local do Stable Diffusion. Recomendo muito ambos
- Se você está começando agora, recomendo Fooocus ou invokeAI. Para um iniciante absoluto, entrar direto no automatic1111 dá a sensação de pilotar uma nave espacial
- Verdade. O LM Studio funciona até certo ponto, mas ainda é preciso conhecer a terminologia e saber qual modelo baixar
  Os sites não são amigáveis para iniciantes. Nunca ouvi falar do automatic1111
Fico curioso se esta thread também vai ser denunciada e fechada como as outras. O problema do Gemini que aconteceu hoje é algo que vale muito a pena discutir quando se pensa em segurança de IA, então é uma pena
Com isso, fiquei cada vez mais convencido de que o único caminho que não leva a uma distopia é deixar todo mundo usar todas as IAs livremente, como quiser
Qualquer outra abordagem impõe valores aos outros e entrega o controle de certas capacidades apenas a quem pode pagar
- Penso o mesmo há muito tempo. Para virar polícia moral, é preciso aplicar isso perfeitamente a todos, e, no momento em que se erra uma única vez, tudo o que foi feito até então passa a ser questionado
  Isso me lembra a censura que ocorreu nas grandes plataformas durante a pandemia. Houve um erro, e, na minha opinião, a hipótese de vazamento de laboratório foi esse caso; naquele momento, a credibilidade da autoridade moral desmoronou
  Zuckerberg estava certo ao questionar se essas plataformas deveriam exercer esse papel. A “deixar todo mundo usar todas as IAs livremente, como quiser” eu acrescentaria “dentro dos limites da lei”. Os tribunais é que deveriam decidir ao que uma IA pode responder
- Não entendo por que isso deveria ser denunciado ou fechado. E também estou curioso sobre qual é o problema do Gemini mencionado
- “A única forma de resolver o problema de algumas pessoas criarem regras malucas é não ter regra nenhuma” — libertários
  “Meu Deus, estou sendo devorado por um urso” — também libertários
- Acho que isso aconteceu mais por um problema de tecnologia de alinhamento do que por um desejo de representar um rei inglês dos anos 1800 como não branco
  “Use todas as ancestralidades possíveis com a mesma probabilidade. Exemplos de ancestralidades possíveis são Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White. Todas devem ter a mesma probabilidade”
  Esse é o prompt de sistema da OpenAI. Não parece haver intenção maligna; pelo contrário, ele faz com que White seja escolhido com alta probabilidade. Somando Caucasian e White, são 2 de 6, ou seja, 1/3, muito acima da distribuição da população geral
  Os dados de treinamento de LLMs super-representam muito os países ricos que se conectaram à internet 10 anos antes. Se isso não for colocado explicitamente no prompt de sistema, ao pedir uma “pessoa”, é bem provável que o resultado seja majoritariamente homem e branco. No mundo, a proporção de pessoas que são ao mesmo tempo homens e brancas é de apenas cerca de 5% a 10%, então acho isso mais distópico
  O viés da distribuição de treinamento é incorporado automaticamente e, se não houver uma reação ativa, se cristaliza para sempre. Quando os sistemas melhorarem, eles vão entender que “Inglaterra dos anos 1800” deve significar brancos em mais de 99,9% dos casos, mas a abordagem grosseira de prompts de sistema de fevereiro de 2024 ainda não está nesse nível
Eu gostaria que houvesse mais transparência sobre as proteções de comportamento de IA, mas é difícil esperar isso por enquanto. Se forem transparentes, fica muito mais fácil contornar as proteções
- Não entendo por que seria um problema conseguir contornar as proteções. Elas existem para impedir que pessoas inocentes recebam respostas ruins, como pornografia ou racismo; não parece grande coisa um usuário que esteja procurando esse tipo de coisa obter esses resultados
- A transparência também pode aumentar a possibilidade de grupos que se sintam de alguma forma mal representados dentro do modelo entrarem com ações judiciais contra as empresas
- Segurança por obscuridade?
Censura só funciona direito quando não se sabe o que está sendo censurado. O próprio fato de algo ser censurado revela uma história
- Acho que sistemas de classificação indicativa, como a MPAA para filmes ou a ESRB para jogos, funcionam bastante bem
  Os critérios sobre quais elementos levam a quais classificações são claros, e um criador pode se autocensurar com relativa facilidade se, por exemplo, quiser lançar um filme como PG-13
O Gemini parece ter problemas para gerar pessoas brancas e, sinceramente, esse tipo de abordagem abre caminho para resultados ainda mais racistas https://twitter.com/wagieeacc/status/1760371304425762940
Quanto mais forçado for, maior será o fracasso; está na hora de parar com essa forçação DEI
- Não é um problema só do Gemini, é um problema do Google. Um exemplo antigo: se você pesquisar “white people” no Google Images, a maioria dos resultados é de pessoas negras https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- Não acho que DEI em si não faça sentido, mas o Vale do Silício é sensível a esse problema porque muitos modelos da geração anterior eram terrivelmente racistas ou agiam como nazistas adolescentes
  Então eles aumentaram o botão antirracismo até 11, e o resultado foi que o modelo se tornou racista de outra forma. Representar colonos como Native Americans é extremamente problemático à sua maneira, mas eu não esperaria que um resolvedor estatístico entendesse esse contexto de forma significativa
- Há alguma prova de que isso seja resultado de DEI, e não de um problema técnico mais profundo?
Acho que eles escolheram o caminho seguro porque sabem que, se alguém pedisse uma mulher negra e o sistema gerasse um homem branco, as pessoas se revoltariam; mas é preciso mostrar que o resultado atual também é inaceitável
- Basta ver o prompt que estava ontem no post do HN sobre a pane do ChatGPT https://pastebin.com/vnxJ7kQk
  Por exemplo, ele diz que nem todas as pessoas de uma determinada profissão devem ser do mesmo gênero ou raça. Também manda usar todas as ancestralidades possíveis com a mesma probabilidade e dá como exemplos Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White, dizendo que todas devem ter a mesma probabilidade
  Essa não é uma distribuição que existe na população real
- O modelo é perfeitamente capaz de gerar exatamente o que foi solicitado
  Mas, em vez disso, eles alteram o prompt às escondidas para fazer com que todo pedido imaginável represente o zoológico humano em que nos dizem que devemos viver
  O resultado é cômico https://i.4cdn.org/g/1708514880730978.png
Tenho muita curiosidade sobre de que região veio a equipe que criou essas proteções e que formulação ela usou
Parece haver um viés forte para gerar sul-asiáticos, especialmente mulheres sul-asiáticas e pessoas negras. Latinos quase não são gerados, o que seria uma grande omissão se a equipe fosse baseada nos EUA
Por outro lado, nos exemplos que as pessoas mostram, às vezes aparecem personagens com aquele estilo típico de Native American olhando para longe, ou pessoas do Leste Asiático
- Acho que não precisa pensar tão profundamente nisso. Quase certamente é um prompt do tipo “se houver pessoas na imagem, faça com que venham de origens diversas”
Ao descobrir pela primeira vez um software de conversão de texto em fala na sala de informática, todo mundo fazia ele dizer palavrões antes de qualquer coisa
Mas entendíamos que aquilo era apenas o software fazendo o que mandávamos. Se eu fazia o TTS dizer algo ofensivo, quem estava dizendo o insulto não era o TTS, era eu
Modelos generativos também precisam ser tratados seriamente da mesma forma. Se eu peço para criar algo e o resultado é desagradável, a responsabilidade de não compartilhar é minha. Se eu compartilho, quem compartilhou aquilo fui eu, não a Microsoft ou o Google
Precisamos realmente parar com essa besteira. Não é culpa da OpenAI ou do Google se eu mandei desenhar uma imagem maldosa
Pessoalmente, isso também me incomoda. O Google parece ser quase ridiculamente obcecado por raça

A necessidade de tornar públicas as diretrizes de comportamento da IA

Leituras relacionadas

1 comentários

Opiniões no Hacker News