1 pontos por GN⁺ 2023-10-02 | 1 comentários | Compartilhar no WhatsApp
  • O Bing Image Creator é uma ferramenta gratuita que transforma ou edita texto e imagens enviadas em imagens de IA; o DALL-E 3 será descontinuado gradualmente, e as imagens existentes permanecerão em My Creations
  • É possível escolher entre os modelos de geração DALL-E3, GPT4o e MAI-Image-2e, mas a edição de imagens enviadas é processada apenas pelo GPT4o
  • É necessário fazer login com uma Microsoft Account (MSA) pessoal; contas corporativas ou escolares baseadas no Microsoft Entra ID não são compatíveis com o Image Creator e o Video Creator
  • O Image Creator oferece 15 gerações Fast gratuitas por dia e até 200 prompts a cada 24 horas, enquanto o Video Creator oferece geração de texto para vídeo baseada no Sora 2
  • Imagens enviadas podem ser usadas para processar solicitações e melhorar o serviço, mas não para treinamento ou personalização de modelos; imagens enviadas nas quais um rosto for detectado são excluídas após 30 dias

Transição do Bing Image Creator e do DALL-E 3

  • O Bing Image Creator é uma ferramenta de IA que gera ou edita imagens com base no texto e nas imagens enviadas pelo usuário
  • O DALL·E 3, após ser disponibilizado aos creators, deve ser desativado (retire) nas próximas semanas
    • As imagens existentes permanecerão em My Creations
    • Um recurso substituto dedicado está em preparação
    • Enquanto isso, será possível continuar gerando com modelos mais novos

Modelos de geração de imagem e forma de edição

  • Há três opções de modelo para geração de imagens
    • DALL-E3: ao clicar em “Create”, cria várias imagens com base no prompt e conta como uma creation
    • GPT4o: ao clicar em “Create”, gera 1 imagem com base no prompt
    • MAI-Image-2e: ao clicar em “Create”, cria várias imagens e conta como uma creation
  • O MAI-Image-2e tem um model card e um data summary
  • Ao usar ou editar imagens enviadas, não é possível selecionar DALL-E3 nem MAI-Image-2e, e todas as edições são processadas pelo GPT4o
  • Em solicitações parecidas com prompts usados recentemente, pode ser exibida uma cached image temporariamente armazenada em vez de criar uma nova imagem do zero

Conta, velocidade e limites de uso

  • O Bing Image Creator pode ser usado gratuitamente com uma Microsoft Account (MSA) pessoal
    • Usuários logados com Microsoft Entra ID não podem usá-lo
    • Mesmo ao usá-lo dentro do Copilot Search ou do Bing Search, é necessário fazer login antes da geração de imagens
  • A velocidade de geração é dividida em Fast creation e Standard creation
    • São oferecidas 15 Fast image creations gratuitas por dia
    • Ao usar todas as 15, elas são repostas no dia seguinte
    • Para continuar usando geração Fast, é possível usar pontos do Microsoft Rewards
    • A Standard creation é gratuita, mas mais lenta que a Fast
  • O Image Creator permite inserir até 200 prompts a cada 24 horas
    • Clicar em “Edit image” também entra no limite de 200
    • Ao esgotar o limite, ele é reposto no dia seguinte
  • Gerações por não assinantes ou convidados têm limite diário; ao fazer login, é possível enviar imagens e acessar modelos adicionais

Bing Video Creator

  • O Bing Video Creator é um produto do Bing que cria vídeos de IA adequados a prompts de texto usando Sora 2
  • O Video Creator também exige login com uma Microsoft Account pessoal, e contas Microsoft Entra ID não são compatíveis
  • As velocidades de geração oferecidas são Fast creation e Standard creation
    • A Standard creation é gratuita
    • A Fast creation geralmente exige pontos do Microsoft Rewards
    • Em alguns casos, créditos para Fast creation podem ser fornecidos
  • É possível colocar na fila até 3 gerações de vídeo em andamento ao mesmo tempo
    • Se já houver 3 em andamento, não será possível criar um novo vídeo até que uma delas seja concluída
    • Vídeos concluídos podem ser vistos no miniapp Bing Video Creator no app móvel do Bing ou em “My Creations” em bing.com/create
  • A geração de vídeo atualmente está disponível apenas em dispositivos móveis e deve ser acessada pelo app Bing

Imagens enviadas e tratamento de dados pessoais

  • Imagens enviadas são usadas para que o Bing Image Creator ou o Bing Video Creator execute tarefas de geração ou modificação de imagens conforme a solicitação do usuário
  • Imagens enviadas podem ser usadas para melhorar os serviços de processamento de imagem, mas não são usadas para treinamento de modelos de IA nem para personalização da experiência do usuário
  • Não há tentativa de identificar rostos que aparecem em imagens enviadas
  • O período de armazenamento varia conforme o conteúdo da imagem
    • Imagens enviadas são armazenadas por até 30 dias
    • Imagens nas quais um rosto for detectado são excluídas após 30 dias
    • Imagens nas quais nenhum rosto for detectado podem ser armazenadas por até 18 meses
  • Imagens e vídeos gerados podem ser armazenados por até 90 dias, respectivamente
  • O usuário pode excluir o histórico selecionando “Clear all” no histórico de pesquisa do Bing ou “Clear all search history” em “Search history” no privacy dashboard da conta Microsoft
    • Essa ação exclui conjuntamente o histórico de pesquisa do Bing, os perfis do Bing Image Creator e do Video Creator e o histórico de geração

Limites de upload e dados biométricos

  • O usuário deve enviar apenas imagens originais de sua propriedade ou que tenha direito de usar
  • Não é permitido enviar imagens que violem direitos de terceiros, invadam a privacidade de outras pessoas, representem pessoas sem consentimento ou violem o Microsoft Services Agreement ou o Bing Image Creator Code of Conduct
  • Se for detectada uma tentativa de enviar conteúdo ilegal ou proibido, o uso da conta pode ser limitado ou suspenso
  • Por motivos de segurança, o Video Creator não permite o envio de imagens realistas de rostos para uso na geração de vídeos
  • No recurso de upload de imagens, dados biométricos como rostos ou mãos podem ser processados
    • Dados biométricos são processados apenas quando enviados pelo usuário
    • A finalidade do processamento limita-se a responder à solicitação do usuário
    • Em algumas regiões, pode ser necessário consentimento antes do processamento da imagem
    • Imagens de outras pessoas não devem ser compartilhadas sem consentimento

Redação de prompts e idiomas compatíveis

  • O Bing Image Creator e o Bing Video Creator são compatíveis com mais de 100 idiomas, e a lista completa pode ser consultada no Microsoft Translator
  • Para obter bons resultados, é melhor escrever prompts de forma específica e imaginativa, em vez de curtos como termos de busca
    • Incluir aparência, cor, textura, ação, plano de fundo, iluminação, ângulo de câmera e estilo de mídia do tema pode melhorar a qualidade do resultado
    • Prompts de vídeo podem incluir temas como “action movie”, “fantasy” e “dramatic”, além de expressões de iluminação como “direct sunlight”, “dusk” e “soft lighting”
    • Em vídeos com áudio, é possível sugerir som ambiente, direção musical e tom de narração, mas não especificar falas exatas como um roteiro

Rewards e IA responsável

  • Ao usar as 15 Fast creations gratuitas diárias no Image Creator, a velocidade muda automaticamente para Standard creation
  • Ao ativar o uso de pontos do Microsoft Rewards, pontos são descontados ao usar Fast creation
    • As configurações de Rewards do Image Creator e do Video Creator devem ser alteradas separadamente
    • Se os pontos forem insuficientes, a geração muda automaticamente para Standard creation
  • A Microsoft aplica ao Bing Image Creator e ao Bing Video Creator controles para impedir a geração de imagens e vídeos prejudiciais
    • Prompts que possam gerar imagens potencialmente prejudiciais são bloqueados automaticamente, e o usuário é orientado
    • As imagens do Image Creator exibem uma marca d’água no canto inferior esquerdo
    • Tanto imagens quanto vídeos usam credenciais de conteúdo e informações de procedência baseadas no padrão C2PA
  • Artistas vivos, celebridades e organizações podem solicitar a limitação da geração de imagens relacionadas a seus nomes e marcas pela opção AI-powered features no Report a Concern form
  • Se for gerado conteúdo inesperado ou ofensivo, é possível denunciá-lo à Microsoft pelo Report a concern form ou pelo botão Feedback na interface
  • Violações repetidas da política de conteúdo podem resultar em suspensão temporária automática, e múltiplas suspensões podem levar a restrições permanentes

1 comentários

 
GN⁺ 2023-10-02
Opiniões no Hacker News
  • Parece que o LLM altera um pouco o prompt antes de enviá-lo ao DALL-E, e é possível fazer jailbreak dessa parte
    https://twitter.com/madebyollin/status/1708204657708077294
    https://media.discordapp.net/attachments/1023643945319792731...

    • Por algum motivo, casos de jailbreak em que a entrada e a saída não são apenas texto são excepcionalmente bons
    • Ainda é uma espécie de splatterprompting, só que agora a máquina faz isso por você, o que é bem engraçado
    • Será que funciona se chamar simplesmente assim?
      #graphic_art("my prompt here")
    • Fico curioso para saber como fazem o jailbreak
    • É uma cena realmente cyberpunk, bem 2023
  • Como costuma acontecer com ferramentas desse tipo, parece bem fácil gerar resultados realmente engraçados e, ao mesmo tempo, desagradáveis. Provavelmente não vai durar muito
    https://www.reddit.com/r/ChatGPT/comments/16wf1i0/dalle_3_is...

    • Em vez de simplesmente fazer bloqueio de palavras-chave às cegas, eu gostaria que pedisse mais explicações ou aplicasse ajustes suaves para tornar o resultado menos problemático
      Claro, as pessoas acabarão fazendo o que quiserem de qualquer forma, então também seria bom se, quando a novidade passar, elas parassem por conta própria
    • Posso ter deixado passar algo, mas não entendo como a palavra “fawn” no prompt resultaria em um Spongebob assustador
      Edit: não havia “fawn” no prompt; entendi depois de ver as respostas
  • Vencedor: https://www.bing.com/images/create/paint-a-picture-in-the-st...

    • Gosto de imaginar que há um ticket no Jira no backlog de alguém dizendo “ensinar ao modelo a quantidade de dedos nas mãos humanas
    • Pedi “mãos com a quantidade correta de dedos”, e 3 das 4 imagens retornadas acertaram
  • Parece claramente melhor do que a versão anterior. Agora, pelo menos em alguns casos, consegue gerar texto exato dentro da imagem
    Por exemplo, o prompt Neon sign saying "Scotland" produziu este resultado: https://www.bing.com/images/create/neon-sign-saying-22scotla...
    Porém, ele ainda teve dificuldade com palavras menos comuns, como Kubernetes, mas é um passo na direção certa

  • Na interface de chat do Bing, quando você pergunta “você pode desenhar uma imagem de X?”, ele responde “Desculpe, mas não consigo desenhar imagens. Precisa de outra ajuda?” e, logo em seguida, aparece “A geração da imagem está demorando. Verifique o progresso no Image Creator”
    Parece que usam um LLM que, na resposta do chat, não sabe que consegue desenhar imagens, enquanto em paralelo rodam outro modelo que decide o que desenhar e mostrar

    • Tento evitar prompts como “Can you ...?”. Isso porque podem ser interpretados como uma pergunta de sim/não, não como uma ordem para fazer algo
      No Bing, escrever “Draw me an image of...” ou simplesmente “Image: descrição da imagem” funcionou bem até agora
    • Acho que é por causa do verbo “draw”. O LLM está apenas dizendo que ele próprio não consegue desenhar, e a geração de imagens provavelmente é uma função que ele chama
      O LLM parece considerar o gerador de imagens como uma ferramenta que usa, isto é, algo separado dele
    • Provavelmente é isso. Já experimentei fazer um LLM treinado com dados de chat/instruções emitir códigos especiais para se comunicar com um sistema separado, como Google ou Stable Diffusion, e depois repassar isso ao usuário, mas a taxa de sucesso foi limitada
    • Quando a imagem gerada é detectada como NSFW, o chat também pode emitir esse tipo de erro estranho. Há muitos falsos positivos
  • Tenho gerado várias coisas nas últimas 24 horas e é bem bom. Eu realmente não gosto da interface via Discord do Midjourney

    • Eu também. Não entendo por que eles usam o Discord há tanto tempo sem criar uma experiência de usuário adequada para esse caso de uso. Acho que vão perder bastante crescimento por causa disso
    • O Midjourney é exclusivo do Discord? Então deve impor uma carga enorme aos servidores do Discord. Mesmo que o modelo não rode lá, só o armazenamento e a largura de banda já são grandes
      É um jeito bem razoável de escalar muito rápido no começo, mas acho que o Discord não deve gostar. Eu imaginava que a essa altura eles já teriam criado uma interface própria
    • Relacionado a isso, o Instagram também colocou agora o comando /imagine nas DMs. É uma cópia total
  • O Bing parece bem desesperado. Ontem tentei instalar o GPT no meu aparelho, e o primeiro resultado de app era um anúncio; era o Bing, dizendo que eu poderia ganhar recompensas se usasse o app
    Não sei se eles estão mais interessados em aumentar o número de usuários ou em coletar dados valiosos. Provavelmente os dois

    • O Bing Rewards foi lançado em 2010, então parece que é eficaz o bastante para continuarem mantendo
      https://en.wikipedia.org/wiki/Microsoft_Bing#:~:text=Bing%20...
    • O Google paga US$ 20 bilhões por ano à Apple para manter seu lugar como mecanismo de busca padrão no iOS. Isso sim é desespero de verdade. Para onde as pessoas iriam, Bing?
    • O Bing gerou US$ 12 bilhões em receita em 2022. Só dizendo
    • O Whatsapp também tem sua própria versão do ChatGPT. Agora é uma corrida armamentista
  • Gosto que a internacionalização em francês do título daquela página seja “Créer art de mots avec IA”. É uma tradução horrível, quase no nível de “all your base are belong to us”
    Provavelmente é tradução por IA, mas, se eu fosse falante de francês, seria difícil confiar no produto de IA dessa página

    • Não sei por que culpar a tradução por IA
      Basta ver como o ChatGPT-4 lida diretamente com um pedido de tradução: https://chat.openai.com/share/8211a1f6-552b-4bf6-8f9c-bcbeb8...
      Também dá para ver como ele comenta um conjunto de traduções existentes: https://chat.openai.com/share/299e40ce-806b-4f0e-a889-cb2ee2...
      Não sei muito francês, mas minha experiência traduzindo com “IA” espanhol, que conheço em algum grau, e outros idiomas foi mais positiva do que com o Google Translate. Alguns meses atrás comparei traduções para o inglês lado a lado com o ChatGPT-4 e o Google Translate, e nem havia comparação
      Não está claro de onde a Microsoft tirou essa tradução ruim, mas, se tivesse sido traduzida com o ChatGPT-4, acho que teria sido menos horrível
    • A tradução para finlandês também é uma tradução palavra por palavra terrível. Isso não funciona de jeito nenhum ao traduzir para um idioma que quase não usa preposições
      Palavras como “for” ou “to” acabam substituídas por palavras de contextos completamente diferentes. Lembra tradução automática por volta de 2000
      Infelizmente, novos recursos do Windows, como a sincronização forçada com o OneDrive, também usam traduções igualmente ruins. Hoje em dia, o finlandês de e-mails de phishing é melhor que o do Windows
    • Lembro que a página de apresentação do chatbot de IA que o Bing usava também tinha uma tradução horrível. Era estranha até no nível dos caracteres, e tinha letras maiúsculas aleatórias. Sinceramente, até hoje não sei como aquilo foi possível
    • A qualidade da tradução é definitivamente muito ruim. Acabei de testar no Microsoft Translator, e a qualidade da tradução ficou boa. Muito estranho
  • Ele conseguiu fazer o Tux aparecer direito: https://www.bing.com/images/create/tux-the-penguin-lounging-...

  • Aparece “espera de 2 horas”, “criar novas imagens pode levar algum tempo” e “seus boosts acabaram, então a geração de imagens pode demorar mais que o normal”
    Quanto dinheiro a Microsoft está queimando para oferecer todos esses recursos?
    Da última vez que conferi, parecia que, mesmo distribuindo tanta coisa de graça, isso não estava fazendo muito efeito para o Bing, não era?
    Fico curioso se isso é “fazemos porque podemos” ou se é realmente lucrativo
    [0]: https://searchengineland.com/new-bing-google-market-share-si...

    • Empresas realmente grandes sempre se movem com planos estratégicos de longo prazo. Se algo parece generoso demais, em geral é isso mesmo
      É lucrativo? Provavelmente não. Mas esse é o ponto. Oferecer um serviço abaixo do preço de mercado, esperar até os concorrentes desaparecerem e então ganhar dinheiro
      Há muitos exemplos, mas algo como o Google Workspace vem à mente. Eles tornam a entrada fácil e barata, fazem pessoas e empresas se acostumarem ao produto e depois vão cozinhando o sapo lentamente
    • Esta vaga de emprego diz muita coisa
      https://jobs.careers.microsoft.com/global/en/job/1627555/Pri...
      Vi no Slashdot: https://m.slashdot.org/story/419681
    • Como as pessoas repetem vários prompts para obter o resultado que querem e mostram quais alternativas escolhem, isso também parece ter valor como material de treinamento
    • Talvez seja uma ferramenta de vendas para adoção do Bing por empresas sendo aplicada também a consumidores. Eles precisam de números de tráfego e uso e, quando conseguirem isso, podem colocar um negócio de anúncios por cima para gerar receita
    • Para a maioria das pessoas, o Bing é algo usado para pesquisar o Google
      Do mesmo jeito que o Edge é usado para instalar o Chrome
      Não importa quanto marketing ou quantos recursos adicionem, não dá para fazer esses cadáveres voltarem a andar