12 pontos por ironlung 2022-09-22 | Ainda não há comentários. | Compartilhar no WhatsApp

A IA multimodal pode, além da geração de imagens, completar imagens inacabadas, prever a próxima fala em vídeos, fazer busca integrada de texto+imagem, traduzir quadrinhos, prever o risco de desenvolvimento de câncer e detectar discurso de ódio.

  1. Completar imagens inacabadas
  • O NUWA, desenvolvido pela Microsoft Research Asia e pela Universidade de Pequim, apresentou essa função
  • Ao receber uma imagem incompleta, ele preenche o restante e a finaliza
  • Ao receber um esboço, gera uma imagem ou vídeo correspondente
  • Também prevê e apresenta a próxima cena de um vídeo
  1. Prever a próxima fala em vídeos
  • Um modelo desenvolvido pelo Google Research prevê a próxima fala quando recebe uma cena de vídeo e a transcrição do que o falante disse
  • O vídeo e o texto são usados como “contexto” para prever a fala do locutor
  1. Busca por texto+imagem
  • O MUM, desenvolvido pelo Google, consegue entender uma imagem enviada pelo usuário, como uma foto de bota de trilha, e conectá-la à pergunta “Posso usar este calçado para escalar o Monte Fuji?”, informando que “a bota de trilha deve funcionar bem”
  • Também pode apresentar blogs com listas de equipamentos recomendados
  1. Tradução de quadrinhos
  • O “framework de tradução multimodal com reconhecimento de contexto”, apresentado por pesquisadores da Universidade de Tóquio e da empresa japonesa de tradução automática Mantra, consegue traduzir quadrinhos para outros idiomas considerando ao mesmo tempo as ilustrações e os diálogos
  • Ele extrai de imagens de mangás japoneses informações de contexto, como cenas, ordem de leitura dos diálogos e informações visuais
  • Com essas informações, traduz os diálogos dentro dos balões do japonês para o inglês
  1. Previsão do risco de desenvolvimento de câncer
  • Uma IA multimodal desenvolvida por pesquisadores do Brigham and Women’s Hospital da Faculdade de Medicina de Harvard pode prever a possibilidade de desenvolvimento de câncer com base em fotos de tecido celular e dados genômicos em texto
  • Os pesquisadores treinaram dois modelos separados com imagens microscópicas de tecido celular e dados genômicos baseados em texto
  • Em seguida, os dois modelos foram integrados em um único sistema para prever se “o paciente tem risco alto ou baixo de desenvolver vários tipos de câncer”
  1. Aprender a “imagem” de um objeto específico e reconhecer os “dados 3D” ou “vídeo” do mesmo objeto
  • O Omnivore, apresentado pela Meta, conseguiu reconhecer o modelo 3D de uma abóbora mesmo tendo aprendido apenas com imagens de abóboras
  • Também conseguiu reconhecer vídeos de iates mesmo tendo aprendido apenas com imagens de iates
  1. Detectar discurso de ódio
  • A IA multimodal também pode ajudar a detectar discurso de ódio em postagens de redes sociais ao considerar tanto a imagem quanto o texto do conteúdo
  • O discurso de ódio também pode aparecer em forma de meme, combinando imagem e texto
  • A Meta explica que, para a IA reconhecer “se um meme é odioso ou não”, é preciso considerar tanto a imagem do meme quanto seu conteúdo textual
  • Um meme com a foto de um deserto vazio e a frase “Veja quantas pessoas te amam” é sutilmente agressivo
  • Para que a IA descubra o significado real de um meme com discurso de ódio, ela precisa analisá-lo como um todo
  • É necessário combinar imagem e texto e entender como o significado muda quando eles aparecem juntos
  • Espera-se que a IA multimodal desempenhe essa função ao processar imagem e texto simultaneamente
  • A Meta vê sua capacidade de compreender de forma abrangente o conteúdo de postagens em redes sociais para reconhecer discurso de ódio evoluindo para IA multimodal
  • A Meta criou e compartilhou o dataset Hateful Memes, que ajuda no desenvolvimento de sistemas para identificar discurso de ódio multimodal

Ainda não há comentários.

Ainda não há comentários.