O que a IA multimodal pode fazer além de gerar imagens

(blog.naver.com)

12 pontos por ironlung 2022-09-22 | Ainda não há comentários. | Compartilhar no WhatsApp

A IA multimodal pode, além da geração de imagens, completar imagens inacabadas, prever a próxima fala em vídeos, fazer busca integrada de texto+imagem, traduzir quadrinhos, prever o risco de desenvolvimento de câncer e detectar discurso de ódio.

Completar imagens inacabadas

O NUWA, desenvolvido pela Microsoft Research Asia e pela Universidade de Pequim, apresentou essa função
Ao receber uma imagem incompleta, ele preenche o restante e a finaliza
Ao receber um esboço, gera uma imagem ou vídeo correspondente
Também prevê e apresenta a próxima cena de um vídeo

Prever a próxima fala em vídeos

Um modelo desenvolvido pelo Google Research prevê a próxima fala quando recebe uma cena de vídeo e a transcrição do que o falante disse
O vídeo e o texto são usados como “contexto” para prever a fala do locutor

Busca por texto+imagem

O MUM, desenvolvido pelo Google, consegue entender uma imagem enviada pelo usuário, como uma foto de bota de trilha, e conectá-la à pergunta “Posso usar este calçado para escalar o Monte Fuji?”, informando que “a bota de trilha deve funcionar bem”
Também pode apresentar blogs com listas de equipamentos recomendados

Tradução de quadrinhos

O “framework de tradução multimodal com reconhecimento de contexto”, apresentado por pesquisadores da Universidade de Tóquio e da empresa japonesa de tradução automática Mantra, consegue traduzir quadrinhos para outros idiomas considerando ao mesmo tempo as ilustrações e os diálogos
Ele extrai de imagens de mangás japoneses informações de contexto, como cenas, ordem de leitura dos diálogos e informações visuais
Com essas informações, traduz os diálogos dentro dos balões do japonês para o inglês

Previsão do risco de desenvolvimento de câncer

Uma IA multimodal desenvolvida por pesquisadores do Brigham and Women’s Hospital da Faculdade de Medicina de Harvard pode prever a possibilidade de desenvolvimento de câncer com base em fotos de tecido celular e dados genômicos em texto
Os pesquisadores treinaram dois modelos separados com imagens microscópicas de tecido celular e dados genômicos baseados em texto
Em seguida, os dois modelos foram integrados em um único sistema para prever se “o paciente tem risco alto ou baixo de desenvolver vários tipos de câncer”

Aprender a “imagem” de um objeto específico e reconhecer os “dados 3D” ou “vídeo” do mesmo objeto

O Omnivore, apresentado pela Meta, conseguiu reconhecer o modelo 3D de uma abóbora mesmo tendo aprendido apenas com imagens de abóboras
Também conseguiu reconhecer vídeos de iates mesmo tendo aprendido apenas com imagens de iates

Detectar discurso de ódio

A IA multimodal também pode ajudar a detectar discurso de ódio em postagens de redes sociais ao considerar tanto a imagem quanto o texto do conteúdo
O discurso de ódio também pode aparecer em forma de meme, combinando imagem e texto
A Meta explica que, para a IA reconhecer “se um meme é odioso ou não”, é preciso considerar tanto a imagem do meme quanto seu conteúdo textual
Um meme com a foto de um deserto vazio e a frase “Veja quantas pessoas te amam” é sutilmente agressivo
Para que a IA descubra o significado real de um meme com discurso de ódio, ela precisa analisá-lo como um todo
É necessário combinar imagem e texto e entender como o significado muda quando eles aparecem juntos
Espera-se que a IA multimodal desempenhe essa função ao processar imagem e texto simultaneamente
A Meta vê sua capacidade de compreender de forma abrangente o conteúdo de postagens em redes sociais para reconhecer discurso de ódio evoluindo para IA multimodal
A Meta criou e compartilhou o dataset Hateful Memes, que ajuda no desenvolvimento de sistemas para identificar discurso de ódio multimodal

O que a IA multimodal pode fazer além de gerar imagens

Leituras relacionadas

Ainda não há comentários.