O que a IA multimodal pode fazer além de gerar imagens
(blog.naver.com)A IA multimodal pode, além da geração de imagens, completar imagens inacabadas, prever a próxima fala em vídeos, fazer busca integrada de texto+imagem, traduzir quadrinhos, prever o risco de desenvolvimento de câncer e detectar discurso de ódio.
- Completar imagens inacabadas
- O NUWA, desenvolvido pela Microsoft Research Asia e pela Universidade de Pequim, apresentou essa função
- Ao receber uma imagem incompleta, ele preenche o restante e a finaliza
- Ao receber um esboço, gera uma imagem ou vídeo correspondente
- Também prevê e apresenta a próxima cena de um vídeo
- Prever a próxima fala em vídeos
- Um modelo desenvolvido pelo Google Research prevê a próxima fala quando recebe uma cena de vídeo e a transcrição do que o falante disse
- O vídeo e o texto são usados como “contexto” para prever a fala do locutor
- Busca por texto+imagem
- O MUM, desenvolvido pelo Google, consegue entender uma imagem enviada pelo usuário, como uma foto de bota de trilha, e conectá-la à pergunta “Posso usar este calçado para escalar o Monte Fuji?”, informando que “a bota de trilha deve funcionar bem”
- Também pode apresentar blogs com listas de equipamentos recomendados
- Tradução de quadrinhos
- O “framework de tradução multimodal com reconhecimento de contexto”, apresentado por pesquisadores da Universidade de Tóquio e da empresa japonesa de tradução automática Mantra, consegue traduzir quadrinhos para outros idiomas considerando ao mesmo tempo as ilustrações e os diálogos
- Ele extrai de imagens de mangás japoneses informações de contexto, como cenas, ordem de leitura dos diálogos e informações visuais
- Com essas informações, traduz os diálogos dentro dos balões do japonês para o inglês
- Previsão do risco de desenvolvimento de câncer
- Uma IA multimodal desenvolvida por pesquisadores do Brigham and Women’s Hospital da Faculdade de Medicina de Harvard pode prever a possibilidade de desenvolvimento de câncer com base em fotos de tecido celular e dados genômicos em texto
- Os pesquisadores treinaram dois modelos separados com imagens microscópicas de tecido celular e dados genômicos baseados em texto
- Em seguida, os dois modelos foram integrados em um único sistema para prever se “o paciente tem risco alto ou baixo de desenvolver vários tipos de câncer”
- Aprender a “imagem” de um objeto específico e reconhecer os “dados 3D” ou “vídeo” do mesmo objeto
- O Omnivore, apresentado pela Meta, conseguiu reconhecer o modelo 3D de uma abóbora mesmo tendo aprendido apenas com imagens de abóboras
- Também conseguiu reconhecer vídeos de iates mesmo tendo aprendido apenas com imagens de iates
- Detectar discurso de ódio
- A IA multimodal também pode ajudar a detectar discurso de ódio em postagens de redes sociais ao considerar tanto a imagem quanto o texto do conteúdo
- O discurso de ódio também pode aparecer em forma de meme, combinando imagem e texto
- A Meta explica que, para a IA reconhecer “se um meme é odioso ou não”, é preciso considerar tanto a imagem do meme quanto seu conteúdo textual
- Um meme com a foto de um deserto vazio e a frase “Veja quantas pessoas te amam” é sutilmente agressivo
- Para que a IA descubra o significado real de um meme com discurso de ódio, ela precisa analisá-lo como um todo
- É necessário combinar imagem e texto e entender como o significado muda quando eles aparecem juntos
- Espera-se que a IA multimodal desempenhe essa função ao processar imagem e texto simultaneamente
- A Meta vê sua capacidade de compreender de forma abrangente o conteúdo de postagens em redes sociais para reconhecer discurso de ódio evoluindo para IA multimodal
- A Meta criou e compartilhou o dataset
Hateful Memes, que ajuda no desenvolvimento de sistemas para identificar discurso de ódio multimodal
Ainda não há comentários.