LANISTR: uma nova estrutura para aprender com dados estruturados e não estruturados

(research.google)

6 pontos por brainer 2024-05-23 | Ainda não há comentários. | Compartilhar no WhatsApp

• LANISTR é uma nova estrutura que possibilita o aprendizado multimodal ao ingerir dados não estruturados (imagens, texto) e estruturados (séries temporais, tabelas), realizando alinhamento e fusão e, por fim, gerando previsões.

• Em particular, resolve problemas como overfitting e generalização abaixo do ideal ao treinar com conjuntos de dados de tamanho limitado, além da questão de modalidades ausentes em dados multimodais com duas ou mais modalidades.

• A arquitetura do LANISTR é composta por codificadores específicos por modalidade e por um módulo codificador-decodificador multimodal que atua como mecanismo de fusão, usando atenção cruzada para capturar relações entre modalidades.

• O núcleo da metodologia do LANISTR está enraizado no treinamento baseado em mascaramento, aplicado tanto no nível unimodal quanto no multimodal, e há dois tipos de objetivos de pré-treinamento: objetivos de mascaramento unimodal e perda de mascaramento multimodal baseada em similaridade.

• O LANISTR alcança resultados de ponta em várias tarefas desafiadoras, superando baselines competitivas tanto no conjunto de dados médicos MIMIC-IV quanto nos dados de avaliações da Amazon.

• Demonstra a importância de aprender com dados rotulados e não rotulados em conjunto para dados estruturados e não estruturados, além da capacidade de ingerir ativamente todas as modalidades como elas são, aproveitar grandes volumes de dados não rotulados durante o pré-treinamento não supervisionado e lidar de forma fluida com modalidades ausentes.

• O LANISTR tem aplicações potenciais em vários domínios, incluindo diagnóstico médico e previsão de demanda no varejo.

LANISTR: uma nova estrutura para aprender com dados estruturados e não estruturados

Leituras relacionadas

Ainda não há comentários.