IBM e NASA desenvolvem modelo de linguagem para melhorar o acesso ao conhecimento científico

(research.ibm.com)

4 pontos por GN⁺ 2024-03-15 | Ainda não há comentários. | Compartilhar no WhatsApp

IBM e NASA constroem modelo de linguagem para melhorar a acessibilidade do conhecimento científico

IBM e NASA iniciaram uma nova colaboração para criar modelos de linguagem eficientes a partir da literatura científica.
Baseados na arquitetura Transformer, esses modelos podem ser usados em diversas aplicações, como classificação, extração de entidades, resposta a perguntas e recuperação de informações.
Eles alcançam alto desempenho em várias áreas e podem responder rapidamente, além de terem sido disponibilizados como open source no Hugging Face para benefício da comunidade científica e acadêmica.

Modelos de linguagem baseados em Transformer, incluindo BERT, RoBERTa e as famílias de modelos Slate e Granite da IBM, são extremamente importantes para tarefas de compreensão de linguagem natural.
Esses modelos se baseiam em uma compreensão estatística de como a linguagem funciona e são treinados por meio da tarefa de modelagem de linguagem mascarada, que reconstrói frases restaurando palavras ocultas.
O tokenizador, que divide palavras em unidades que o modelo pode usar, desempenha um papel importante no aprendizado de um vocabulário amplo.

IBM e NASA treinaram os modelos com 60 bilhões de tokens de um corpus de dados de astrofísica, ciência planetária, ciências da Terra, física solar e ciências biológicas e físicas.
Diferentemente de tokenizadores genéricos, o tokenizador especializado desenvolvido consegue reconhecer termos científicos como "axes" e "polycrystalline".
Mais da metade dos 50.000 tokens processados pelo modelo são exclusivos em comparação com o modelo RoBERTa do Hugging Face.

O modelo IBM-NASA treinado com vocabulário especializado de domínio superou o modelo aberto RoBERTa em 5% no popular benchmark BLURB, usado para avaliar tarefas biomédicas.
Também apresentou melhora de 2,4% na pontuação F1 em um benchmark interno de resposta a perguntas científicas e de 5,5% em um teste interno de reconhecimento de entidades em ciências da Terra.

Os modelos encoder treinados podem ser ajustados finamente para muitas tarefas de linguagem não generativas e podem produzir embeddings ricos em informação para recuperação de documentos.

Usando cerca de 268 milhões de pares de texto, esses modelos mostraram excelente desempenho na recuperação de trechos relevantes em um conjunto de teste de cerca de 400 perguntas curadas pela NASA.
Melhorias significativas foram obtidas graças a dados de treinamento especializados, um tokenizador personalizado e a metodologia de treinamento.

Seguindo o compromisso da IBM e da NASA com uma IA transparente, os dois modelos estão disponíveis no Hugging Face.
O modelo encoder pode receber mais fine-tuning para aplicações no setor espacial, enquanto o modelo de recuperação pode ser usado em aplicações de recuperação de informações para RAG.

Essa colaboração parece ter grande potencial para melhorar o acesso ao conhecimento científico. Em especial, o desenvolvimento de modelos de linguagem capazes de compreender e processar a terminologia especializada do campo científico deve ser muito útil para pesquisadores.
Como os modelos são oferecidos como open source, isso cria uma oportunidade para que diversos pesquisadores e desenvolvedores os utilizem e aprimorem livremente, podendo contribuir para a democratização da pesquisa em IA.
No entanto, para aproveitar esses modelos avançados de forma eficaz, pode ser necessário dispor de recursos computacionais suficientes e conhecimento especializado em modelagem de IA. Para alguns pesquisadores ou instituições, isso pode representar uma barreira de entrada.
Entre os pontos a considerar ao adotar essa tecnologia estão a complexidade do modelo, o volume de dados necessário para o treinamento e o desempenho do hardware capaz de processá-lo. Os benefícios de escolher esse modelo incluem uma compreensão mais profunda da literatura científica e uma busca de informações mais rápida, mas isso exige investimento em custo e recursos.