Stanza - Biblioteca NLP open source para Python

(stanfordnlp.github.io)

7 pontos por xguru 2020-03-25 | 2 comentários | Compartilhar no WhatsApp

Toolkit de processamento de linguagem natural independente de idioma com suporte a 66 idiomas, incluindo coreano
Baseado em PyTorch
Pipeline neural completo para análise de texto
Tokenização, expansão de tokens de múltiplas palavras (MWT), lematização
Etiquetagem de classe gramatical (POS) e morfológica, análise de dependência, reconhecimento de entidades nomeadas
Desenvolvido e disponibilizado pelo Stanford NLP Group

→ Inclui também uma interface compatível com o CoreNLP Java, divulgado anteriormente

2 comentários

sftblw 2020-03-25

Pelo visto, o NER (reconhecimento de entidades nomeadas) infelizmente suporta poucas línguas.

O coreano não está incluído, e dizem que há suporte para 8 idiomas: árabe, chinês, alemão, inglês, francês, neerlandês e espanhol.

xguru 2020-03-25

Há dois modelos em coreano.

Parece que trouxeram o Kaist e o GSD, entre os registrados no Universal Dependencies (UD) https://universaldependencies.org/, por terem muitos tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Biblioteca NLP open source para Python

Leituras relacionadas

2 comentários