Stanza - Biblioteca NLP open source para Python
(stanfordnlp.github.io)-
Toolkit de processamento de linguagem natural independente de idioma com suporte a 66 idiomas, incluindo coreano
-
Baseado em PyTorch
-
Pipeline neural completo para análise de texto
-
Tokenização, expansão de tokens de múltiplas palavras (MWT), lematização
-
Etiquetagem de classe gramatical (POS) e morfológica, análise de dependência, reconhecimento de entidades nomeadas
-
Desenvolvido e disponibilizado pelo Stanford NLP Group
→ Inclui também uma interface compatível com o CoreNLP Java, divulgado anteriormente
2 comentários
Pelo visto, o NER (reconhecimento de entidades nomeadas) infelizmente suporta poucas línguas.
O coreano não está incluído, e dizem que há suporte para 8 idiomas: árabe, chinês, alemão, inglês, francês, neerlandês e espanhol.
Há dois modelos em coreano.
Parece que trouxeram o Kaist e o GSD, entre os registrados no Universal Dependencies (UD) https://universaldependencies.org/, por terem muitos tokens.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html