7 pontos por xguru 2020-03-25 | 2 comentários | Compartilhar no WhatsApp
  • Toolkit de processamento de linguagem natural independente de idioma com suporte a 66 idiomas, incluindo coreano

  • Baseado em PyTorch

  • Pipeline neural completo para análise de texto

  • Tokenização, expansão de tokens de múltiplas palavras (MWT), lematização

  • Etiquetagem de classe gramatical (POS) e morfológica, análise de dependência, reconhecimento de entidades nomeadas

  • Desenvolvido e disponibilizado pelo Stanford NLP Group

→ Inclui também uma interface compatível com o CoreNLP Java, divulgado anteriormente

2 comentários

 
sftblw 2020-03-25

Pelo visto, o NER (reconhecimento de entidades nomeadas) infelizmente suporta poucas línguas.

O coreano não está incluído, e dizem que há suporte para 8 idiomas: árabe, chinês, alemão, inglês, francês, neerlandês e espanhol.

 
xguru 2020-03-25

Há dois modelos em coreano.

Parece que trouxeram o Kaist e o GSD, entre os registrados no Universal Dependencies (UD) https://universaldependencies.org/, por terem muitos tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html