9 pontos por mrchypark 2022-04-03 | 1 comentários | Compartilhar no WhatsApp

elbird é, pessoalmente, o pacote que representa o objetivo final do kiwigo que publiquei anteriormente.

No R, a situação é dividida principalmente entre vários pacotes de análise morfológica, como o KoNLP (baseado em Java, atualmente * removido do CRAN) e o RcppMecab (baseado em mecab, rápido, mas sem restaurar o texto original), além de alguns outros pacotes.

Em um cenário em que o KoNLP era a principal opção, a dificuldade de instalar o JDK e o fato de ele não estar atualmente no CRAN se combinaram, então venho me esforçando para publicar no CRAN um novo pacote de análise morfológica que seja fácil de instalar e continue sendo mantido.

Foi então que conheci o kiwi, que está sendo desenvolvido em C++ e tem excelente portabilidade.

Depois de muito tempo, finalmente consegui criar um pacote R envolvendo as funcionalidades em C++ e concluir seu registro no CRAN.

Atualmente a versão 0.1.1 está registrada, e em breve pretendo atualizá-la para a 0.1.2.
As funcionalidades implementadas no momento estão em um nível que permite o uso básico, e pretendo alinhar a versão com a do kiwi depois de implementar todos os recursos do kiwi.

No README há exemplos básicos de código de uso, e foram consideradas funcionalidades para uso em conjunto com o tidytext, um pacote de análise de texto muito conhecido no ecossistema R.

Agradeço muito o interesse de todos.

* CRAN: repositório oficial de pacotes do R. Este é um repositório gerenciado que passa por testes automáticos e revisão dos mantenedores, adota uma política evergreen (cancelamento do registro em caso de falha nos testes) e por isso exige manutenção contínua.

1 comentários

 
mrchypark 2022-04-03

Tenho pouca experiência com desenvolvimento e compilação em C++, então também preciso de bastante ajuda nessa parte.
Se houver alguém que possa dar conselhos, peço que consulte a aba de issues.