Awesome reconhecimento de fala em coreano
(github.com/rtzr)(Parece mais adequado para SHOW, mas como não fui eu quem fez, estou publicando em NEWS em vez de SHOW.)
====
Este é um repositório que mede a taxa de erro (Character Error Rate) de vários conjuntos de teste disponibilizados pelo AI-Hub para cada API de reconhecimento de fala, usando APIs de sites para desenvolvedores onde é possível experimentar reconhecimento de fala em coreano. Este repositório aborda os seguintes conteúdos.
- Medição da taxa de erro (Character Error Rate) nos conjuntos de teste do AI Hub usando várias APIs de reconhecimento de fala, como Return Zero (Riteonjero), Google, OpenAI Whisper, ETRI e Naver
- Introdução aos métodos de avaliação de reconhecimento de fala em coreano
====
Este projeto foi publicado para avaliar objetivamente o desempenho de várias APIs de reconhecimento de fala. A proposta é analisar as diferenças de desempenho entre os diversos serviços de reconhecimento de fala disponíveis no mercado e, com isso, oferecer melhor acessibilidade para usuários e desenvolvedores.
Os materiais publicados em forma de artigo geralmente avaliam desempenho apenas para inglês e divulgam o WER (Word Error Rate) no paperswithcode. No entanto, para reconhecimento de fala em coreano, a avaliação adequada deve ser feita com CER (Character Error Rate), e eu não conseguia encontrar um leaderboard bem organizado.
O KsponSpeech foi disponibilizado pela primeira vez em 2018, mas como apenas cidadãos coreanos podem acessar o AI-Hub e há poucos coreanos pesquisando e desenvolvendo reconhecimento de fala, ele não pôde ser amplamente disponibilizado em diversos recursos.
A Return Zero pesquisa e desenvolve reconhecimento de fala internamente e, para que mais pessoas possam acessar esses recursos, contribuiu com o KsponSpeech para o speechbrain, muito usado na área de reconhecimento de fala, de modo que hoje ele pode ser usado na recipe mais recente e também pode ser acessado no huggingface.
Recentemente, diversos tipos de dados de voz foram disponibilizados no AI-Hub, e achei que avaliar e divulgar até onde os motores de reconhecimento de fala em coreano evoluíram nesses diferentes conjuntos de dados ajudaria no avanço do reconhecimento de fala em coreano.
Ainda não há comentários.