Awesome reconhecimento de fala em coreano

(github.com/rtzr)

14 pontos por spilist2 2023-08-23 | Ainda não há comentários. | Compartilhar no WhatsApp

(Parece mais adequado para SHOW, mas como não fui eu quem fez, estou publicando em NEWS em vez de SHOW.)

====

Este é um repositório que mede a taxa de erro (Character Error Rate) de vários conjuntos de teste disponibilizados pelo AI-Hub para cada API de reconhecimento de fala, usando APIs de sites para desenvolvedores onde é possível experimentar reconhecimento de fala em coreano. Este repositório aborda os seguintes conteúdos.

Medição da taxa de erro (Character Error Rate) nos conjuntos de teste do AI Hub usando várias APIs de reconhecimento de fala, como Return Zero (Riteonjero), Google, OpenAI Whisper, ETRI e Naver
Introdução aos métodos de avaliação de reconhecimento de fala em coreano

====

Este projeto foi publicado para avaliar objetivamente o desempenho de várias APIs de reconhecimento de fala. A proposta é analisar as diferenças de desempenho entre os diversos serviços de reconhecimento de fala disponíveis no mercado e, com isso, oferecer melhor acessibilidade para usuários e desenvolvedores.

Os materiais publicados em forma de artigo geralmente avaliam desempenho apenas para inglês e divulgam o WER (Word Error Rate) no paperswithcode. No entanto, para reconhecimento de fala em coreano, a avaliação adequada deve ser feita com CER (Character Error Rate), e eu não conseguia encontrar um leaderboard bem organizado.

O KsponSpeech foi disponibilizado pela primeira vez em 2018, mas como apenas cidadãos coreanos podem acessar o AI-Hub e há poucos coreanos pesquisando e desenvolvendo reconhecimento de fala, ele não pôde ser amplamente disponibilizado em diversos recursos.

A Return Zero pesquisa e desenvolve reconhecimento de fala internamente e, para que mais pessoas possam acessar esses recursos, contribuiu com o KsponSpeech para o speechbrain, muito usado na área de reconhecimento de fala, de modo que hoje ele pode ser usado na recipe mais recente e também pode ser acessado no huggingface.

Recentemente, diversos tipos de dados de voz foram disponibilizados no AI-Hub, e achei que avaliar e divulgar até onde os motores de reconhecimento de fala em coreano evoluíram nesses diferentes conjuntos de dados ajudaria no avanço do reconhecimento de fala em coreano.

Awesome reconhecimento de fala em coreano

Leituras relacionadas

Ainda não há comentários.