2 pontos por GN⁺ 2024-08-10 | 3 comentários | Compartilhar no WhatsApp
  • "Web app" gratuito para transcrever facilmente entrevistas gravadas
  • Principais recursos
    • Não é preciso alternar entre o player de vídeo e o editor de documentos. Tudo é feito direto no navegador
    • É possível pausar, retroceder e avançar sem tirar as mãos do teclado
    • Dá para navegar facilmente pela transcrição com timestamps interativos
    • Salvamento automático no armazenamento do navegador a cada segundo
    • Privacidade - os arquivos de áudio e as transcrições não saem do computador
    • Exportação para Markdown, texto simples e Google Docs
    • Suporte a arquivos de vídeo por meio do player integrado
    • Open source sob a licença MIT

Resumo do GN⁺

  • oTranscribe é um web app gratuito que simplifica o processo de transcrever gravações de entrevistas
  • O usuário pode controlar o áudio sem tirar as mãos do teclado, e a transcrição é salva automaticamente a cada segundo
  • O app prioriza a privacidade, e os arquivos de áudio e as transcrições não saem do computador
  • Oferece exportação para Markdown, texto simples e Google Docs, permitindo usar a transcrição em vários formatos
  • Outros projetos com recursos semelhantes incluem Express Scribe e TranscribeMe

3 comentários

 
xguru 2024-08-11

Hum? Fiquei me perguntando como isso seria possível no navegador... mas então é só uma ferramenta para ouvir e transcrever manualmente, sem IA.

Hoje em dia o Whisper reconhece bem coreano, então fica a dúvida de por que usar algo assim...

 
znjadong 2024-08-14

Quando há muitos falantes, a pronúncia é pouco clara ou a qualidade da gravação não é boa, pode ser difícil contar com a ajuda da IA. E também há muitos casos em que é necessário um nível de qualidade superior a algo que simplesmente funcione “bem o suficiente”.

 
GN⁺ 2024-08-10
Opiniões do Hacker News
  • Transcreveu entrevistas usando o Whisper-diarization do MahmoudAshraf97

    • Gera arquivos separando as falas de vários participantes por número de falante
    • Também gera arquivos com timestamps, que podem ser usados como legendas
  • OTranscribe não é uma ferramenta de reconhecimento automático de fala, mas uma UI para ajudar na transcrição manual

  • Está procurando um app que faça transcrição palavra por palavra em tempo real, funcione localmente e possa usar modelos open source modernos

    • Usa o otter.ai, mas ele exige conexão com a internet e tem problemas de atraso na transcrição
    • Apps baseados em Whisper precisam processar a gravação inteira de uma vez
    • O framework de reconhecimento de fala da Apple ainda é um pouco limitado no momento
  • É surpreendente que não haja integração com IA

    • Mesmo resultados de IA precisam de revisão e QA para ter qualidade de publicação
    • É necessário fazer tarefas como identificar falantes e corrigir sobrenomes incomuns
  • O oTranscribe não converte automaticamente áudio em texto

    • É uma ferramenta que torna a transcrição manual menos sofrida
  • Recomendação do serviço TurboScribe

    • Transcrição gratuita de até 3 arquivos por dia (30 minutos por arquivo)
    • O plano pago permite transcrever até 10 horas por arquivo
    • Suporta reconhecimento de falantes, vários formatos de exportação e inclui ferramentas de IA
  • Experimento de transcrição de entrevista usando o Gemini-1.5-Pro-Experiment-0801

    • O resultado ficou quase perfeito
    • Foi impressionante ele colocar certas palavras entre aspas
  • Está usando o app gratuito para iOS do Aiko

    • Usa o modelo Whisper da OpenAI
    • Pode exportar em formatos como SRT, TXT, CSV e JSON
  • Está desenvolvendo um app open source para macOS com Whisper e pyannote

    • Funciona, mas é lento
    • Está tendo dificuldade para converter o Pyannote para CoreML
    • Contribuições são bem-vindas
  • Está desenvolvendo uma ferramenta com IA incluída

    • Faz download do YouTube, transcreve com Vosk e separa falantes com pyannote
    • Armazena o conteúdo transcrito em um mecanismo de busca, falta implementar o webapp
    • Espera colaborar