16 pontos por GN⁺ 2025-06-21 | 6 comentários | Compartilhar no WhatsApp
  • SpeechAnalyzer e SpeechTranscriber da Apple oferecem transcrição de voz em tempo real com velocidade muito superior e a mesma qualidade em comparação com o Whisper da OpenAI
  • Ao converter um arquivo de vídeo real de 34 minutos e 7 GB com a ferramenta de linha de comando Yap, ele foi transformado em um arquivo SRT em apenas 45 segundos, um resultado 2,2x mais rápido que o MacWhisper
  • Quase não há diferença de qualidade em relação a outras ferramentas como MacWhisper e VidCap, mas todas ainda apresentam pequenos erros ao lidar com nomes próprios e palavras compostas
  • Em tarefas repetitivas como vídeos longos para desenvolvedores, aulas e podcasts, o efeito de economia de tempo acumulada é muito grande
  • Após instalar o Yap no beta do macOS Tahoe (é necessária uma conta de desenvolvedor), já é possível usar a solução imediatamente, com expectativa de que ela substitua o Whisper em toda a plataforma Apple no futuro (iPhone, iPad, Mac e Vision Pro)

Apple Speech API vs Whisper: uma nova revolução de velocidade

  • Os novos SpeechAnalyzer e SpeechTranscriber, apresentados recentemente na WWDC, já estão incluídos nas versões beta mais recentes de macOS, iOS, iPadOS e Vision Pro
  • O autor vinha se incomodando bastante com a lentidão das ferramentas baseadas em Whisper, mas a nova API mostrou um desempenho de nível game changer no uso real
  • Com uma ferramenta simples de linha de comando (Yap), é possível converter rapidamente arquivos de áudio/vídeo para SRT e TXT
  • Vídeo 4K de 34 minutos e 7 GB → Yap: 45 segundos / MacWhisper(V3 Turbo): 1 minuto e 41 segundos / VidCap: 1 minuto e 55 segundos / MacWhisper(V2): 3 minutos e 55 segundos
  • Problemas de reconhecimento de CamelCase (ex.: AppStories) e nomes próprios aparecem de forma semelhante em todas as opções (e podem ser corrigidos facilmente no pós-processamento)

Comparação prática de velocidade e uso no fluxo de trabalho

  • Em um único vídeo, a diferença de 1 a 2 minutos pode parecer pequena, mas ao processar várias horas de vídeo, a economia acumulada de tempo se torna grande
  • Em tarefas de conversão em lote em grande volume, como vídeos do YouTube, é possível automatizar de forma eficiente em conjunto com ferramentas como yt-dlp
  • Para criadores, youtubers, estudantes e outros usuários, a solução oferece um fluxo de trabalho rápido para legendas, aulas e resumos
  • Há expectativa de que a combinação SpeechAnalyzer/SpeechTranscriber substitua rapidamente o Whisper

Aplicação prática e como instalar

  • Instalar o beta do macOS Tahoe (no momento, é necessária uma conta de desenvolvedor)
  • Baixar e instalar a ferramenta de linha de comando no repositório GitHub do Yap
  • Após executar o Yap, inserir o arquivo de áudio/vídeo → o arquivo convertido em SRT/TXT é gerado imediatamente
  • Mais informações técnicas podem ser consultadas na documentação oficial da Apple sobre a Speech API e no vídeo da WWDC (nº 277)

Conclusão e perspectivas

  • A Apple Speech API mostra uma vantagem esmagadora em velocidade sobre o Whisper, mantendo ao mesmo tempo um nível de qualidade equivalente
  • Para usuários que usam principalmente fluxos de trabalho de reconhecimento/transcrição de voz nas plataformas Apple, há grande chance de ela se tornar o modelo padrão
  • Espera-se máxima eficiência acumulada em tarefas de automação repetitivas, além de ganhos de produtividade no trabalho

6 comentários

 
brainer 2025-06-21

Depois, acho que também vou precisar testar em coreano.

 
howudoin 2025-06-21

Só o fato de ser uma plataforma da Apple já passa uma mentalidade fechada, então não me anima.

 
gera1d 2025-06-21

Não gosto de ver comentários em tom informal, mas não tem bloqueio.

 
jk34011 2025-06-23

Pensando assim, o comentário que você deixou também está em tom informal, viu;;

 
crawler 2025-06-22

Pode ser que você não goste de criticarem a Apple, mas isso não é linguagem informal, não.
Isso é o estilo telegráfico, e os próprios resumos padrão do GeekNews usam esse estilo; fico me perguntando como você tem lido os textos...

 
[Este comentário foi ocultado.]