Nova Speech API da Apple oferece transcrição de voz em tempo real muito mais rápida que o Whisper

(macstories.net)

16 pontos por GN⁺ 2025-06-21 | 6 comentários | Compartilhar no WhatsApp

SpeechAnalyzer e SpeechTranscriber da Apple oferecem transcrição de voz em tempo real com velocidade muito superior e a mesma qualidade em comparação com o Whisper da OpenAI
Ao converter um arquivo de vídeo real de 34 minutos e 7 GB com a ferramenta de linha de comando Yap, ele foi transformado em um arquivo SRT em apenas 45 segundos, um resultado 2,2x mais rápido que o MacWhisper
Quase não há diferença de qualidade em relação a outras ferramentas como MacWhisper e VidCap, mas todas ainda apresentam pequenos erros ao lidar com nomes próprios e palavras compostas
Em tarefas repetitivas como vídeos longos para desenvolvedores, aulas e podcasts, o efeito de economia de tempo acumulada é muito grande
Após instalar o Yap no beta do macOS Tahoe (é necessária uma conta de desenvolvedor), já é possível usar a solução imediatamente, com expectativa de que ela substitua o Whisper em toda a plataforma Apple no futuro (iPhone, iPad, Mac e Vision Pro)

Apple Speech API vs Whisper: uma nova revolução de velocidade

Os novos SpeechAnalyzer e SpeechTranscriber, apresentados recentemente na WWDC, já estão incluídos nas versões beta mais recentes de macOS, iOS, iPadOS e Vision Pro
O autor vinha se incomodando bastante com a lentidão das ferramentas baseadas em Whisper, mas a nova API mostrou um desempenho de nível game changer no uso real
Com uma ferramenta simples de linha de comando (Yap), é possível converter rapidamente arquivos de áudio/vídeo para SRT e TXT
Vídeo 4K de 34 minutos e 7 GB → Yap: 45 segundos / MacWhisper(V3 Turbo): 1 minuto e 41 segundos / VidCap: 1 minuto e 55 segundos / MacWhisper(V2): 3 minutos e 55 segundos
Problemas de reconhecimento de CamelCase (ex.: AppStories) e nomes próprios aparecem de forma semelhante em todas as opções (e podem ser corrigidos facilmente no pós-processamento)

Comparação prática de velocidade e uso no fluxo de trabalho

Em um único vídeo, a diferença de 1 a 2 minutos pode parecer pequena, mas ao processar várias horas de vídeo, a economia acumulada de tempo se torna grande
Em tarefas de conversão em lote em grande volume, como vídeos do YouTube, é possível automatizar de forma eficiente em conjunto com ferramentas como yt-dlp
Para criadores, youtubers, estudantes e outros usuários, a solução oferece um fluxo de trabalho rápido para legendas, aulas e resumos
Há expectativa de que a combinação SpeechAnalyzer/SpeechTranscriber substitua rapidamente o Whisper

Aplicação prática e como instalar

Instalar o beta do macOS Tahoe (no momento, é necessária uma conta de desenvolvedor)
Baixar e instalar a ferramenta de linha de comando no repositório GitHub do Yap
Após executar o Yap, inserir o arquivo de áudio/vídeo → o arquivo convertido em SRT/TXT é gerado imediatamente
Mais informações técnicas podem ser consultadas na documentação oficial da Apple sobre a Speech API e no vídeo da WWDC (nº 277)

Conclusão e perspectivas

A Apple Speech API mostra uma vantagem esmagadora em velocidade sobre o Whisper, mantendo ao mesmo tempo um nível de qualidade equivalente
Para usuários que usam principalmente fluxos de trabalho de reconhecimento/transcrição de voz nas plataformas Apple, há grande chance de ela se tornar o modelo padrão
Espera-se máxima eficiência acumulada em tarefas de automação repetitivas, além de ganhos de produtividade no trabalho

6 comentários

brainer 2025-06-21

Depois, acho que também vou precisar testar em coreano.

howudoin 2025-06-21

Só o fato de ser uma plataforma da Apple já passa uma mentalidade fechada, então não me anima.

gera1d 2025-06-21

Não gosto de ver comentários em tom informal, mas não tem bloqueio.

jk34011 2025-06-23

Pensando assim, o comentário que você deixou também está em tom informal, viu;;

crawler 2025-06-22

Pode ser que você não goste de criticarem a Apple, mas isso não é linguagem informal, não.
Isso é o estilo telegráfico, e os próprios resumos padrão do GeekNews usam esse estilo; fico me perguntando como você tem lido os textos...

2025-06-23

[Este comentário foi ocultado.]