- SpeechAnalyzer e SpeechTranscriber da Apple oferecem transcrição de voz em tempo real com velocidade muito superior e a mesma qualidade em comparação com o Whisper da OpenAI
- Ao converter um arquivo de vídeo real de 34 minutos e 7 GB com a ferramenta de linha de comando Yap, ele foi transformado em um arquivo SRT em apenas 45 segundos, um resultado 2,2x mais rápido que o MacWhisper
- Quase não há diferença de qualidade em relação a outras ferramentas como MacWhisper e VidCap, mas todas ainda apresentam pequenos erros ao lidar com nomes próprios e palavras compostas
- Em tarefas repetitivas como vídeos longos para desenvolvedores, aulas e podcasts, o efeito de economia de tempo acumulada é muito grande
- Após instalar o Yap no beta do macOS Tahoe (é necessária uma conta de desenvolvedor), já é possível usar a solução imediatamente, com expectativa de que ela substitua o Whisper em toda a plataforma Apple no futuro (iPhone, iPad, Mac e Vision Pro)
Apple Speech API vs Whisper: uma nova revolução de velocidade
- Os novos SpeechAnalyzer e SpeechTranscriber, apresentados recentemente na WWDC, já estão incluídos nas versões beta mais recentes de macOS, iOS, iPadOS e Vision Pro
- O autor vinha se incomodando bastante com a lentidão das ferramentas baseadas em Whisper, mas a nova API mostrou um desempenho de nível game changer no uso real
- Com uma ferramenta simples de linha de comando (Yap), é possível converter rapidamente arquivos de áudio/vídeo para SRT e TXT
- Vídeo 4K de 34 minutos e 7 GB → Yap: 45 segundos / MacWhisper(V3 Turbo): 1 minuto e 41 segundos / VidCap: 1 minuto e 55 segundos / MacWhisper(V2): 3 minutos e 55 segundos
- Problemas de reconhecimento de CamelCase (ex.: AppStories) e nomes próprios aparecem de forma semelhante em todas as opções (e podem ser corrigidos facilmente no pós-processamento)
Comparação prática de velocidade e uso no fluxo de trabalho
- Em um único vídeo, a diferença de 1 a 2 minutos pode parecer pequena, mas ao processar várias horas de vídeo, a economia acumulada de tempo se torna grande
- Em tarefas de conversão em lote em grande volume, como vídeos do YouTube, é possível automatizar de forma eficiente em conjunto com ferramentas como yt-dlp
- Para criadores, youtubers, estudantes e outros usuários, a solução oferece um fluxo de trabalho rápido para legendas, aulas e resumos
- Há expectativa de que a combinação SpeechAnalyzer/SpeechTranscriber substitua rapidamente o Whisper
Aplicação prática e como instalar
- Instalar o beta do macOS Tahoe (no momento, é necessária uma conta de desenvolvedor)
- Baixar e instalar a ferramenta de linha de comando no repositório GitHub do Yap
- Após executar o Yap, inserir o arquivo de áudio/vídeo → o arquivo convertido em SRT/TXT é gerado imediatamente
- Mais informações técnicas podem ser consultadas na documentação oficial da Apple sobre a Speech API e no vídeo da WWDC (nº 277)
Conclusão e perspectivas
- A Apple Speech API mostra uma vantagem esmagadora em velocidade sobre o Whisper, mantendo ao mesmo tempo um nível de qualidade equivalente
- Para usuários que usam principalmente fluxos de trabalho de reconhecimento/transcrição de voz nas plataformas Apple, há grande chance de ela se tornar o modelo padrão
- Espera-se máxima eficiência acumulada em tarefas de automação repetitivas, além de ganhos de produtividade no trabalho
6 comentários
Depois, acho que também vou precisar testar em coreano.
Só o fato de ser uma plataforma da Apple já passa uma mentalidade fechada, então não me anima.
Não gosto de ver comentários em tom informal, mas não tem bloqueio.
Pensando assim, o comentário que você deixou também está em tom informal, viu;;
Pode ser que você não goste de criticarem a Apple, mas isso não é linguagem informal, não.
Isso é o estilo telegráfico, e os próprios resumos padrão do GeekNews usam esse estilo; fico me perguntando como você tem lido os textos...