Como a OpenAI cobra por minuto, acelere o áudio para reduzir o tempo

(george.mand.is)

16 pontos por GN⁺ 2025-06-26 | 2 comentários | Compartilhar no WhatsApp

A cobrança de transcrição de áudio da OpenAI é calculada com base na duração do áudio de entrada
Se você converter o áudio para 2x ou 3x com ferramentas como ffmpeg antes de fazer o upload, é possível reduzir o tempo de processamento e o custo sem perda na qualidade da transcrição
Em um áudio real de 40 minutos, ao converter para 2x e 3x, houve redução de custo de 23% a 33%
O modelo gpt-4o-transcribe só aceita áudios com menos de 25 minutos, então acelerar o áudio é uma solução alternativa útil
Até 2x e 3x a qualidade do resultado se mantém, mas em 4x há uma queda brusca na precisão da transcrição

Resumo introdutório

Uma forma simples de usar com mais eficiência a política de preços de transcrição e áudio da OpenAI
A estratégia consiste em aumentar a velocidade de conversão do áudio para processar o mesmo conteúdo em menos tempo, economizando tanto custo quanto tempo
Ao converter o arquivo de áudio para 2x ou 3x com uma ferramenta open source como ffmpeg e depois enviá-lo à API da OpenAI, é possível reduzir preço e tempo de processamento sem perda de qualidade
Esse método é especialmente útil para áudios mais longos, em especial por causa do limite de 25 minutos de entrada do modelo gpt-4o-transcribe

Método principal para economizar tempo/custo na transcrição

O serviço de transcrição de áudio da OpenAI cobra com base na duração do áudio recebido
Portanto, se você acelerar previamente o arquivo de voz em 2x ou 3x com ffmpeg ou similar antes do upload, o número de tokens de entrada cai bastante e o tempo de processamento da transcrição também diminui
Na prática, ao aplicar esse método a um áudio de 40 minutos, o custo de tokens de entrada cai mais de 33% (US$ 0,07 em 3x, US$ 0,09 em 2x)
O custo de tokens de saída aparece quase igual independentemente da velocidade do áudio (resultado de uma alocação automática com base no tamanho do resumo de entrada)
Em 2x e 3x, a precisão da transcrição se mantém estável, mas em 4x o modelo passa a ter dificuldade para reconhecer corretamente o conteúdo

Exemplo de script usado

Uso dos seguintes tools open source:

yt-dlp : extração de áudio do YouTube e outros sites
ffmpeg : conversão de áudio e ajuste de velocidade
llm : automação de resumo de texto

Fluxo completo de referência:

extrair o áudio com yt-dlp,
converter o áudio para 2x ou 3x com ffmpeg e salvar em mp3
enviar o mp3 para a API da OpenAI (gpt-4o-transcribe) e obter o texto transcrito
inserir esse texto resultante no llm para gerar automaticamente o resumo desejado

Experiência prática e tentativas

No início, a ideia era obter a transcrição automática do YouTube, mas houve erro de download por causa de uma versão antiga do yt-dlp (2025.04.03)
Depois da atualização do programa, tudo passou a funcionar normalmente, mas nesse intervalo surgiu a tentativa de usar extração manual + aceleração com ffmpeg → processamento via API da OpenAI
Ao rodar o Whisper localmente em um M3 MacBook Air, surgiram problemas de consumo de bateria e velocidade de execução, então descarregar isso para a nuvem (API da OpenAI) foi mais rápido e eficiente

Qualidade da transcrição e características do algoritmo

Mesmo ao aumentar a velocidade do áudio para 2x~3x, de forma semelhante ao que acontece quando uma pessoa ouve a fala original em reprodução acelerada, o modelo de IA ainda consegue captar quase toda a informação essencial
Assim como na otimização do tamanho de arquivos de imagem (formatos com e sem perda), mesmo que haja perda de parte da informação auditiva (como perda ocasional de palavras em velocidades altas), isso não compromete muito o resumo e a compreensão
Assim como o cérebro consegue compensar erros de ortografia ou palavras omitidas em um texto, o algoritmo de transcrição também extrai bem a maior parte das informações principais mesmo em áudio acelerado

Comparação real de preços e faixa de economia

Com base no gpt-4o-transcribe da OpenAI, o custo por velocidade de áudio foi calculado assim
- 2x (1.186 segundos): US$ 0,09
- 3x (791 segundos): US$ 0,07
- Quando o áudio de entrada é muito longo (por exemplo, 2.372 segundos no original), o processamento fica indisponível por causa dos requisitos do modelo
- No modelo Whisper-1, o preço é de US$ 0,006/min, e com esse método a economia pode chegar a cerca de 67%
O custo de tokens de saída é quase o mesmo independentemente da velocidade de entrada (efeito da janela de contexto do modelo e da forma como o resumo é gerado)
Em 4x, a saída degrada severamente, com problemas como repetição de frases

Recomendações e conclusão

Para usar a transcrição de voz da OpenAI de forma mais rápida e barata, o mais eficiente é acelerar o áudio para 2x ou 3x
Velocidades altas demais (4x) trazem problemas de queda de precisão
É um método simples e fácil de executar, vantajoso tanto para manter a qualidade quanto para reduzir custos
Pode ser usado diretamente como forma de reduzir custo e tempo para startups e profissionais de TI que precisam processar longos áudios, como resumos de negócios e atas de reunião

Resumo (TL;DR)

A OpenAI cobra com base na duração do áudio ou nos tokens de entrada/saída
Se você converter a voz para 2x ou 3x com ffmpeg antes de enviar, pode economizar tanto tempo quanto custo
A redução dos tokens de entrada (ou do tempo) diminui a cobrança
2x e 3x são as velocidades ideais; a partir de 4x começa a haver perda de qualidade na transcrição

2 comentários

mbsahg 2025-06-27

É possível usar o gpt-4o-transcribe?
Perguntei à OpenAI ontem, e me disseram que apenas o modelo Whisper pode ser chamado usando a chave de API.
Estou pensando em testar o Whisper com uma configuração mais rápida para ver se a qualidade ainda pode ser mantida.

GN⁺ 2025-06-26

Comentários no Hacker News

Tive a impressão de que a velocidade da palestra do Andrej já é naturalmente pelo menos 1,5x mais rápida do que a de uma pessoa comum, então para acompanhar parece mesmo necessário baixar a velocidade do YouTube para 1x. Se a ideia é tornar os minutos da OpenAI mais eficientes, foi sugerido um método de simplesmente remover os trechos de silêncio antes do processamento.
Com um exemplo de comando ffmpeg, substituindo todo silêncio abaixo de -50dB por mais de 20ms por uma pausa de 20ms, houve a experiência de encurtar um vídeo de 39min31s para 31min34s. Seguindo a proposta do texto, o efeito foi medido apenas pela duração; a qualidade da versão encurtada não foi verificada separadamente.
- Eu sempre assisto tudo em 2x, e a palestra do Andrej também parece natural para mim em 2x. Já os vídeos que eu faço, as pessoas ao meu redor frequentemente dizem que são rápidos demais e que precisam ver em 0,75x. Do meu ponto de vista, qualquer coisa abaixo de 2x parece lenta demais. Como referência, a velocidade de fala do John Carmack me parece perfeitamente natural até em 2x. Se alguém tiver curiosidade sobre meus vídeos recentes, pode ver aqui; já fiz mais de 250~300, geralmente escolhendo o tema na hora e gravando de improviso. Fico curioso se os meus vídeos parecem rápidos demais ou se a velocidade é suficientemente normal.
- Se nem chegou a verificar a qualidade, parece que teria sido simples comparar os resultados das duas versões com algo como o diffchecker.
- Eu queria que existisse uma velocidade de 2,25x no YouTube para pessoas comuns. Eu vivo usando os atalhos e escuto 90% das coisas em 2x, mas só a palestra do Andrej já é difícil de rodar acima de 1,25x.
- Concordo com a ideia de que, como o Andrej fala mais de 1,5x mais rápido do que uma pessoa comum, faz sentido voltar a velocidade do YouTube ao normal. Fico curioso se existe alguma forma de detectar automaticamente a velocidade de fala de uma pessoa. A velocidade é subjetiva e varia de pessoa para pessoa, mas seria interessante se desse para detectar quando a tentativa do OP falha. (Por exemplo, como quando a qualidade vai para o espaço em 4x.)
- Fico animado só de pensar que dá para explorar ainda mais a magia do ffmpeg. Quero testar isso depois, obrigado pela ideia.
Uma reflexão sobre passar os olhos rapidamente versus reservar tempo para realmente absorver algo.
Quando li só a transcrição e o resumo da palestra do Andrej, ela me pareceu comum e eu simplesmente passei adiante. Mas quando vi o vídeo completo no YouTube, tive uma experiência que levou a uma enorme variedade de ideias, pensamentos e decisões. Isso acontece com frequência também em outros temas. Ouvir pessoalmente numa conferência é muito mais útil do que uma palestra online. Ver online ainda é muito mais proveitoso do que ler apenas um resumo. Até refletir profundamente enquanto se caminha é bem melhor do que só pensar superficialmente por 10 minutos. Para pensar, em geral parece melhor ir devagar.
- Isso me parece realmente curioso. Como desenvolvedor que odiava a forma padronizada com que a escola despejava conhecimento, acho estranho que hoje eu pague de bom grado por experiências desse tipo. Ler em si já é prazeroso, e há algo muito legal na sensação de ver as ideias se encaixando durante uma palestra. Eu vejo como algo profundamente humano pensar por nós mesmos sobre o significado do mundo. Mas, ao mesmo tempo, não consigo concordar nem um pouco com a ideia de que essa tendência estaria nos tornando mais tolos.
- Concordo muito com a opinião acima. Acho que o valor de uma palestra está menos nos fatos ou ideias públicas em si e mais na variedade de inspirações adicionais que surgem a partir dela. Existe uma quantidade realmente absurda de informação no mundo, e contexto é tudo. Se houvesse um contexto um pouco mais específico, eu teria separado um tempo para assistir; mas, quando recebo só um link sem contexto, minha postura acaba sendo apenas captar rapidamente o “essencial” e reagir. No fim, desta vez isso até despertou meu interesse, então talvez eu volte para assistir. Mais uma vez, concordo que “pensar devagar geralmente é melhor”.
- Pensar devagar é importante mesmo, mas também me ocorre que ouvir um pouco da palestra e depois voltar mais tarde para revê-la e refletir com mais profundidade talvez seja um método bastante útil.
- Fica a pergunta se a velocidade do vídeo era realmente o fator importante, ou se o essencial eram as informações adicionais transmitidas por vídeo e áudio. Quando o palestrante se comunica bem, tenho a sensação de que a mesma mensagem é transmitida muito melhor em áudio/vídeo. O áudio pode dar ênfase a certas partes, e o vídeo ainda complementa a mensagem com gestos e expressões faciais.
- Quando vejo pessoas ouvindo podcasts ou audiolivros em 2x ou 3x, eu sou o oposto: no meu caso, às vezes consigo me concentrar melhor e ter mais tempo para pensar quando diminuo para 0,8x. Fico curioso se sou um caso fora do comum.
Alguém tentou resumir uma palestra de 40 minutos com a API de transcrição da OpenAI, mas como era longa demais, comprimiu com ffmpeg para 3x e conseguiu ficar dentro do limite de 25 minutos. Na prática funcionou, e como economizou tanto custo quanto tempo, resolveu compartilhar em texto. Inclui o script completo e a composição dos custos.
- Dá até para brincar que isso poderia ter sido usado discretamente para abrir um negócio de transcrição mais barato do que a OpenAI.
“E a precisão?” “Não sei, esse não era o ponto.” Há quem ache esse trabalho ótimo exatamente por manter esse espírito do autor original, e ao mesmo tempo sinta certo desconforto com esse futuro.
- Transcrições feitas por humanos nunca vieram com garantia de precisão. Sempre existiram erros nesses processos de conversão, e isso continuará fazendo parte da expectativa. O que preocupa mais é a IA generativa interpretar coisas como se fossem fatos, ou a própria noção social de que “a IA é mais confiável”. A ideia popular de que a IA seria mais confiável ou imparcial do que humanos, especialistas ou jornalistas também é perigosa.
Antes do Gemini 2.0, havia uma forma de cobrança fixa de 258 tokens por imagem; existia também o truque de simplesmente enfiar muito mais texto dentro da imagem para processá-lo de forma proporcionalmente mais barata.
Foi feita uma extensão para Chrome que roda o modelo OpenAI Whisper localmente no navegador com WebGPU usando huggingface/transformers.js, permitindo converter áudio em texto diretamente no browser. Veja a lista de exemplos. Por exemplo, há quem não queira ouvir nem assistir aos vídeos das redes sociais do presidente, mas precise detectar rapidamente quando aparece alguma fala desastrosa com grande impacto econômico; então o sistema rastreia novos posts a cada minuto, executa OCR e transcrição de áudio localmente de forma automática, faz análise de texto e só envia alerta quando algo for economicamente relevante. Link do projeto
- Avaliação de que é uma implementação impressionante.
Em vez da API Whisper da OpenAI, também recomendaram a Groq (com distil-large-v3 por $0,02/hora e whisper-large-v3-turbo por $0,04/hora, enquanto a OpenAI cobra $0,36/hora). Internamente, quando reuniões do conselho municipal sobem para o YouTube, o sistema usa automaticamente Groq, Replicate, Deepgram e outros para processar a transcrição.
- Dica de que a Inference API da Hugging Face é conveniente porque permite trocar facilmente entre vários provedores de API. O exemplo pode ser visto aqui.
- Como o custo por hora está na faixa de $0,02~$0,04, talvez nem haja necessidade de grandes otimizações, embora fique a curiosidade se acelerar ainda mais o áudio reduziria ainda mais o custo. Também surge a dúvida de que o YouTube já oferece legendas automáticas para a maioria dos vídeos em menos de um dia.
- Destaque para o fato de que usuários de MacBook recente podem rodar modelos Whisper localmente de graça. Há a sensação de que muita gente ainda não percebe o quão barato já é o poder computacional do próprio hardware que possui.
- Também foi apontada a opção de usar o modelo whisper-large-v3-turbo no Cloudflare Workers AI por cerca de $0,03/hora (link).
Foi destacada a funcionalidade do Google AI Studio de simplesmente receber um link do YouTube e gerar automaticamente uma transcrição com identificação dos falantes, além de extrair pistas visuais. Também foi mencionado o suporte multimodal para vídeo.
Uma pessoa que trabalha com APIs na OpenAI comentou que ficou surpresa com a qualidade dos resultados mesmo em velocidades de 2x ou 3x. Na prática, para canais telefônicos, eles já usam com sucesso áudio de 8khz reamostrado para 24khz. Ainda assim, quanto mais se afasta de 1x, mais evidente fica a queda de precisão, e no longo prazo seria necessário oferecer suporte a uploads de arquivos maiores.
- Feedback de que seria interessante pesquisar internamente esse tipo de otimização por velocidade para encontrar os multiplicadores em que a perda de precisão seja mínima. Também sugere a possibilidade de reduzir o preço efetivo da API com pré-processamento simples.
Houve quem gostasse do estilo de escrita que vai direto ao ponto. Muitos textos acabam ficando desnecessariamente prolixos, e essa abordagem parece refrescante. Talvez metade dos autores até descobrisse que, na prática, nem têm uma mensagem central de verdade.