Experimento de produção totalmente automatizada, do storytelling ao vídeo, com IA baseada em GPTs
(youtube.com)Criar storytelling é algo muito importante para qualquer pessoa, mas também é uma parte difícil.
No fim das contas, o essencial é criar uma boa história.
Com o surgimento do ChatGPT, houve uma revolução na geração de histórias com IA, mas ainda
acredito que há um longo caminho pela frente.
Há quase um ano, tive a experiência de criar um livro infantil usando ChatGPT e Stable Diffusion
e publicá-lo no Kakao Brunch, então desta vez decidi tentar algo mais multimodal.
O objetivo foi definido como: após a configuração inicial, “o ponto central é a automação sem intervenção, em que mais de 99% do processo até o resultado final seja feito pela própria IA, sem participação humana”.
Claro, é indispensável que uma história criativa e plausível esteja conectada por relações de causa e efeito.
Com isso, defini como meta de execução um “conteúdo infantil para YouTube”.
Os motivos para escolher o público infantil foram:
- seria relativamente mais fácil trabalhar a história
- o efeito esperado seria grande em relação à qualidade do vídeo
- como eu nunca havia feito conteúdo infantil, queria experimentar
[Planejando uma forma concreta de execução (arquitetura) e construindo eu mesmo]
-
Entendi que a lógica de geração de histórias precisava ser “projetada de forma que novos episódios continuem sendo adicionados enquanto a consistência é mantida”, para garantir continuidade.
-
Com isso, criei GPTs dedicados ao storytelling infantil. (No momento, configurados para visualização apenas minha)
As instruções dos GPTs têm cerca de uma página A4, definidas de forma extremamente detalhada (“o objetivo é permitir a manutenção do conceito geral e do contexto”).
Também defini que palavras-chave específicas devem ser usadas obrigatoriamente no início e no fim de todos os textos gerados (uma configuração textual para que mesmo quem estiver vendo o vídeo pela primeira vez reconheça o conceito e o pano de fundo, e passe a esperar o próximo episódio).
No corpo do texto, o andamento segue o eixo crise, conflito e resolução, de acordo com um fluxo natural do tempo, e muitos exemplos detalhados foram definidos para que, mantendo o contexto, a geração de novos episódios também siga essas regras.
*O motivo de definir o conceito de “A aventura de Tori” como “um menino cujo rosto muda toda vez que ele acorda” foi que é difícil manter a seed na geração de imagens, então a intenção foi transformar essa desvantagem em vantagem. Como um novo episódio é gerado a cada vez, julguei que isso na verdade funciona ainda melhor. -
Conectei o script gerado nos GPTs ao
Actionsvia API por meio do Zapier, para processamento posterior e geração multimodal.
*Para detalhes sobre como configurar o GPTs Actions, consulte o link do Kakao Brunch que escrevi
https://brunch.co.kr/@seawolf/9
- Ao conectar aos GPTs, configurei para que os GPTs me perguntassem pela “palavra-chave do tema do novo episódio”. Isso é a única coisa que a pessoa precisa decidir. Claro, isso também poderia ser aleatório.
O método para chegar à “palavra-chave do tema” segue o processo abaixo, conforme definido nas instruções.
- Por meio de portais de busca, configurei para extrair e sugerir as “palavras-chave” mais recentes preferidas por “crianças” (avaliadas por volume de entrada de buscas etc.). Na prática, games e brincadeiras realmente foram esmagadoramente dominantes.
- Entre as palavras-chave sugeridas, escolhe-se a que agradar mais
- Em seguida, conforme a lógica definida nas instruções, ele gera de imediato uma nova história de uma página com coerência
- Na maioria das vezes, o conteúdo é inovador e satisfatório, mas é possível pedir pequenas alterações ou remoções por prompt
- Quando o texto final é confirmado, basta dar o comando para “enviar para meu e-mail ou API” por meio do
Actions, e ele é enviado imediatamente, disparando o trigger
-
Depois disso, no Zapier, que recebe a chamada e o valor enviado (texto) a partir dos GPTs, as APIs são acionadas na ordem que configurei, realizando processamento, fusão e geração de dados.
-
Componentes multimodais até a geração final do vídeo (uso de APIs e várias plataformas de serviço)
- script de texto otimizado
- geração de voz a partir de texto
- geração de imagem com extração automática de contexto e palavras-chave dos blocos do script (normalmente, define-se de 1 a 3 frases como um bloco)
- posicionamento automático de acessórios adicionais, como música, efeitos sonoros e emoticons, de acordo com o contexto
- exibição da voz gerada como legendas
- renderização final do vídeo
- opção de “conversão multilíngue”
- Conclusão com download da versão final
- Registro como conteúdo no YouTube
Ao medir o tempo necessário (e ele está ficando cada vez mais rápido):
- processo completo de criação de uma nova história com GPTs: menos de 1 minuto
- processamento posterior pelos backends via chamada de
Actions: cerca de 1 a 2 minutos - até a geração automática do vídeo multimodal finalizado: cerca de 3 minutos
- se, nessa parte, a pessoa fizer um pequeno retoque nos pontos que precisam de correção, a qualidade sobe bastante (se for apenas um retoque simples, leva cerca de 3 minutos)
- renderização final: 3 a 5 minutos (varia conforme o tamanho do vídeo)
Ou seja, em 10 minutos é possível criar um vídeo infantil bastante sólido e divertido, com fundo em modelagem 3D, em um nível bem razoável.
Mesmo somando os custos de alguns APIs pagos, incluindo OPENAI, além do custo de hospedagem, em termos de custo-base um vídeo de até 3 minutos provavelmente sairia por menos de 1.000 won por minuto.
[Link para ver o resultado final]
“A aventura de Tori” Episódio 1: transformação em estrela de K-POP (coreano)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s
“A aventura de Tori” Episódio 1: transformação em estrela de K-POP (versão em inglês)
https://www.youtube.com/watch?v=CT3KHU7BvIs
“A aventura de Tori” Episódio 2: transformação em super-herói (coreano)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s
“A aventura de Tori” Episódio 3: transformação em Papai Noel (coreano / versão com modelagem 3D)
https://www.youtube.com/watch?v=wl2RWAqOXtY
Considero que mais de 90% do processo atingiu automação sem intervenção.
Estou publicando este texto para compartilhar informações e mostrar as várias áreas de aplicação que descobri com este experimento.
Se quiser mais informações, participe da comunidade.
[ Link para participar da comunidade (chat aberto no KakaoTalk) ]
https://open.kakao.com/o/gE6hK9Vf
1 comentários
Espero que isso ajude muitas pessoas, nem que seja um pouco.