- Quase ninguém gosta de software de trabalho
- Mesmo os melhores produtos, quando usados no trabalho real, costumam ser pouco flexíveis ou insuficientemente refinados, com curva de aprendizado acentuada e acesso difícil
- A IA generativa oferece a chance de reinventar completamente os fluxos de trabalho, tornando possível criar produtos totalmente novos do zero
- Workflows nativos em IA ajudam o usuário a executar tarefas existentes de forma mais eficiente
- Essas plataformas permitem que o usuário delegue tarefas de baixo nível a um assistente de IA e tenha mais tempo para pensamento de alto nível
- Elas ajudam a destravar novas habilidades técnicas e estéticas para que todos possam se tornar programadores, produtores, designers e músicos
- A lacuna entre criatividade e técnica tende a diminuir
- Com produtos de workflow com IA que sejam “de nível profissional e amigáveis ao consumidor”, qualquer pessoa pode se tornar o próximo prosumidor
- (Prosumidor: pessoa que ocupa simultaneamente os papéis de produtora e consumidora. O termo foi usado por Alvin Toffler em "A Terceira Onda")
Como será um produto de prosumidor nativo de GenAI?
- Todos os produtos de workflow nativo em GenAI compartilham o traço comum de transformar “modelos de ponta em uma UI acessível e eficiente”
- O usuário se importa menos com a infraestrutura por trás do produto e mais com o modo como ele o ajuda
- Os avanços técnicos alcançados com Gen AI são impressionantes, mas os produtos de sucesso ainda começam com um entendimento profundo do usuário e de seus pontos de dor
- Produtos de sucesso começam com:
- compreensão profunda dos pontos de dor do usuário
- clareza sobre o que pode ser abstraído com IA
- identificação dos pontos de decisão que exigem aprovação
- definição de onde estão os pontos de maior alavancagem
Principais recursos do produto de prosumidor nativo em GenAI
- Ferramenta de criação para resolver o problema da “página em branco”
- Ajuda a começar gerando mídia a partir de prompts em linguagem natural
- Pode ser feita com um modelo proprietário ou com vários modelos combinados
- Ex.: ferramenta de renderização da Vizcom, construtor de sites da Durable
- Composição multimodal (e multimídia)
- Muitos projetos criativos exigem mais de um tipo de conteúdo: imagem e texto, música e vídeo, animação e narração em áudio etc.
- Porém, no momento, não existe um único modelo capaz de gerar todos esses tipos de ativos
- Isso cria uma oportunidade para produtos de workflow em que o usuário pode gerar, aprimorar e combinar vários tipos de conteúdo em um único lugar
- Ex.: avatars da HeyGen (gerando avatares realistas ao combinar avatars próprios com o TTS da ElevenLabs)
- Editor inteligente que permite mais iterações
- Quase não há resultado pronto “de primeira vez”
- No caso de IA com aleatoriedade inerente, isso é ainda mais verdadeiro: é raro obter exatamente o que se deseja na primeira execução
- Regerar pressionando o botão de regen ou editar o prompt é importante, mas é um processo demorado e frustrante
- A primeira leva de produtos gerados por IA não permitia qualquer iteração. Ao reexecutar o mesmo prompt, era obtido um resultado totalmente diferente
- Agora começa a aparecer a capacidade de pegar uma saída existente e refiná-la sem começar do zero
- Ex.: ferramenta de variação e zoom do Midjourney, recurso de edição de área específica do Pika
- Refinement na própria plataforma
- Outro elemento importante da edição inteligente é o Refinement
- Os últimos 10% do polimento frequentemente fazem a diferença entre criar algo “bom” e criar algo “excelente”
- Mas pode ser muito difícil tanto (1) achar o que deve ser refinado quanto (2) refiná-lo sem precisar ir para outro lugar
- Produtos de workflow com IA ajudam o usuário a identificar o que pode ser melhorado e depois o ajudam a melhorar automaticamente
- É como um “auto retoque” da Apple para fotos, só que imagine isso funcionando para tudo
- Ex.: funcionalidade de upscaling da Krea, workflow de audiolivro da ElevenLabs
- Output passível de remix e conversão
- Todo conteúdo pode se tornar um potencial “ponto de partida” para outra iteração
- Se você já copiou e editou um prompt criado por outra pessoa no Midjourney/ChatGPT, já está participando disso
- Plataformas que aproveitam bem essa flexibilidade podem criar produtos mais fortes e envolventes
- Para o criador inicial, isso tem grande valor por permitir transformar trabalhos entre mídias, como converter vídeo em postagem de blog ou transformar instruções em texto em vídeo animado de uso
- Ex.: recurso principal da plataforma de publicação Gamma: gerar deck, documento ou página web a partir de prompt ou arquivo enviado e converter formato quando necessário
- Esses produtos também permitem expor o workflow para que outras pessoas possam repetir
- Isso pode ser uma sequência de prompts ou combinação de modelos, ou pode ser um botão “copiar” para que usuários com menor nível técnico imitem a saída ou a estética
- Ex.: Imagen AI, plataforma de edição para fotógrafos profissionais
- Treina modelos conforme o estilo individual de cada fotógrafo para facilitar a edição em lote
- Além disso, o usuário pode editar no estilo de fotógrafos de ponta da indústria com perfil público na plataforma
Como os produtos de prosumidor vão evoluir?
- As ferramentas de prosumidor de nova geração ainda estão em estágio inicial
- A função central de geração de ativos das ferramentas existentes ficou finalmente forte o suficiente para adicionar workflows significativos, mas a maioria dos produtos ainda se concentra em apenas um tipo de conteúdo e é bastante limitada em recursos
- Produtos esperados
- Editores que combinem diferentes modalidades de conteúdo
- O vídeo pode ser o melhor exemplo
- Hoje, para produzir um curta com IA, é necessário gerar vários clipes em produtos como Pika ou Runway e depois mover para outras plataformas, como Capcut ou Kapwing, para edição ou mixagem de áudio
- E se todas as etapas desse processo pudessem ser feitas em uma única plataforma?
- Espera-se que parte dos próximos produtos adicione mais funcionalidades de workflow e expanda para produção de outros tipos de conteúdo, por meio de treinamento próprio de modelos, uso de modelos open source ou parcerias com outros players
- Também pode surgir um novo editor AI-native independente, no qual o usuário possa “pluginar” diferentes modelos
- Produtos que aproveitam modos de interação diferentes
- Prompt de texto nem sempre é a forma mais eficiente de se comunicar com produtos de IA
- Acreditamos que as pessoas deveriam poder trabalhar com ferramentas de criação da mesma forma que colaboram com um parceiro humano de brainstorming, com voz, esboços, compartilhamento de fotos de referência etc.
- Há grande expectativa em relação à voz, especialmente como um formato para compartilhar pensamentos mais sofisticados e complexos (ou divagar de uma forma impossível em texto)
- Produtos como Oasis, TalkNotes e AudioPen, que convertem nota de voz em e-mail, postagem de blog ou tweet, já começaram a surgir
- No futuro, espera-se que mais produtos de workflow passem a oferecer áudio e vídeo como fontes de entrada, mudando a forma e o momento em que as pessoas realizam o trabalho
- Produtos que tratem conteúdo gerado por humanos e por IA de maneira equivalente
- Seria ótimo ter ferramentas que permitissem usar lado a lado conteúdo humano e de IA. Hoje a maioria dos produtos foca em um dos dois
- Por exemplo, há ferramentas excelentes para corrigir fotos reais, mas que não fazem nada com imagens de IA
- Ou conseguem gerar novos vídeos, mas não conseguem corrigir clipes ou alterar o estilo no iPhone
- No futuro, espera-se que a maioria dos profissionais de criação de conteúdo misture conteúdo gerado por IA e por humanos
- Os produtos que eles usarem devem acomodar ambos os tipos de conteúdo e permitir que sejam combinados com mais facilidade
- A ferramenta de edição da Runway exemplifica bem isso
- Traz clipes e imagens do próprio modelo de geração e permite carregar ativos reais para uso na mesma timeline
- Em seguida, ferramentas de “mágica” da empresa, como inpainting e green screen, podem ser usadas em ambos os tipos de conteúdo
- Os produtos de workflow de conteúdo destacados aqui representam apenas um dos componentes importantes que compõem o futuro do software de prosumidor
- Em breve, vamos examinar com mais detalhes a segunda peça central, as ferramentas de produtividade, e rever as ferramentas de produtividade que acreditamos também poder se reinventar na era da IA
2 comentários
Como diferenciação dos produtos de IA em estilo prosumer, é apresentada a combinação de fluxos de trabalho, mas acho que sua essência e limitações são as mesmas das plataformas de low-code existentes.
Nem todo trabalho atribuído a profissionais possui uma complexidade adequada para ser totalmente controlada com low-code; muitas vezes, a própria complexidade da tarefa é alta, então pode ser melhor controlar a complexidade com habilidades de programação profissional do que resolvê-la com uma plataforma de low-code. Comparando programação com montagem de circuito eletrônico, a solução low-code corresponde a uma protoboard. Assim como é possível montar e montar um protótipo de circuito eletrônico que funcione para testes e experimentação com uma protoboard, não é possível fazer um circuito integrado que exija confiabilidade com uma protoboatd.
Ao aplicar isso à produção de conteúdo, há uma preocupação de que, devido às limitações das ferramentas de criação por IA, pode ser difícil controlar a precisão e o nível de detalhe do resultado. É como as imagens de IA atuais, que não conseguem desenhar os dedos corretamente. A curva de aprendizado provavelmente vai ficar mais baixa, mas provavelmente não vai ser tão dramática.