- AniSora é um modelo open source de IA para geração de vídeo desenvolvido pela Bilibili, com suporte a vários estilos como animação, mangá e VTuber
- Permite criar com facilidade vídeos de animação em alta qualidade e alta definição a partir de imagens ou prompts de texto
- Com algoritmos especializados em mangá e animação e uma base em grandes datasets, entrega movimentos realistas e resultados expressivos
- Tem como pontos fortes uma interface intuitiva que até não especialistas podem usar facilmente e um ambiente de colaboração baseado em comunidade
- É adequado para diversos casos de uso, como episódios curtos, PVs, VTubers e concept art
O que é AniSora
- AniSora é o mais poderoso modelo open source de geração de vídeos de animação desenvolvido pela Bilibili
- Com um único clique, é possível produzir vídeos em vários estilos, como séries de animação, donghua, obras adaptadas de mangá, VTubers e PVs de anime
- Apenas com uma imagem ou um prompt de texto, cenas estáticas podem ser transformadas em animações dinâmicas e detalhadas
- A pesquisa que fundamenta o AniSora tem como base um artigo técnico de ponta aceito na IJCAI’25
Exemplos do AniSora
- Os vídeos de exemplo gerados com o AniSora mostram a capacidade de transformar imagens estáticas em animações com movimento natural
- Ex.) uma cena dentro de um carro com o cabelo balançando ao vento, várias garotas levantando as mãos e dançando, motion blur nos movimentos de um personagem correndo em alta velocidade
- O modelo reproduz com realismo diversos elementos importantes para mangás e animações, como expressão emocional, dinamismo corporal e transições de cena
Principais vantagens do AniSora
Algoritmos especializados em estilo de animação/mangá
- Usa uma arquitetura de modelo especializada, treinada com grandes datasets de animação e mangá
- Reproduz com precisão estilos visuais e direções artísticas únicos
- Possibilita saída de alta qualidade que também reflete obras originais de mangá recentes e tendências atuais
Interface intuitiva
- Foi projetado para que até usuários sem familiaridade técnica possam gerar vídeos diretamente
- Com apenas um clique, qualquer pessoa pode experimentar facilmente a criação de vídeos de mangá e VTuber
Suporte a vídeos de animação de alta qualidade
- O AniSora oferece por padrão saída de vídeo em 1080p de alta definição
- Os vídeos são otimizados para várias plataformas e podem ser usados em projetos, redes sociais, PVs e diversos outros canais
Resumo do FAQ do AniSora
O que é AniSora?
- AniSora faz parte do Project Index-AniSora e é um modelo open source de geração de vídeos de animação lançado pela Bilibili
- Apenas com imagens ou prompts de texto, é possível produzir automaticamente vídeos em alta resolução com estilo de animação
- Incorpora resultados de pesquisa recentes com foco em consistência de movimento e expressividade
Diferenças em relação a outras ferramentas de geração de vídeo com IA
- O AniSora foca em desempenho especializado em estilos de animação e mangá
- Como um projeto open source centrado em comunidade e apoiado pela especialização da Bilibili, ele é otimizado para produção de vídeos com propósito específico, como séries de anime, obras adaptadas de mangá e VTubers
Suporte a vídeo e áudio
- Atualmente, o AniSora é um modelo focado em geração de vídeo
- Para saber se há recursos adicionais, como síntese de áudio, é necessário consultar a documentação mais recente
É adequado para criadores de animação/mangá?
- O AniSora é ideal para criadores, especialmente nas áreas de animação, PV, mangá e VTuber, por ser otimizado para consistência de personagens e movimentos expressivos
Principais casos de uso
- Permite uso amplo em curtas de animação, vídeos para redes sociais, PVs, animação de painéis de mangá, VTubers, concept art, storyboards e mais
Qualidade e duração dos vídeos
- O AniSora se destaca na geração de vídeos curtos em alta resolução (1080p)
- Em geral, clips curtos são o formato mais adequado, e as restrições específicas podem ser verificadas na documentação oficial mais recente
Como controlar estilo e movimento
- O usuário pode orientar o estilo visual e o movimento desejados por meio de imagens ou prompts de texto
- Com base em dados da área de animação, há suporte a controles avançados como customização de movimento, consistência de personagens e aplicação de estilos detalhados
- O escopo operacional pode variar de acordo com a versão ou a interface
Conclusão
- O AniSora é um modelo open source de alto desempenho para geração de vídeo com IA, especializado na produção de vídeos de animação, mangá e VTuber
- Seus principais benefícios são reprodução de estilo diferenciada, uso intuitivo e geração de vídeo em alta qualidade
- Com foco em cultura open source de comunidade e apoio a criadores, ele tem alto valor de uso tanto no campo do anime japonês quanto no da animação chinesa
1 comentários
Comentários no Hacker News
Alguns resultados parecem claramente treinados com webtoons, mangás e talvez pixiv, entre outros. Dá para ver isso facilmente em prédios em CG e em vários outros artefatos artificiais. No fim, a conclusão é que foi treinado com material protegido por direitos autorais. Como a arte não é uma área que possa ser gerada de forma sintética do mesmo jeito que texto, artistas humanos sempre vão ocupar um lugar importante, ou então isso só vai continuar produzindo artefatos estranhos. Por isso, fico pensando se no futuro os artistas não acabarão sendo rebaixados a uma categoria profissional voltada ao treinamento de "IA". Mas, por outro lado, também acho que não seria tão ruim se a estrutura fosse as pessoas desenharem o que gostam e isso ser aproveitado no treinamento dos modelos. Sou bastante favorável à IA em questões de direitos autorais e marcas, mas continuo me perguntando o que vai acontecer com muitas das pessoas que nos divertiam. A qualidade vai continuar melhorando, ou estilos mais desafiadores vão desaparecer sob a lógica de que 'é difícil demais para a IA', fazendo tudo ficar parecido? Isso passa uma sensação diferente de PCs e máquinas substituindo pessoas, como se estivéssemos chegando a um ponto final.
Será que finalmente estamos chegando à era em que poderemos gerar a tão desejada terceira temporada de Haruhi? Dá mesmo uma sensação de que é um ótimo tempo para estar vivo.
Testei com uma ilustração promocional de <i>Neon Genesis Evangelion</i>. O resultado ficou razoável, mas surgiram artefatos temporais na animação do cabelo enquanto a cabeça gira. Também há uma página com coletânea de exemplos e referências.
Resumo de um trecho do artigo: "foi introduzido um método de treinamento com comprimento variável, treinando em segmentos de 2 a 8 segundos. Com essa estratégia, é possível gerar vídeos em 720p com duração de 2 a 8 segundos." Quero comparar com o FramePack. Na prática, acho que em animação 2D existe a vantagem de quase não haver restrições de duração de frame.
Se você se interessa por conteúdo de animação com IA, recomendo participar da competição AniGen.
Fico curioso para saber se ele consegue representar o mesmo personagem de forma consistente em diferentes cenas e ângulos. Acho que esse tem sido o limite da geração de imagens até agora.
Já no primeiro exemplo dá para ver muitos erros. A manga da camisa fica quebrada, e o cabelo em movimento some e reaparece. No fim, em geral só os braços e as nuvens se movem.
Mesmo trocando a conta e os inputs, sempre aparecem erros estranhos, então não está funcionando direito.
Fico curioso sobre a situação dos direitos autorais de vídeos feitos com esse tipo de serviço. Quero saber se recebem proteção autoral. A posição atual do Escritório de Direitos Autorais dos EUA é que "resultados de IA generativa só são protegidos por direitos autorais quando um autor humano determinou de forma suficiente os elementos criativos". Se não houver proteção, então ao fazer filmes e similares com esse serviço haveria o risco de serem simplesmente copiados ou plagiados. E, claro, estou deixando de lado a questão de com que dados essa ferramenta foi treinada.
Queria ver o quanto as cenas de luta de <i>The Beginning After the End</i> mudariam ao passar por essa ferramenta. Estou sinceramente curioso sobre a direção futura disso. Mesmo que haja um pouco mais de erros visuais e artefatos, as pessoas aceitariam isso se significasse ter uma nova temporada de uma franquia de que gostam, ou reagiriam com rejeição, como acontece com o uso desajeitado de modelos 3D?