7 pontos por milkclouds00 2026-02-20 | Ainda não há comentários. | Compartilhar no WhatsApp

É um gravador open source ocap (Omnimodal CAPture), criado para coletar dados de desktop para treinamento de agentes de IA, mas que também pode ser usado para fins gerais.

Ferramentas de gravação existentes, como o OBS, normalmente salvam apenas vídeo ou não conseguem salvar vários tipos de dados de forma sincronizada. Para treinamento de IA, são necessários dados sincronizados até o nível de “quando o usuário fez algo, qual tecla pressionou, para onde moveu o mouse e qual janela estava ativa”. Ele foi criado para resolver isso.

Recursos:

  • grava vídeo da tela + áudio + eventos de teclado/mouse + eventos de janelas, tudo sincronizado com precisão de nanossegundos
  • codificação acelerada por hardware (H265/HEVC, NVIDIA GPU)
  • iniciar/encerrar a gravação com um único comando: ocap my-recording → Ctrl+C
  • a lógica principal está contida em um único arquivo Python (~400 linhas), facilitando a customização
  • por ser baseado em GStreamer, tem uma estrutura que permite expansão para Linux/macOS
  • saída: .mkv (vídeo) + .mcap (log de eventos, no formato MCAP já validado em robótica)

Instalação:

conda install open-world-agents::gstreamer-bundle  
pip install ocap  

Ou basta baixar o zip na página de releases e executar o run.bat.

Originalmente, ele foi desenvolvido para o projeto de pesquisa D2E (https://worv-ai.github.io/d2e/), que treina Embodied AI com dados de desktop, mas como também pode ser usado como uma ferramenta genérica de gravação de desktop, foi separado em um pacote próprio.

No momento, ele oferece suporte apenas a ambientes Windows + NVIDIA GPU, mas foi estruturado de forma que o suporte a GPUs AMD/Intel ou a outros sistemas operacionais possa ser habilitado apenas alterando o pipeline do GStreamer.

GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/

Ainda não há comentários.

Ainda não há comentários.