- Na área de aprendizado de máquina (ML) e ciência de dados, que acaba ficando abafada pelo barulho dos grandes modelos de linguagem (LLMs), várias coisas interessantes estão acontecendo
- Cynthia Rudin continua publicando pesquisas excelentes sobre inteligência artificial (IA) explicável
- Projetos interessantes dos últimos meses:
- Explicação sobre NeRFS:
- Uma reformulação fundamental da computação gráfica 3D, em que, em vez de polígonos com textura, são posicionadas esferas translúcidas brilhantes
- As posições e cores das esferas são aprendidas por uma rede neural por meio de capturas de câmera precisas de vários ângulos e poses, e podem ser renderizadas com ray tracing na GPU
- Como as cenas são geradas a partir de fotos, elas são totalmente realistas, mas também exploráveis
- Em teoria, essas cenas podem ser animadas, mas como fazer isso na prática ainda é um problema de pesquisa
- Ainda não se sabe se isso será melhor do que sistemas baseados em polígonos otimizados, como Nanite+photogrammetry
- Pergunta sobre uma ferramenta capaz de criar uma cena 3D a partir de vídeos de estradas gravados em um veículo:
- O foco é a paisagem ao redor da estrada, com a possibilidade de dirigir várias vezes por vários ângulos, e não há problema se o processamento demorar bastante
- A ideia é criar estradas locais para uso em um simulador de corrida
- Interesse em geometric deep learning:
- Como projetar modelos de forma principiada para respeitar simetrias conhecidas nos dados
- ConvNets são famosas por sua equivariância a translações, mas também existem exemplos recentes para outros grupos de simetria
- Também há a pergunta se é possível descobrir ou identificar automaticamente certas simetrias
- Apresentação da maratona de aprendizado de máquina organizada pela comunidade ML+X da UW-Madison:
- Um evento de verão de cerca de 12 semanas que será apresentado como competição no Kaggle
- Uma oportunidade de aprender e aplicar ferramentas de aprendizado de máquina em conjunto para encontrar soluções inovadoras para conjuntos de dados reais
- Há vários desafios, adequados tanto para iniciantes quanto para praticantes avançados
- Participantes, mentores de projeto e organizadores do evento se reúnem semanal ou quinzenalmente para compartilhar dicas e fazer demos/discussões curtas
- Além da recompensa intrínseca de melhorar habilidades e construir comunidade, equipes vencedoras receberão prêmios em dinheiro
- Apresentação do modelo Vision-Language-Action (VLA) RT-2, uma espécie de primo dos LLMs:
- Além de dados de texto e visão, ele inclui dados de movimento robótico como "mais uma linguagem" e os usa como tokens que geram ações de movimento do robô
- Opinião de que os modelos de visão computacional da família SAM tornaram, em certa medida, desnecessários muitos serviços e ferramentas de anotação humana:
- É possível obter rotulagem automática de dados visuais com qualidade relativamente alta
- Compartilhamento da experiência de lançar Scholars.io para obter as pesquisas mais recentes no arXiv sobre tópicos específicos de interesse:
- A expectativa é que isso ajude outras pessoas a encontrar atividades de pesquisa além de LLMs, já que dá para filtrar estudos que não interessam
- Pergunta sobre se ainda vale a pena continuar aprendendo ML em 2024, junto com uma menção à própria intuição:
- Compartilhamento da experiência de trabalhar em projetos paralelos usando xgboost
- A sensação é de que ML ainda vale a pena, mas sem plena certeza
Ainda não há comentários.