Ask HN: Quais tendências da área de ML não estão sendo abafadas pelo barulho dos LLMs?

(news.ycombinator.com)

19 pontos por GN⁺ 2024-03-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Na área de aprendizado de máquina (ML) e ciência de dados, que acaba ficando abafada pelo barulho dos grandes modelos de linguagem (LLMs), várias coisas interessantes estão acontecendo
Cynthia Rudin continua publicando pesquisas excelentes sobre inteligência artificial (IA) explicável
Projetos interessantes dos últimos meses:
- Reconstrução de cenas 3D a partir de algumas imagens: NAVER LABS Europe
- Avatares gaussianos: Gaussian Avatars
- Codec gaussiano com reiluminação: Relightable Gaussian Codec
- Rastrear tudo: Co-Tracker, Omnimotion
- Segmentar tudo: Segment Anything by Facebook Research
- Modelos excelentes de estimativa de pose humana: Yolov8, modelos MediaPipe do Google
- TTS realista: XTTS-v2 by Coqui on Hugging Face, Bark TTS
- STT excelente: em sua maioria baseado no Whisper
- Tradução de máquina: por exemplo, SeamlessM4T da Meta
- Admiração pelos muitos resultados que saem de P&D da Meta
Explicação sobre NeRFS:
- Uma reformulação fundamental da computação gráfica 3D, em que, em vez de polígonos com textura, são posicionadas esferas translúcidas brilhantes
- As posições e cores das esferas são aprendidas por uma rede neural por meio de capturas de câmera precisas de vários ângulos e poses, e podem ser renderizadas com ray tracing na GPU
- Como as cenas são geradas a partir de fotos, elas são totalmente realistas, mas também exploráveis
- Em teoria, essas cenas podem ser animadas, mas como fazer isso na prática ainda é um problema de pesquisa
- Ainda não se sabe se isso será melhor do que sistemas baseados em polígonos otimizados, como Nanite+photogrammetry
Pergunta sobre uma ferramenta capaz de criar uma cena 3D a partir de vídeos de estradas gravados em um veículo:
- O foco é a paisagem ao redor da estrada, com a possibilidade de dirigir várias vezes por vários ângulos, e não há problema se o processamento demorar bastante
- A ideia é criar estradas locais para uso em um simulador de corrida
Interesse em geometric deep learning:
- Como projetar modelos de forma principiada para respeitar simetrias conhecidas nos dados
- ConvNets são famosas por sua equivariância a translações, mas também existem exemplos recentes para outros grupos de simetria
- Também há a pergunta se é possível descobrir ou identificar automaticamente certas simetrias
Apresentação da maratona de aprendizado de máquina organizada pela comunidade ML+X da UW-Madison:
- Um evento de verão de cerca de 12 semanas que será apresentado como competição no Kaggle
- Uma oportunidade de aprender e aplicar ferramentas de aprendizado de máquina em conjunto para encontrar soluções inovadoras para conjuntos de dados reais
- Há vários desafios, adequados tanto para iniciantes quanto para praticantes avançados
- Participantes, mentores de projeto e organizadores do evento se reúnem semanal ou quinzenalmente para compartilhar dicas e fazer demos/discussões curtas
- Além da recompensa intrínseca de melhorar habilidades e construir comunidade, equipes vencedoras receberão prêmios em dinheiro
Apresentação do modelo Vision-Language-Action (VLA) RT-2, uma espécie de primo dos LLMs:
- Além de dados de texto e visão, ele inclui dados de movimento robótico como "mais uma linguagem" e os usa como tokens que geram ações de movimento do robô
Opinião de que os modelos de visão computacional da família SAM tornaram, em certa medida, desnecessários muitos serviços e ferramentas de anotação humana:
- É possível obter rotulagem automática de dados visuais com qualidade relativamente alta
Compartilhamento da experiência de lançar Scholars.io para obter as pesquisas mais recentes no arXiv sobre tópicos específicos de interesse:
- A expectativa é que isso ajude outras pessoas a encontrar atividades de pesquisa além de LLMs, já que dá para filtrar estudos que não interessam
Pergunta sobre se ainda vale a pena continuar aprendendo ML em 2024, junto com uma menção à própria intuição:
- Compartilhamento da experiência de trabalhar em projetos paralelos usando xgboost
- A sensação é de que ML ainda vale a pena, mas sem plena certeza

Ask HN: Quais tendências da área de ML não estão sendo abafadas pelo barulho dos LLMs?

Leituras relacionadas

Ainda não há comentários.