Destaques
- As ferramentas convergem para Python, PyData, Pytorch e Gradient-boosted Decision Tree (GBDT)
- O deep learning ainda não substituiu o GBDT em dados tabulares
- Transformers lideram o NLP e começam a competir com redes neurais convolucionais (CNN) em visão computacional
- As competições abrangem várias áreas de pesquisa, incluindo visão computacional, NLP, dados tabulares, robótica e análise de séries temporais
- Soluções com modelo único às vezes vencem, mas grandes ensembles normalmente ganham
- Existem várias plataformas de competições de machine learning, além de dezenas de sites criados para competições específicas
- O machine learning competitivo continua crescendo em popularidade, inclusive na academia
- 50% dos vencedores são solo e 50% dos vencedores vencem pela primeira vez. 30% já haviam vencido duas vezes ou mais
- Alguns competidores podem fazer investimentos significativos em hardware para treinar suas soluções, mas ainda é possível vencer usando hardware gratuito como o Google Colab
Panorama do ML Competitivo
- Competições e tendências notáveis
- Em valor de premiação, Snowcast Showdown da DrivenData (patrocinado pelo Departamento de Desenvolvimento Territorial dos EUA). Prêmio de $500k
- A mais popular foi a American Express Default Prediction da Kaggle. Mais de 4.000 equipes participaram. Prêmio de $100k. O 1º lugar foi um participante solo estreante (rede neural + LightGBM)
- A maior competição independente foi a AI Audit Challenge de Stanford
- A maior área foi visão computacional: meio ambiente, medicina
- A segunda maior área foi NLP: NLP + busca, NLP + Reinforcement Learning
- A área de Sequential Decision-Making também está crescendo
- Plataformas
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Outras plataformas interessantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Objetivo
- Competições bem organizadas
- fornecem, junto com os dados de treino, problemas interessantes que valem a pena resolver
- reúnem um conjunto de participantes potenciais competentes
- têm mecanismos que penalizam participantes com overfitting
- oferecem incentivos (financeiros) suficientes para que os participantes invistam esforço real na resolução do problema
- têm uma revisão pública das soluções vencedoras (após o fim da competição)
Soluções vencedoras
- Toolkit vencedor: Python, em segundo lugar C++
- Pacotes Python mais usados
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualização: matplotlib, seaborn
- NLP Toolkit: Transformers
- Toolkit de visão computacional: Albumentations, OpenCV, pillow, scikit-image, timm
Ainda não há comentários.