Panorama do Machine Learning Competitivo 2022

xguru · 2023-03-22T11:05:02+09:00

Destaques As ferramentas convergem para Python, PyData, Pytorch e Gradient-boosted Decision Tree (GBDT) O deep learning ainda não substituiu o GBDT em dados tabulares Transformers lideram o NLP e começam a competir com redes neurais convolucionais (CNN) em visão computacional As competições abrangem várias áreas de pesquisa, incluindo visão computacional, NLP, dados tabulares, robótica e análise de séries temporais Soluções com modelo único às vezes vencem, mas grandes ensembles normalmente ganham Existem várias plataformas de competições de machine learning, além de dezenas de sites criados para competições específicas O machine learning competitivo continua crescendo em popularidade, inclusive na academia 50% dos vencedores são solo e 50% dos vencedores vencem pela primeira vez. 30% já haviam vencido duas vezes ou mais Alguns competidores podem fazer investimentos significativos em hardware para treinar suas soluções, mas ainda é possível vencer usando hardware gratuito como o Google Colab Panorama do ML Competitivo Competições e tendências notáveis Em valor de premiação, Snowcast Showdown da DrivenData (patrocinado pelo Departamento de Desenvolvimento Territorial dos EUA). Prêmio de $500k A mais popular foi a American Express Default Prediction da Kaggle. Mais de 4.000 equipes participaram. Prêmio de $100k. O 1º lugar foi um participante solo estreante (rede neural + LightGBM) A maior competição independente foi a AI Audit Challenge de Stanford A maior área foi visão computacional: meio ambiente, medicina A segunda maior área foi NLP: NLP + busca, NLP + Reinforcement Learning A área de Sequential Decision-Making também está crescendo Plataformas Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,.. Outras plataformas interessantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,.. Objetivo Competições bem organizadas fornecem, junto com os dados de treino, problemas interessantes que valem a pena resolver reúnem um conjunto de participantes potenciais competentes têm mecanismos que penalizam participantes com overfitting oferecem incentivos (financeiros) suficientes para que os participantes invistam esforço real na resolução do problema têm uma revisão pública das soluções vencedoras (após o fim da competição) Soluções vencedoras Toolkit vencedor: Python, em segundo lugar C++ Pacotes Python mais usados PyData: Numpy, Pandas, SciPy, Scikit Learn Deep Learning: PyTorch GBDT: LightGBM, XGBoost, CatBoost Hyperparameter Optimisation: Optuna Experiment Tracking: W&B Visualização: matplotlib, seaborn NLP Toolkit: Transformers Toolkit de visão computacional: Albumentations, OpenCV, pillow, scikit-image, timm

(mlcontests.com)

21 pontos por xguru 2023-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Destaques

As ferramentas convergem para Python, PyData, Pytorch e Gradient-boosted Decision Tree (GBDT)
O deep learning ainda não substituiu o GBDT em dados tabulares
Transformers lideram o NLP e começam a competir com redes neurais convolucionais (CNN) em visão computacional
As competições abrangem várias áreas de pesquisa, incluindo visão computacional, NLP, dados tabulares, robótica e análise de séries temporais
Soluções com modelo único às vezes vencem, mas grandes ensembles normalmente ganham
Existem várias plataformas de competições de machine learning, além de dezenas de sites criados para competições específicas
O machine learning competitivo continua crescendo em popularidade, inclusive na academia
50% dos vencedores são solo e 50% dos vencedores vencem pela primeira vez. 30% já haviam vencido duas vezes ou mais
Alguns competidores podem fazer investimentos significativos em hardware para treinar suas soluções, mas ainda é possível vencer usando hardware gratuito como o Google Colab

Panorama do ML Competitivo

Competições e tendências notáveis
- Em valor de premiação, Snowcast Showdown da DrivenData (patrocinado pelo Departamento de Desenvolvimento Territorial dos EUA). Prêmio de $500k
- A mais popular foi a American Express Default Prediction da Kaggle. Mais de 4.000 equipes participaram. Prêmio de $100k. O 1º lugar foi um participante solo estreante (rede neural + LightGBM)
- A maior competição independente foi a AI Audit Challenge de Stanford
- A maior área foi visão computacional: meio ambiente, medicina
- A segunda maior área foi NLP: NLP + busca, NLP + Reinforcement Learning
- A área de Sequential Decision-Making também está crescendo
Plataformas
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- Outras plataformas interessantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
Objetivo
- Competições bem organizadas
  - fornecem, junto com os dados de treino, problemas interessantes que valem a pena resolver
  - reúnem um conjunto de participantes potenciais competentes
  - têm mecanismos que penalizam participantes com overfitting
  - oferecem incentivos (financeiros) suficientes para que os participantes invistam esforço real na resolução do problema
  - têm uma revisão pública das soluções vencedoras (após o fim da competição)

Soluções vencedoras

Toolkit vencedor: Python, em segundo lugar C++
Pacotes Python mais usados
- PyData: Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT: LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation: Optuna
- Experiment Tracking: W&B
- Visualização: matplotlib, seaborn
- NLP Toolkit: Transformers
- Toolkit de visão computacional: Albumentations, OpenCV, pillow, scikit-image, timm

Panorama do Machine Learning Competitivo 2022

Destaques

Panorama do ML Competitivo

Soluções vencedoras

Leituras relacionadas

Ainda não há comentários.