21 pontos por xguru 2023-03-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Destaques

  • As ferramentas convergem para Python, PyData, Pytorch e Gradient-boosted Decision Tree (GBDT)
  • O deep learning ainda não substituiu o GBDT em dados tabulares
  • Transformers lideram o NLP e começam a competir com redes neurais convolucionais (CNN) em visão computacional
  • As competições abrangem várias áreas de pesquisa, incluindo visão computacional, NLP, dados tabulares, robótica e análise de séries temporais
  • Soluções com modelo único às vezes vencem, mas grandes ensembles normalmente ganham
  • Existem várias plataformas de competições de machine learning, além de dezenas de sites criados para competições específicas
  • O machine learning competitivo continua crescendo em popularidade, inclusive na academia
  • 50% dos vencedores são solo e 50% dos vencedores vencem pela primeira vez. 30% já haviam vencido duas vezes ou mais
  • Alguns competidores podem fazer investimentos significativos em hardware para treinar suas soluções, mas ainda é possível vencer usando hardware gratuito como o Google Colab

Panorama do ML Competitivo

  • Competições e tendências notáveis
    • Em valor de premiação, Snowcast Showdown da DrivenData (patrocinado pelo Departamento de Desenvolvimento Territorial dos EUA). Prêmio de $500k
    • A mais popular foi a American Express Default Prediction da Kaggle. Mais de 4.000 equipes participaram. Prêmio de $100k. O 1º lugar foi um participante solo estreante (rede neural + LightGBM)
    • A maior competição independente foi a AI Audit Challenge de Stanford
    • A maior área foi visão computacional: meio ambiente, medicina
    • A segunda maior área foi NLP: NLP + busca, NLP + Reinforcement Learning
    • A área de Sequential Decision-Making também está crescendo
  • Plataformas
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • Outras plataformas interessantes: Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Objetivo
    • Competições bem organizadas
      • fornecem, junto com os dados de treino, problemas interessantes que valem a pena resolver
      • reúnem um conjunto de participantes potenciais competentes
      • têm mecanismos que penalizam participantes com overfitting
      • oferecem incentivos (financeiros) suficientes para que os participantes invistam esforço real na resolução do problema
      • têm uma revisão pública das soluções vencedoras (após o fim da competição)

Soluções vencedoras

  • Toolkit vencedor: Python, em segundo lugar C++
  • Pacotes Python mais usados
    • PyData: Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT: LightGBM, XGBoost, CatBoost
    • Hyperparameter Optimisation: Optuna
    • Experiment Tracking: W&B
    • Visualização: matplotlib, seaborn
    • NLP Toolkit: Transformers
    • Toolkit de visão computacional: Albumentations, OpenCV, pillow, scikit-image, timm

Ainda não há comentários.

Ainda não há comentários.