Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Tree-Based Models

Tree-based models partition the feature space using a hierarchy of decision rules. They handle non-linear relationships natively and require minimal preprocessing.

ModelTaskDescription
DecisionTreeBothSingle decision tree (classifier and regressor)
RandomForestBothEnsemble of decorrelated decision trees via bagging
GradientBoostingBothSequential boosting with gradient descent on residuals
AdaBoostBothAdaptive boosting with sample reweighting

Choosing the right model

SituationRecommended model
Interpretability requiredDecisionTreeClassifier
High accuracy, parallel trainingRandomForestClassifier
Best accuracy, careful tuningGradientBoostingClassifier
Simple boosting, fast trainingAdaBoostClassifier

Key properties

  • All models expose feature_importances_ for feature selection.
  • All support fit, predict, score, get_params, set_params.
  • Ensemble models (RandomForest, GradientBoosting, AdaBoost) are significantly more robust to overfitting than a single decision tree.

Les modèles basés sur les arbres partitionnent l'espace des variables à l'aide d'une hiérarchie de règles de décision. Ils gèrent nativement les relations non linéaires et nécessitent peu de prétraitement.

ModèleTâcheDescription
DecisionTreeLes deuxArbre de décision unique (classifieur et régresseur)
RandomForestLes deuxEnsemble d'arbres décorrélés via le bagging
GradientBoostingLes deuxBoosting séquentiel avec descente de gradient sur les résidus
AdaBoostLes deuxBoosting adaptatif avec rééchantillonnage

Choisir le bon modèle

SituationModèle recommandé
Interprétabilité requiseDecisionTreeClassifier
Haute précision, entraînement parallèleRandomForestClassifier
Meilleure précision, réglage finGradientBoostingClassifier
Boosting simple, entraînement rapideAdaBoostClassifier

Propriétés clés

  • Tous les modèles exposent feature_importances_ pour la sélection de variables.
  • Tous supportent fit, predict, score, get_params, set_params.
  • Les modèles ensemblistes (RandomForest, GradientBoosting, AdaBoost) sont bien plus robustes au surapprentissage qu'un arbre de décision unique.