Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

Neighbors

Instance-based models make predictions by looking at the closest training examples in feature space. No explicit model is fitted — the training data itself is the model.

ModelTaskDescription
KNeighborsClassifier / KNeighborsRegressorBothk-nearest neighbours using Euclidean distance

Key properties

  • Non-parametric — no assumptions about the data distribution.
  • Lazy learning — training is $O(1)$; all computation is deferred to prediction time.
  • Effect of k — small $k$ = high variance (overfitting); large $k$ = high bias (underfitting). Tune via cross-validation.
  • Works best on low-to-medium dimensional datasets. Performance degrades in high dimensions (curse of dimensionality).

Les modèles à base d'instances font des prédictions en cherchant les exemples d'entraînement les plus proches dans l'espace des variables. Aucun modèle explicite n'est ajusté — les données d'entraînement constituent le modèle.

ModèleTâcheDescription
KNeighborsClassifier / KNeighborsRegressorLes deuxk plus proches voisins avec distance euclidienne

Propriétés clés

  • Non-paramétrique — aucune hypothèse sur la distribution des données.
  • Apprentissage paresseux — l'entraînement est $O(1)$ ; tout le calcul est reporté à la prédiction.
  • Effet de k — petit $k$ = forte variance (surapprentissage) ; grand $k$ = fort biais (sous-apprentissage). À régler par validation croisée.
  • Fonctionne mieux sur des données de dimension faible à moyenne. Les performances se dégradent en haute dimension (malédiction de la dimensionnalité).