Neighbors

Instance-based models make predictions by looking at the closest training examples in feature space. No explicit model is fitted — the training data itself is the model.

Model	Task	Description
KNeighborsClassifier / KNeighborsRegressor	Both	k-nearest neighbours using Euclidean distance

Key properties

Non-parametric — no assumptions about the data distribution.
Lazy learning — training is $O(1)$; all computation is deferred to prediction time.
Effect of k — small $k$ = high variance (overfitting); large $k$ = high bias (underfitting). Tune via cross-validation.
Works best on low-to-medium dimensional datasets. Performance degrades in high dimensions (curse of dimensionality).

Les modèles à base d'instances font des prédictions en cherchant les exemples d'entraînement les plus proches dans l'espace des variables. Aucun modèle explicite n'est ajusté — les données d'entraînement constituent le modèle.

Modèle	Tâche	Description
KNeighborsClassifier / KNeighborsRegressor	Les deux	k plus proches voisins avec distance euclidienne

Propriétés clés

Non-paramétrique — aucune hypothèse sur la distribution des données.
Apprentissage paresseux — l'entraînement est $O(1)$ ; tout le calcul est reporté à la prédiction.
Effet de k — petit $k$ = forte variance (surapprentissage) ; grand $k$ = fort biais (sous-apprentissage). À régler par validation croisée.
Fonctionne mieux sur des données de dimension faible à moyenne. Les performances se dégradent en haute dimension (malédiction de la dimensionnalité).

Keyboard shortcuts

SeraPlot Documentation

Neighbors

Key properties

Propriétés clés