Le k-NN est le diminutif de k Nearest Neighbors. C’est un algorithme qui peut servir autant pour la classification que pour la régression. Il est surnommé « nearest neighbors » (plus proches voisins, en français) car le principe de ce modèle consiste en effet à choisir les k données les plus proches du point étudié afin d’en prédire sa valeur.

En fait, le k-NN est un type spécial d’algorithme qui n’utilise pas de modèle statistique. Il est “non paramétrique” et il se base uniquement sur les données d’entraînement. Ce type d’algorithme est appelé memory-based. A contrario, la régression linéaire est paramétrique, de paramètre θθ et ne va donc pas avoir besoin de conserver toutes les données pour effectuer des prédictions, mais seulement θθ.