A Visual Introduction to Machine Learning (2015)
En apprentissage automatique, les ordinateurs utilisent des techniques statistiques pour identifier des motifs dans les données et faire des prédictions. On illustre cela avec un jeu de données sur des logements afin de distinguer San Francisco de New York selon des caractéristiques comme l'altitude et le prix au pied carré. Les dimensions d'un ensemble de données s'appellent des caractéristiques et l'entraînement d'un modèle peut être montré par une matrice de graphiques de dispersion pour observer les relations entre paires de variables. Un arbre de décision applique des forks du type si une caractéristique dépasse un seuil, et il existe des compromis entre faux positifs et faux négatifs lors du choix du point de séparation. Après l'entraînement, l'évaluation sur des données de test permet de vérifier l'overfitting et l'amélioration se fait par des itérations jusqu'aux feuilles où les prédictions deviennent homogènes.