The quadratic sandwich
L'article explique que deux propriétés, la forte convexité (paramètre μ) et la L-lissité (paramètre L), encadrent une fonction par deux bornes quadratiques qui fixent une courbure minimale et maximale. La combinaison de ces bornes forme un sandwich quadratique et le rapport κ = L/μ, appelé nombre de condition, mesure l'écart entre les deux bornes et la difficulté d'optimisation. Sans forte convexité la fonction peut être plate dans certaines directions et le gradient ne renseigne pas la distance au minimum, tandis que sans L-lissité la courbure peut exploser localement et provoquer des dépassements lors de pas de descente de gradient. Sur le plan spectral, ces propriétés équivalent à des bornes uniformes sur les valeurs propres du Hessien, μ ≤ λ_i(x) ≤ L, et une large dispersion des valeurs propres rend l'action du Hessien très anisotrope, causant le zigzag de la descente de gradient. Enfin, l'article propose une astuce pratique : f est L-lisse si g(x)= (L/2)∥x∥^2 − f(x) est convexe et f est μ-fortement convexe si h(x)=f(x)−(μ/2)∥x∥^2 est convexe, ce qui évite le calcul explicite des valeurs propres.