From Noise to Image – interactive guide to diffusion
Le texte expose l'immense éventail d'images possibles, estimé à environ un 1 suivi de 400 000 zéros. La grande majorité de ces images n'est que du bruit et on peut voir jusqu'à 60 images aléatoires par seconde selon l'ordinateur. Les modèles de diffusion partent du bruit et le retirent progressivement pour faire émerger une image cohérente, contrairement à la création humaine qui part d'une toile vierge. Ils opèrent dans un espace latent plus petit que l'espace des images et utilisent un encodeur-décodeur pour passer du latent aux images réelles, tandis que les prompts textuels sont mappés dans un espace d'embedding. Le processus est régulé par le seed aléatoire, la longueur du prompt, le nombre d'étapes d'inférence et l'échelle de guidage qui influencent précision et style.