Diffusion Model

Modèle génératif apprenant à débruiter pour générer images, audio, vidéo.

Les Diffusion Models sont une classe de modèles génératifs qui apprennent à inverser un processus de bruitage progressif. Devenue dominante pour image generation depuis Stable Diffusion (Stability AI 2022) et DALL-E 2 (OpenAI 2022), maintenant standard pour images, audio, video, et molecular design.

Intuition : (1) **Forward process** — ajouter progressivement du bruit gaussien à une image jusqu'à pur noise (T steps) ; (2) **Reverse process** — model apprend à dénoiser step-by-step depuis noise vers image cohérente, conditionné par text prompt ; (3) Inference : start with pure noise, iteratively denoise via N=20-50 steps pour image finale.

Variantes : (1) **DDPM** (Denoising Diffusion Probabilistic Models, Ho 2020) — original ; (2) **DDIM** (Denoising Diffusion Implicit Models) — fewer sampling steps ; (3) **Latent Diffusion** (Stable Diffusion) — diffusion in compressed latent space (VAE) vs pixel space — drastically reduces compute ; (4) **Score-based generative models** — equivalent formulation via score matching ; (5) **Consistency Models** — single-step generation ; (6) **Rectified Flow** (FLUX architecture).

Modèles image-generation leaders : (1) **Stable Diffusion** family (SD 1.5, SDXL, SD 3, SD 3.5 — Stability AI open weights) ; (2) **FLUX.1** (Black Forest Labs, ex-Stability team — leader open weights 2024+) ; (3) **Midjourney v6/v7** (closed, top quality artistic) ; (4) **DALL-E 3** (OpenAI) ; (5) **Imagen 3/4** (Google) ; (6) **Adobe Firefly** ; (7) **Ideogram** — fort sur text in images.

Features : ControlNet (conditioning sur edges, pose, depth), IP-Adapter (style transfer), Inpainting, Outpainting, LoRA fine-tuning, img2img.

Video diffusion : Sora (OpenAI), Veo (Google), Runway Gen-3, Kling, Pika, Hailuo, Genmo Mochi — text-to-video et image-to-video.

Audio diffusion : Stable Audio, MusicGen (Meta), Suno, Udio — text-to-music, sound effects generation.

Use cases : marketing visuals, concept art, product mockups, ad variations, gaming assets, video shorts, music production. Compétences AI-102, AIF-C01.

Préparez vos certifications IT gratuitement