Diffusion Models Beat GANs on Image Synthesis (סקירה)

מיכאל ארליכסון, 18/09/2021

קטגוריה: Deep Learning, Machine Learning, סקירות

סקירה זו היא חלק מפינה קבועה בה אני סוקר מאמרים חשובים בתחום ה-ML/DL, וכותב גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמתי, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.

לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום בחרתי לסקירה את המאמר שנקרא:

Diffusion Models Beat GANs on Image Synthesis

פינת הסוקר:

המלצת קריאה ממייק: חובה למי שרוצה ללמוד מודלים גנרטיביים פרט לגאנים ול-VAE.

בהירות כתיבה: בינונית.

רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת מאמר: הבנה טובה של עקרונות VAE, הבנה של שיטות דגימה מתקדמות כמו דינמיקה של לנגבין.

יישומים פרקטיים אפשריים: יצירת תמונות יותר "איכותיות" מהגישות המתחרות, קרי גאנים ו-VAE.

פרטי מאמר:

לינק למאמר: זמין להורדה.

לינק לקוד: זמין כאן

פורסם בתאריך: 01.06.21, בארקיב.

הוצג בכנס: טרם ידוע.

תחומי מאמר:

מודלים דיפוזיוניים כלומר Diffusion Denoising Probabilistic Models – DDPM לגנרוט של דאטה ויזואלי.

ידע מוקדם:

הבנה טובה בטכניקות מבוססות -variational inference לניתוח פונקציות נראות מירבית (כמו ב- VAE).
רקע טוב בהסתברות לא יזיק 🙂

מבוא:

מודלים גנרטיביים מבוססי רשתות נוירונים ליצירת דאטה ויזואלי רשמו התקדמות מרשימה בשנים האחרונות. מודלים כמו StyleGAN2 ו- VQ-VAE2 מסוגלים לגנרט תמונות מגוונות באיכות מרשימה בדומיינים שונים. כרגע רוב המודלים הגנרטיביים עם תוצאות SOTA הם מסוג גאן ו-VAE (עם יתרון ניכר לגאנים). מלבד גאנים ו- VAEs קיימים סוגים נוספים של מודלים גנרטיביים שמבוססים על גישות אחרות כמו מודלים דיפוזיאוניים ומודלים מבוססי זרימה (flow). עד כה מודלים אלו לא הצליחו (לפחות מבחינת המדדים המקובלים כמו FID ו-Inception Score – IS) להציג ביצועים ברי השוואה עם תוצאות SOTA. נציין כי לפחות מבחינה ויזואלית איכות התמונות הנוצרות באמצעות מודלים דיפוזיוניים ומבוססי זרימה לא נופלת מזו של אלו הנוצרות באמצעות גאנים ו-VAE-ים המתקדמים ביותר (דעה אישית).

המאמר הנסקר הוא הראשון (למיטב ידיעתי) שבו הצליח מודל דיפוזיאני להגיע לביצועים טובים יותר ממודלים גנרטיביים, אשר נותנים כיום את התוצאות הטובות ביותר. זו בשורה משמעותית עד כדי כך שמחברי המאמר ציינו אותה ישירות בכותרת 🙂

תמצית מאמר:

המאמר הנסקר מתבסס על שני מאמרים קודמים ומציע שורת שיפורים שהצליחו ״להרים את הביצועים של DDPM" לרמה של גאנים ומעבר לכך:

מאמר רקע 1 למעשה הציע את מה שנקרא Denoising Diffusion Probabilistic Model או בקיצור DDPM. מעניין כי מודלים דיפוזיאוניים לגנרוט דאטה הומצאו עוד ב-2015 ב- מאמר רקע 0.
מאמר רקע 2 הציע רפרמטריזציה של פונקציית הלוס, שינוי של תהליך האימון (יפורט בהמשך) וכמה טריקים נחמדים נוספים שבפועל שיפרו את איכות התמונות המגונרוטות באמצעות המודל.
המאמר הנסקר מציע דרך לנצל דאטה מתויג לאימון מודל דיפוזיאוני לצד כמה שיפורי ארכיטקטורה של רשתות נוירונים המעורבות בתהליך הגנרוט.

כאמור, המאמר הנסקר מציג שורת שיפורים למאמר רקע 2 שבעצמו מהווה גרסה משודרגת של מאמר רקע 1. עקב כך אתחיל מסקירה מפורטת ומעמיקה של מודל דיפוזיאוני שהוצג במאמר רקע 1, לאחר מכן אסקור את השדרוגים של מאמר רקע 2 של המאמר הנסקר.

תקציר מאמר רקע 1:

מודל דיפוזיאוני DDPM לגינרוט דאטה: הרעיון של DDPM הוא די פשוט. לוקחים תמונה, מוסיפים אליה רעש גאוסי במשך כמה איטרציות (מאות או אלפים) עד שהתמונה הופכת להיות לרעש גאוסי איזוטרופי (N(0, I – זה נקרא תהליך קדמי (forward process). המטרה של מודל דיפוזיאוני הוא למדל (ללמוד) את התהליך ההפוך (reverse process) – כלומר לגנרט תמונה מרעש גאוסי איזוטרופי צעד אחרי צעד.

מטרת אימון DDPM: המטרה היא למדל את ההתפלגות Pr(x_t-1|x_t) כאשר x_t היא התמונה המתקבלת באיטרציה t של התהליך הקדמי המתואר לעיל. באופן פורמלי, אם נסמן את התפלגות התמונות מהדאטהסט ב- x₀~q(x₀), אז התהליך הקדמי יתואר באופן הבא:

כאשר (β_t∈(0, 1 הם סדרה של קבועים דטרמיניסטיים ו- T מסמן את מספר האיטרציות של התהליך.

חיזוי: כמו שכנראה כבר ניחשתם זמן החיזוי הוא עקב האכילס של מודלים דיפוזיוניים. כדי לבנות תמונה מרעש אנו צריכים לשחזר את כל הצעדים של התהליך ההפוך. המאמר הנסקר מדבר על בערך 4000 איטרציות המצריכים הרצה של 4K רשתות אחת אחרי השנייה שזה כמובן מאוד בעייתי.

פרטים על הרעש המוסף: תוחלת (פר פיקסל) של רעש גאוסי המוסף בכל איטרציה תלויה בערך של הפיקסל. רעש המוסף עבור פיקסל {i, j} באיטרציה t מוגדר באמצעות התפלגות נורמלית N(√α_tx_t-1,ij, β_t), כאשר. α_t=1- β_t ו- x_t-1,ij הינו ערך הפיקסל {i, j} בתמונה מורעשת מאיטרציה t-1.

נקודה חשובה: מידול של התהליך ההפוך עשוי להיראות פשוט לאור העובדה שהתהליך הקדמי (המתואר באמצעות התפלגות q(x_t|x_t-1)) מתפלג גאוסית. אולם השערוך של q(x_t-1|x_t) אינו משימה פשוטה והתפלגות זאת אינה גאוסית. הסיבה לכך היא שלהבדיל מהתהליך הקדמי שהוא הוספה של רעש גאוסי בעל תוחלת ושונות ידועות לתמונה, התהליך ההפוך הוא למעשה ניקוי של תמונה מורעשת מחלק של הרעש שיש בה (מכאן באה המילה denoising בשם של המודל). כדי לבצע denoising כזה נדרשות ״הבנות״ של ההתפלגויות של תמונות המתקבלות בשלבים השונים של תהליך דיפוזיוני.

עקב המורכבות הטמונה במידול של q(x_t-1|x_t) משערכים אותה באמצעות התפלגות גאוסית פרמטרית p(x_t-1|x_t) הממודלת ע״י ,מי היה מנחש, רשת נוירונית. פורמלית:

כאן Σ_θ(x_t, t) = γ_tI (כלומר הרשת חוזה רק את סקלר γ_t).

נקודה חשובה: למה ניתן לקרב q(x_t-1|x_t) באמצעות p(x_t-1|x_t) גאוסי בדיוק טוב?

הרי כבר אמרנו ש- q "טומנת בה ידע על התפלגות התמונות" של הדאטהסט עליו מאומן DDPM. מתברר כי קירוב זה עובד טוב כאשר הרעש המוסף בכל שלב של תהליך קדמי הוא בעל תוחלות ושונויות נמוכות מספיק (אחד מהמאמרי רקע מציין כי קיימת הוכחה של גאוסיות תחת תנאים מסוימים על התפלגות של q(x₀) אך לא ראיתי אותה).

DDPM מול מודלים גנרטיביים אחרים: ברמת העיקרון DDPM די דומה למודלים גנרטיביים אחרים כמו גאן, VAE או מודלי זרימה שגם יוצרים תמונה מרעש. אבל כאן הדמיון בין גישות אלו נגמר כי הדרכים בהן הן ממדלות מיפוי מרעש לתמונה הן מאוד שונות (למרות ש-VAE ו-DDPM משתמשים ב-ELBO לבנייה של פונקציית המטרה שלו).

איך מאמנים מודל דיפוזיוני? מטרת האימון של מודל דיפוזיוני היא מיקסום לוג של נראות מירבית (log likelihood) של הדאטהסט ביחס לוקטור פרמטרים θ. כמובן לוג של נראות מירבית של דאטהסט נתון הוא סכום של log(p(x)) עבור כל התמונות x מהדאטהסט. בדומה ל- VAE (אך עם קצת סיבוך עקב איטרציות מרובות המעורבות בתהליך), משתמשים בחסם תחתון (ELBO) כדי לקבל את פונקציית מטרה L_vlb של בעיית אופטימיזציה עבור מודל דיפוזיאוני:

כאן p(x_T) הוא רעש גאוסי איזוטרופי.

הסבר על האיברים של L_vlb:

L₁ – מודד עד כמה "סביר" לקבל את התמונה המקורית x₀ מתמונה x₁ שהתקבלה בשלב לפני האחרון של התהליך ההופכי.

L_t, 0 < t < T – מודד דמיון בין ההתפלגות המשערכת p(x_t-1|x_t) לבין ״ההתפלגות האמיתית״q(x_t-1|x_t, x₀) הנדגמת לתמונה x₀ מהדאטהסט .
L_T – מודד עד כמה x_T, המתקבל בשלב האחרון של התהליך הקדמי', "קרובה" (במונחי התפלגות) לרעש גאוסי איזוטרופי.

תהליך אימון של DDPM בגדול: פונקציית הלוס שלנו היא סכום של T מחוברים אי שליליים. כדי למזער אותה, דוגמים [t ∈ [0, T ומבצעים איטרציה של gradient descent על האיבר L_t של הסכום. כאמור אנו מאמנים רשת N_θ כדי לחזות את התפלגות p(x_t-1|x_t) לכל [t ∈ [0, T. בכל איטרציה מאפטמים את הפרמטרים של N_θ כדי למזער את הלוס L_t עבור t הנדגם (t מוזן לתוך הרשת).

פלט של הרשת: הדרך הטבעית היא לאמן את הרשת לחזות את μ_θ(x_t, t) ו- Σ_θ(x_t, t) = γ_tI תוחלת ומטריצת הקווריאנס של p(x_t-1|x_t) . אך ניתן גם לאמן N_θ לחזות פרמטרים אחרים המעורבים בתהליך (כמו התפלגות p(x₀) של התמונה המקורית x₀) מהם (יחד עם x_t) ניתן לגזור את μ_θ(x_t, t) ו- γ_t.

הערה: במאמר רקע 1 γ_t לא נחזה באמצעות רשת נוירונים אלא משתמשים בקירוב שלו – הסיבות לכך יפורטו בהמשך.

מאמר רקע 1 בחר לאמן N_θ כדי לחזות פרמטר אחר שניתן לגזור ממנו את μ_θ(x_t, t) תוך שימוש בתכונות של התהליך הקדמי. כעת נרחיב איך ניתן לעשות זאת. ניתן לבצע את רפרמטריזציה הבאה להתפלגות q:

כאשר ε הוא רעש גאוסי סטנדרטי (N(0,I. אינטואיטיבית די ברור כי x_t|x₀ מתפלג גאוסית כי x t נבנה מ- x₀ באמצעות הוספת רעשים גאוסיים בעלי תוחלות ושונויות ידועות. בנוסף מתקיים:

במאמר רקע 1 מאמנים N_θ לחזות את רעש המוסף ε בשלב t (המחברים טוענים שזה משפר את איכות התמונות המיוצרות) שממנו ניתן לגזור μ_θ(x_t, t) באופן הבא:

למעשה פונקציית לוס שהרשת N_θ מאומנת למזער היא:

הערה: כמו שכבר ציינתי מאמר רקע 1 לא משערך γ_t אלא משתמש רק בקירובו t (שונות של x_t|x_t-1). למעשה ניתן לראות כי β˜_t< γ_t < β_t (ערכים דטרמיניסטיים) אך בפועל שימוש בכל אחד חסמים אלו הוביל לתוצאות מאוד דומות. צריך לציין שימוש ב- L_simpleשקול למשקול של המחוברים בפונקצית המטרה המקורית L_vlb (זה נובע מהצורה של מרחק KL בין התפלגויות גאוסיות).

ארכיטקטורת רשת:

מבוססת על זו של PixelCNN++ שהיא שילוב U-Net ו- Wide ResNet. כדי לקודד את מספר איטרציה t משתמשים בקידוד מיקומי (positional encoding) מהמאמר המקורי על הטרמספורמרים (Attention is All You Need, זוכרים?). המחברים גם משתמשים במנגנון self-attention בין שכבות קונבולוציה ברזולוציות שונות.

בכך סיימנו לתאר את DDPM כמו שהוצג במאמר רקע 1. כעת נעבור לשינויים שהוצעו למודל זה במאמר רקע 2 ובמאמר הנסקר.

תקציר שיפורים/שינויים של DDPM:

למעשה יש ארבעה סוגים של שיפורים שבזכותם DDPM הצליח להכות את הגאנים:

שינויים בפרמטרים של התהליך הקדמי:

מאמר רקע 2 (פרק 3.2): קבועי [β_t, t ∈ [0, T נקבעים באופן שונה. המחברים שמו לב כי השלבים האחרונים של התהליך הקדמי יוצרים תמונות רועשות מדי ולא תורמים לאיכות התמונה המגונרטת. עקב כך הוצע לקבוע קבועים אלו כדי "להאט הפיכתה של תמונה לרעש".

שינויים בפונקציית לוס ובתהליך אימון של N_θ :

מאמר רקע 2 (פרק 3.1): כאמור בגרסה המקורית של DDPM המחברים החליטו לא לשערך שונות γ_tשל x_t-1|x_t והסתפקו בשערוך של תוחלתו (באופן עקיף דרך ε ). ההסבר שלהם לגבי למה זה עובד מספיק טוב היה טמון בעובדה כי β˜_t< γ_t < β_t אך β_t ו- β˜_t הם מאוד קרובים עבור רוב ערכי t. מאמר רקע 2 נקט בגישה אחרת והציע רפרמטריזציה קמורה של (γ_t=exp(vlog(β˜_t) + (1-v) logβ_t, כאשר v ∈ (0,1) ואימנו רשת לשערוך של v. נציין כי פונקצית הלוס הקודמת L_simple לא מכילה את t אז המחברים השתמשו צירוף לינארי של L_simple ו- L_vlb בתור פונקציית לוס חדשה.
מאמר רקע 2 (פרק 3.3) מחליף דגימה יוניפורמית ב- t ב- importance sampling. ההסתברות של בחירת ערך t פרופורציאונלית לערך שגיאת L_tהממוצע. לטענת המחברים זה מקטין את התנודתיות של הגרדיאנטים שלהם.
המאמר הנסקר משתמש בדאטה מתויג לאימון של DDPM. הרעיון הוא לנצל תמונות מתויגות ל״ניווט של מודל דיפוזיוני לכיוון״ שבו תמונות שהוא מייצר בתהליך הופכי, יסווגו עם הקטגוריה נכונה בוודאות גבוהה באמצעות מסווג מאומן מראש. כלומר לכל ערך של t מאמנים רשת מסווגת N_φ_,_t שהפלט שלה עבור תמונה x_t (מאיטרציה t) הוא p_φ(y|x_t) עבור קטגוריה y. במהלך האימון לתמונה בעלת קטגוריה y, ״מתקנים״ את ההתפלגות x_t-1|x_t באופן כזה שהתמונות תקבלנה ערך גבוה של p_φ(y|x_t-1). במקום לשערך p(x_t-1|x_t) אנו משערכים (דוגמים מ-): p,(x_t-1|x_t,y)=Zp(x_t-1|x_t)p(y|x_t-1). כמו שאתם יכולים לנחש שערוך כזה לא לגמרי קל ומערב מתמטיקה לא טריוויאלית (זה מבוסס על score-based generative models הקשורים לדינמיקה של לנגבין). יותר פרטים נמצאים בפרק 4 של המאמר הנסקר.

שיפורים בארכיטקטורה של N_θ:

מנגנון attention בעל רזולוציות מרובות (multi-resolution).
שימוש בבלוקים residual של BigGAN ל- up/downsampling.
(Adaptive group normalization (AdaGN

זירוז תהליך החיזוי: שינוי בהגדרת תהליך הופכי שמאפשר חיזוי מדויק של x_t-1 מ- x_t-1+mעבור m>0. שינוי זה מאפשר לדגום את x_t כל m צעדים ול-m גדול מקטין את זמן החיזוי באופן משמעותי. המתמטיקה העומדת מאחורי ההגדרה החדשה הזו די לא טריוויאלית ובנוסף התהליך הקדמי מאבד את המרקוביות שלו כי x_t תלוי באופן מפורש גם ב-x₀.

הישגי מאמר:

כאמור המודל הדיפוזיאוני המוצע הצליח להכות את הגאנים המובילים מבחינת FID. זמן החיזוי עדיין נותר די גבוה יחסית לגאן אבל יש שיפור ניכר יחסית למודלים דיפוזיאוניים קודמים.

נ.ב.

מאמר ממש מגניב המצריך הבנה מעמיקה של 3 מאמרים שקדמו לו בנושא של מודלים דיפוזיוניים (ועוד שניים בנושאים סמוכים). המתמטיקה לא טריוויאלית אבל היה שווה את המאמץ.

#deepnightlearners

הפוסט נכתב על ידי מיכאל (מייק) ארליכסון, PhD, Michael Erlihson.

מיכאל עובד בחברת הסייבר Salt Security בתור Principal Data Scientist. מיכאל חוקר ופועל בתחום הלמידה העמוקה, ולצד זאת מרצה ומנגיש את החומרים המדעיים לקהל הרחב.

הפוסט נכתב על ידי

מיכאל ארליכסון

עוד בנושא:

Deep Learning

Diffusion Models Beat GANs on Image Synthesis (סקירה)

סדרת סקירות כל הדרך לממבה: סקירות 10-12

Navigating AI-Driven Security Frontiers (אירוע)

סדרת סקירות כל הדרך לממבה: סקירות 7-9