כתבות עם התגית יואב רמון

Gradient Origin Networks

Sam Bond-Taylor, Chris G. Willcocks

אמלק:

Gradient Origin Networks הן סוג חדש של רשתות שעוזרות לנו למפות את המרחב הלטנטי של דטה-סט מסויים, עם רשתות קטנות ופשוטות יותר לאימון מ-GANs ו-VAE. המאמר עושה זאת תוך כדי ניצול של התחום המגניב החדש שנקרא Implicit Representation Learning .

הקדמה:

אז כדי להבין את המשמעות של הרשתות האלה אנחנו דבר ראשון צריכים ללמוד על תחום שלם שאני כמעט ולא הכרתי אותו לפני שקראתי את המאמר: Implicit Representation. המטרה של התחום באופן כללי היא לייצג סיגנלים, כמו תמונות, מודלים תלת-מימדיים או כל סוג אחר של אותות בתור רשת נוירונים שממפה קואורדינטה במרחב של הסיגנל לערך של הסיגנל בקואוקדינטה הזאת.

מה זה אומר? קל להסביר את זה בתמונה:
נניח תמונה שהיא 32 על 32 פיקסלים ויש בתוכה את הספרה "5". המטרה היא לייצר רשת שמקבלת כל מיקום של פיקסל בתמונה ובתורה מוציאה ערך בין 0-1 לפי הערך של הפיקסל בתמונה שאנו מנסים לייצג. באופן זה, אנחנו מאמנים את הרשת כבעיית ריגרסיה פשוטה שמטרתה היא לסווג את הפיקסלים. אם ניתן לרשת בתור Input את הערכים (0,0) היא תביא לנו את הערך 0, ואם נביא לה את הערכים (7, 10) היא תביא לנו את הערך 1.

 

דרך פעולה זו טובה משתי סיבות מרכזיות:

א. זאת דרך למפות מידע (כלשהו) בהסתמך על מורכבות, ולא בהסתמך על הרזולוציה שלו. אם נרצה לשמור בפורמט PNG את אותו מספר "5" ברזולוציה פי 2 יותר גבוהה נצטרך פי 4 יותר זכרון, פה הרשת לומדת את המהות של הסיגנל ולכן יכול להכיל מידע בכל רזולוציה שנבחר לייצא.

ב. אנחנו יודעים לעשות מלא דברים עם רשתות. אנחנו יודעים לצמצם, לחקור ולהריץ אותן ביעילות על כל מיני פלטפורמות. דמיינו שלא משנה אם תפתחו משחק מחשב תלת-מימדי, תרנדרו תמונה מהאינטרנט או תפתחו מסמך וורד, מה שבעצם תורידו זאת רשת נוירונים שיודעת למפות מיקום (נקודת X,Y,Z בעולם המשחק, נקודות X,Y בתמונה או מיקום מילה במסמך) למשמעות (הפוליגון שבמיקום הזה, ערך ה-RGB או המילה עצמה).

אני לא ארחיב פה לעומק על המשמעויות הנוספות של התחום הזה ועל למה לדעתי הוא מאוד מבטיח, אבל לכל מי שרוצה להרחיב אני ממליץ לקרוא על SIREN Networks. זה מאמר שלדעתי בעתיד יחשב ממש מכונן ויש לו כמה טריקים מגניבים שעוזרים למפות את הדוגמאות בצורה יותר טובה, לדוגמא סינוס בתור אקטיבציה. לכתבה המלאה >>

אני כמעט תמיד מתעצבן כשיש עבודה שטוענת שהיא "מגדירה את ה-Resnet מחדש". בדרך כלל מדובר באיזשהי אקטיבציה חדשה (מישהו שמע מ-Mish?) אבל לרוב יש לעבודות האלה אחת משלוש בעיות:

  1. החוקרים ניסו לאמן רק על משימה אחת (בדרך כלל קלסיפיקציה של תמונות)
  2. יש איזשהו טריידאוף שהוא לא תמיד ברור (האימון נהיה מהיר יותר, אבל התוצאות פחות טובות)
  3. אין קוד פתוח.

הבעיה השלישית היא כמובן הכי חמורה, כי כדי שאני אנסה להטמיע מאמר בתוך פרוייקט שאני עובד עליו כדאי שזה יהיה משהו קל להטמעה. בעיה מספר אחת גם חמורה כי אני רוצה לדעת שגם אם אני כבר השקעתי את הזמן להשתמש בטריק אז שהסיכויים גבוהים שזה באמת יעזור.

אז עם הפתיח הזה, בואו נדבר על:

ReZero is All You Need: Fast Convergence at Large Depth

Bachlechner, B. Majumder, H. Mao, G. Cottrell, J. McAuley (UC San Diego, 2020)

לכתבה המלאה >>

הבלוג פוסט נכתב במקור כפוסט על ידי יואב רמון בקבוצת Machine & Deep learning Israel

 

Pruning neural networks without any data by iteratively conserving synaptic flow


H. TANAKA, D. KUNIN, D. YAMINS, S. GANGULI (NTT + STANFORD)

מאמר שלדעתי הוא סופר משפיע, שילוב של עבודה מתמטית טובה, נושא עם חשיבות סופר פרקטית ובסוף גם קוד פתוח. יש פה הקדמה תיאורטית שלדעתי עוזרת להבין למה המאמר חשוב, ממליץ לקרוא אותה לכל מי שלא שוחה ממש בתחום של PRUNING.

לכתבה המלאה >>

X