כתבות עם התגית Dynamical Isometry

אני כמעט תמיד מתעצבן כשיש עבודה שטוענת שהיא "מגדירה את ה-Resnet מחדש". בדרך כלל מדובר באיזשהי אקטיבציה חדשה (מישהו שמע מ-Mish?) אבל לרוב יש לעבודות האלה אחת משלוש בעיות:

  1. החוקרים ניסו לאמן רק על משימה אחת (בדרך כלל קלסיפיקציה של תמונות)
  2. יש איזשהו טריידאוף שהוא לא תמיד ברור (האימון נהיה מהיר יותר, אבל התוצאות פחות טובות)
  3. אין קוד פתוח.

הבעיה השלישית היא כמובן הכי חמורה, כי כדי שאני אנסה להטמיע מאמר בתוך פרוייקט שאני עובד עליו כדאי שזה יהיה משהו קל להטמעה. בעיה מספר אחת גם חמורה כי אני רוצה לדעת שגם אם אני כבר השקעתי את הזמן להשתמש בטריק אז שהסיכויים גבוהים שזה באמת יעזור.

אז עם הפתיח הזה, בואו נדבר על:

ReZero is All You Need: Fast Convergence at Large Depth

Bachlechner, B. Majumder, H. Mao, G. Cottrell, J. McAuley (UC San Diego, 2020)

לכתבה המלאה >>

X