close menu

אופטימייזר חדש ש(אולי) באמת יותר טוב מאדם

מאמר: https://arxiv.org/abs/2302.06675
קוד: https://github.com/google/automl/tree/master/lion
גוגל שחררו אתמול מאמר חדש בו הם מתארים שפשוט נשבר להם מזה שאין אופטיימיזר יותר טוב מאדם כבר עשר שנים.
על מנת למצוא פתרון הם משסים בבעיה 512 TPUs ופשוט מוצאים אופטימייזר בכוח.
לטענתם האופטימייזר יותר טוב מAdamW בהכל, גם מהירות התכנסות, גם ביצועים וגם צריכת זכרון.
והוא כל כך פשוט שנראה שהוא "תמיד היה מול העיניים". תראו בתמונה!
תגובה הגיונית: "טוב אחי."
די נו, אין שום סיכוי שזה עובד:
אני מסכים. כך גם אני חשבתי. יש כל כך הרבה אופטימייזרים שטענו שיותר טובים מאדם בעשרת השנים האחרונות ומשום מה עדיין כולם משתמשים באדם.

בAdamW ליתר דיוק. כולם משתמשים בAdamW
מידי פעם צצים להם כל מיני LAMB או AdaFactor במאמרים וטוענים שטובים יותר מAdam.
וזה עוד בלי להזכיר את AdamWarmUp ,AdamW, RAdam, Adamax, Nadam, Amsgrad וכל עשרות ה"אדם עם טוויסט" שקיימים ברשת.
מה באמת הקטע של גוגל עם AdaFactor? אני שמח שהם סוף סוף הפסיקו עם זה במאמר האחרון של ViT. זה עבד למישהו במציאות?
ועדיין, למרות שהאופטימייזרים "יותר טובים" אף אחד לא משתמש בהם אחרי המאמר. (גם הכותבים של המאמר במאמרים הבאים!)
הפעם אבל, יכול להיות שהמצב קצת אחר:
בגלל שהאופטימייזר כל כך פשוט וקל, גוגל שחררו אותו לכל הספריות והגרסאות ונתנו לאנשים באינטרנט לשחק איתו ולאמר מה דעתם.
ודעתם טובה! אנשים באינטרנט מדווחים על אימון מהיר יותר של רשתות נוירונים בכל התחומים!
עם כיול מחדש של הLR.
אני גם ניסיתי אותו, בנתיים לא ראיתי שיפור (וחיפשתי די חזק את הLR).
איך התבצע החיפוש?
בכוח. בכוח הוא התבצע.
עבור כל אופטימייזר שנמצא על ידי החיפוש, אומנו כמה רשתות נוירונים קטנות בכמה משימות שונות (ViT על בחירת 10% דוגמאות מImageNet ועוד משימות שפה וכו') כשלכל אחד ניתנו 100 TPUs.
לבסוף, האופטימייזרים הטובים ביותר הורצו לאימון 16 רשתות בגודל מלא במשימות מכל הסוגים: סיווג תמונות, יצירת טקסט, מודלי דיפוזציה טקסט -> תמונה, מודלי טקסט -> טקסט כשלכל מודל הוקצו 512 TPUs.
ג'יזס.
ורק כדי להיות בטוחים שאין שום סיכוי שהאופטימייזר איכשהו בטעות יצא פחות טוב מאדם, עבור כל בעיה ובעיה האדם מולו השוו תוצאות עבר חיפוש היפרפרמטרים.
ככה עושים את זה!
עוד בנושא: