על SCALING LAWS לרשתות עמוקות

זמן קצר לאחר שחרור GPT-3 שוחרר עוד מאמר מOpenAI..
המאמר: Scaling Laws for Neural Language Models.
במאמר מתוארת סדרת ניסוים במודלי שפה: בגדלים שונים, עם כמות דאטה משתנה, כוח מחשוב משתנה ומנסה למצוא את הנקודה האופטימלית התוביל ללוס הנמוך ביותר בוולידציה.
דעתי האישית לגבי הניסוים: ניסוים אלו בוצעו (ככל הנראה) מכיוון שOpenAI חברה למטרת רווח. לGPT-3 עלויות אימון כבדות וכשהוא מאומן יש ממנו גם הכנסות. מובן מאליו שהם יבדקו איך לייעל אותו. אני די מעריך אותם שהם בכלל שחררו את כל המידע הזה החוצה.
אחת מתוצאות המאמר היא שכרגע, ככל שמגדילים את מס' הפרמטרים, כמות הדאטה, כוח המחשוב: אין גבול לשיפור.
אין גבול?
התוצאות משתפרות גם הן ולא נראה שיש לזה סוף. כרגע נראה שהשיפור כמעט לינארי.
המשמעות מבחינת השחקניות הגדולות: "יש לנו עוד הרבה לאן לדחוף את המודלים אם רק נמשיך לזרוק עליהם עוד כסף."
להמשיך להגדיל אותם הרבה יותר זול מלחקור איך להקטין אותם
והרבה פחות מסוכן מבחינה כספית
-
יכול להיות שהעלויות נשמעות גבוהות כי מודדים את העלויות האלו במיליונים.
-
אבל שעות מחקר של צוות חוקרים מהר מאד הופכות ליקרות יותר משעות עיבוד.
-
גם של המודל הכי גדול בעולם.
חוקרים בדרך כלל אנשים עם השכלה גבוהה והרבה ניסיון. הזמן שלהם יקר.
ולכן: ללחוץ על הגזזזזז! אין ברירה אחרת.
מבחינת הציבור
המאמר הזה קיבל פרשנויות קיצוניות ויצר הד תקשורתי רציני.
את המאמר הזה ספציפית אנשים הצליחו לפרש בצורות קיצוניות שונות ומשונות.
מבחינת הרבה אנשים המאמר הוא לא פחות מתחזית לAGI.
איך יוצרים AGI לפי המאמר:
– אם GPT-3 כל כך טוב.
– אם כל מה שצריך כדי שהוא יהיה עוד יותר טוב – עוד כוח עיבוד.
– לא נראה שיש סוף לשיפור של GPT-3.
– אז AGI IS COMING – SCALE IS ALL YOU NEED. כמובן!
ויש גם קמפיין חולצות: התחילו למכור חולצות "AGI IS COMING – SCALE IS ALL YOU NEED". בNeurIPS האחרון היו קולקציות שלמות סביב אותו הרעיון. דיונים שלמים באינטרנט על הנושא..
אז הכל נגמר.
אין יותר Deep Learning.
אפשר לחזור הביתה.
היה נחמד.
אתם אחלה אנשים.
נפגש במסיבת סוף העולם בNeurIPS הבא.
מירוץ חימוש
מרגע זה כל השחקניות הגדולות לחצו על הגז.
-
אם GPT-3 בגודל 175 מיליארד פרמטרים, אז:
-
בDeepMind אימנו מודל בגודל 280 מיליארד פרמטרים – Gopher
-
בNVidia אימנו מודל בגודל 530 מיליארד פרמטרים – Megatron-Turing
-
בגוגל אימנו מודל בגודל 540 מיליארד פרמטרים – Palm
-
בגוגל אימנו מודל בגודל 1.6 טריליון פרמטרים – Switch Transformer
-
ב Beijing Academy of Artificial Intelligence אימנו מודל בגודל 1.75 טריליון פרמטרים – WuDao 2.0
-
בDeepMind אימנו מודל בגודל 70 מיליארד פרמטרים – צ'ינצ'ילה
-
במטא אימ..
רגע
רגע רגע. רק רגע.
כמה פרמטרים היו במודל של DeepMind?
רק 70 מיליארד?!
למה אימנו אותו בכלל? הוא לא הכי גדול..
המשמעות של צ'ינצ'ילה
בשורה אחת: מודלי שפה מודרנים גדולים סתם. ניתן להגיע לאותן התוצאות בדיוק על דאטהסט בגודל זהה עם מודלים קטנים הרבה יותר.
הכותבים אימנו מספר מודלים בגדלים שונים, על כמות דאטה משתנה וניסו לנבא מה גודל המודל האופטימלי ביחס לגודל דאטה נתון.
לאחר מכן, הם מאמנים את אותו המודל ומגלים שהתחזית אליה הגיעו היתה מדויקת מאד.
צ'ינצ'ילה (המודל המאומן) דרמטית יעילה יותר מכל שאר המודלים שאומנו ומחזיקה בתוצאות תחרויות גם מול מודלים גדולים בהרבה.
וכשמסתכלים על ביצועים ביחס לעלויות: צ'ינצ'ילה נמצאת בליגה משל עצמה.
מאמר מעניין! מומלץ לקרוא!
כמה מסקנות עיקריות מהמאמר של צ'ינצ'ילה:
-
דאטה, לא גודל המודל, הוא החסם העיקרי כרגע על ביצועי המודלים. החזר ההשקעה (מבחינת לוס) לנתונים נוספים הוא עצום, והחזר ההשקעה להגדלה נוספת של המודל קטן בהרבה. ורוב המודלים הגדולים ששוחררו בשנתיים האחרונות גדולים בצורה בזבזנית מאד.
-
אם נצליח לאסוף עוד נתונים (איכותיים!) אין סיבה לאמן עוד ועוד מודלים בגדלים מטורפים.
-
אם נמשיך לאמן מודלים גדולים, נגיע לחסם עליון מבחינת ניצול הדאטה.
-
לא ברור כמה טקסט "יש בעולם" עליו אפשר לאמן את המודל. ישנן טענות ש"נגמרים" לנו הנתונים.
חשוב לאמר: לא מדובר על נושא ספציפי, מדובר על נתונים באופן כללי. כך שלמרות שכל אחד מאיתנו יכול לייצר אינסוף טקסט לאימון, טקסט מקורי, מעניין ורלוונטי: מוגבל.
-
כמות הדאטה בתחומים מקצועיים מיוחדים כמו קוד זעירה מאד בהשוואה לתחזית השיפור בלוס שנקבל אם היו יותר נתונים זמינים מסוג זה.
הבהרה: כל התחזיות במאמר מתייחסים לצורת האימון הפופולרית כיום: מודלים לעולם אינם רואים את אותם הנתונים שוב בזמן האימון (אפוק אחד).
אני לא מסכים עם צורת אימון זו אבל זה המצב
את המאמר של צ'ינצ'ילה אפשר לפרש בשתי דרכים שונות:
-
המודלים הגדולים היום גדולים מידי – אין סיבה להמשיך לאמן מודלים גדולים יותר ויותר. דאטה איכותי יותר ונקי יותר חשוב הרבה יותר על מנת לקבל ביצועים טובים יותר: Data Is All You Need.
-
מה זאת אומרת "המודלים הגדולים לא מאומנים עד הסוף!?!" זאת אומרת שיש להם עוד הרבה לאן להשתפר וAGI IS ממש COMING!!
אתן לכם לנחש לבד באיזו דרך בחרו אנשים מסוימים בטוויטר ובתקשורת לפרש את התוצאות
ואז הגיע אלינו מאמר חדש..
המאמר: Broken Neural Scaling Laws.
לפי המאמר: אפשר להכליל את הScaling Laws וללכוד באמצעות אותו החוק מספר תופעות שונות בכמה תחומים שונים בלמידה עמוקה (גם כאלו שנטען לגביהם שלא ניתן לחזות אותם).
לדעתי אין לנו מספיק Scaling Laws בעולם כרגע. אנחנו צריכים עוד. אנחנו צריכים לייצר Scaling Laws לScaling Laws – כי אין לנו מספיק Scaling Laws. כך שנוכל לדעת כמה AGI נצליח לחזות אם נחקור יותר ויותר Scaling Laws שונים לScaling Laws שלנו.
לא אכנס לביטוי המלא אבל רק אציין שהצורה הכללית של הגרף "שבורה" לכמה איזורים שונים כשכל איזור בגרף מתנהג אחרת:
-
ירידה רדודה -> ירידה תלולה -> עליה -> ירידה חדה מאד. למשל.
-
בצור הy נמצאת המטריקה לוולידציה
-
ו-x מייצג משתנה כלשהו שעבורו נרצה לחזות מה יקרה אם "נמתח" אותו. (לדוגמה, כמות הפרמטרים, כמות המחשוב, גודל הדאטהסט..).
-
שאר הפרמטרים (ויש די הרבה מהם) קבועים שיש להתאים לתצפיות.
הרעיון הכללי הוא שאם נריץ מספיק ניסויים נוכל לנחש מתי יגיע ה"מחסום" או "השלב הבא בו יותר קל להתאמן והביצועים משתפרים מהר יותר".
דיונים על AGI שלא נכנסו לסיכום זה: ישנם עוד מספר דיונים, ראיונות לתקשורת, הרבה דיבורים בטוויטר וטענות כללות לגבי AGI ותחזיות לגבי "מודלים שמשפרים את עצמם" מפי כותב המאמר. לא אתייחס אליהם.