איך "לקמבן" תוצאות במאמר – גרסת GPT-3

ים פלג, 12/02/2023

קטגוריה: כללי

אתם יודעים? אני אוהב את זה שתחום מדעי שלם הבנוי כולו על התאמת קו לענן נקודות בזהירות..

מסתבר שאני לא היחיד שחושב כך! (סוף סוף!)

דיון חם החל בטוויטר לאחרונה בין חוקרים מצוות OPT לבין חוקרים מאחורי המאמר של צ'ינצ'ילה, על הדרך גם נשלחה קצת אש לGPT-3.

פופקורן עלי!

מודל OPT: המודל הגדול של מטא

מאמר: https://arxiv.org/abs/2203.15556

צ'ינצ'ילה: המודל של דיפמיינד למדידת הגודל האופטימלי למודלים גדולים

מאמר: https://arxiv.org/abs/2205.01068

מאמרים השבועות האחרונים

לאחר שבימים האחרונים..

קיבלנו [1] מאמר המתאר Scaling Laws למודלים מולי-מודאלים (גם טקסט, גם תמונה)

וגם קיבלנו [2] את StyleGAN-T שככל הנראה הוא הגאן הראשון בגודל מיליארדי פרמטרים

וגם קיבלנו [3] שמודלים ענקיים עובדים טוב בקוונטיזציה של 3 ביט

ואפילו קיבלנו [4] מודל שעוקף את GPT-Neo בגודל 2.7 מיליארד פרמטרים בשימוש 2 שכבות אטנשן בלבד (2.0).

ישנם כמה אנשים באינטרנט שכל הדיבורים הללו על מודלי ענק פשוט עלו להם על העצבים.

דיון: מודלים יותר גדולים מול דאטה יותר גדול?

(או כוח מחשוב יותר גדול)

החל דיון מעניין על האם מאמרי ה "להתאים-קו-יחיד-לענן-נקודות" (לא אני אמרתי!!), כלומר מאמרי הScaling Laws המנסים לשערך מה גודל המודל האופטימלי עבור סט נתונים בגודל מסוים נכונים. על פי חלק מהדעות: "סביר להניח שכולם שגויים אקסטרפולציה" ואפילו הלכו רחוק וקראו למתמטיקה במאמר של צ'נצ'ילה "doozy".

הנושא העיקרי שגרם לגלגול עיניים היה המשוואה המרכזית במאמר בה הוכנסו כמה פרמטרים לתוך חישוב פרמטרים נוספים אחרים על מנת לקבל משוואה הכתובה אלגנטית במאמר. על פי המאמר, אותה המשוואה התקבלה משלוש גישות שונות שכותבי המאמר הפעילו על מנת להעריך את אותו חוק Scaling אוניברסלי. וערכי אותם הקבועים היו שונים רק במקצת בין שלושת השיטות (0.5,0.5) או (0.49,0.51) או (0.46,0.54).. על פניו נראה כי ההבדלים בין הערכים קטנים מאד.

ובכן, לאחר חקירה קצרה בנספחי המאמר והצבת ערכים מספרים בהתאם לכוח העיבוד הנדרש על מנת לאמן את OPT (מטא), התגלה כי הגודל האופטימלי לאימון המודל הוא "איפשהו בין" 20 מיליארד פרמטרים ל 230 מיליארד פרמטרים.

איפשהו.

המשך הטקסט מדבר על כך ששלושת השיטות שונות אחת מהשניה ומעריכות גדלי מודלים השונים עד כדי פי 10 ולכן מסקנות המאמר מאותן השיטות (אמנו מודלים קטנים יותר למשך יותר זמן) שגויות.

התגובות לא איחרו להגיע:

הכותבים של צ'ינצ'ילה הגיבו כי אימנו את את מודל ה70 מיליארד פרמטרים שלהם (ה"אופטימלי" לפי המאמר) באמצעות אותו הקוד של Gopher (בגודל 280 מיליארד פרמטרים) על אותה החומרה והגיעו לתוצאות טובות יותר.

וכמו כן, אינם טוענים ששלוש השיטות לחישוב חוק הScaling דומות (שלושתן נמצאות על אותו הגרף בסקלת לוג.).

וללא קשר לגרף, הטענה העיקרית שלהם היא שהצוות של OpenAI המדד את הScaling Laws בGPT-3 כן טעה.

אמרתי לכם: פופקורן.

הם ממשיכים ואומרים שהסקפטיות כלפיהם מצחיקה כי הסיבה העיקרית לתחילת העבודה על מאמר זה שהדרך "המתוחכמת" שבה הוסקו חוקי הScaling מתוצאות GPT-3 נראתה להם חשודה למדי ו"לא נראה להם בעין" שחוקים אלו מסתדרים עם הנתונים שהם רואים. לכן ניסו לאמן את המודל ש"נראה בעין" האופטימלי ביותר.

אני גם רוצה לאמן מודלים בגודל 70 מיליארד פרמטרים כי "נראה לי בעין"!

והתגובה על התגובה לא היתה פחות מעניינת

בתגובה, החוקרים ממטא מוציעים עצבים על מאמר GPT-3 המקורי טוענים שהכותבים "עשו קצת אוברפיטינג" כדי לסחוט עוד תוצאות מכל המדדים, הם מציעים "סיור" במדדי ההערכה למודלי שפה גדולים המשמשים כדי לתמוך בטענות שמודלים "חזקים" או "טובים יותר" מאחרים.

אחת הטענות היא שעמוק בנספחי המאמר של GPT-3 (והמאמר ארוך) הוחבאו טריקים ששיפרו תוצאות, למשל במדד BoolQ על המודלים לדווח true או false במענה על שאלות כן או לא, בGPT-3 החליפו זאת בyes או no. צוות מטא מדווח שכשהם עלו על כך ועשו זו גם הם קיבלו 10% (!!) שיפור בביצועי המודל.

הם ממשיכים ומראים שבחלק מהמדדים בדקו את GPT-3 עם true\false ובמדדים אחרים בדקו עם True\False, בחלק נוסף בדקו question\answer ובחלק Question\Answer.. ככל נראה בוצע קצת Hill Climbing על מנת "לעקם" את תוצאות כל המדדים כך שGPT-3 יהיה הראשון מבין כולם

ישנן עוד עריכות יותר ארסיביות וPrompt Engineeing מאד מאד ספציפי בחלק מהמדדים. מה שרק עוד יותר מחזק את הטענה.

עד היום כמעט אף מודל גדול ככל שיהיה לא מצליח לעקוף את תוצאות GPT-3 וסוף סוף אנחנו מקבלים הסבר הגיוני למה.

רגע, אז מה הביצועים האמיתיים?

ממשחקים דומים עולה התוצאה המעניינת הבאה: מודל OPT מבית מטא עוקף (!!!) את GPT-3 בחלק מהמדדים והמודל Bloom הפתוח אותו מיהרנו להספיד מגיע לביצועים הקרובים לGPT-3 מאד (בניגוד לGPT-3 הוא התאמן רק על 30% אנגלית! זה מרשים מאד!).

נראה כי כרגע כל אחד מודד ביצועים איך שבא לו. זו בעיה מוכרת ואין מה להרחיב עליה.

סוף סוף קיבלנו תשובה לחלק מהביצועים הלא הגיוניים של GPT-3.

הדיונים בטוויטר:

דיון: https://twitter.com/suchenzang/status/1616752494608007171

דיון: https://twitter.com/drjwrae/status/1617033514037411847

דיון: https://twitter.com/suchenzang/status/1617093563061522432

רפרנסים:

[1] – מאמר על Scaling Laws למודלים מולימודאלים: https://arxiv.org/abs/2301.03728

[2] – המאמר StyleGAN-T – גאן בגודל מיליארדי פרמטרים: https://arxiv.org/pdf/2301.09515.pdf

[3] – מודלי ענק בקוונטיזציה של 3 ביט: https://openreview.net/forum?id=tcbBPnfwxS

[4] – מודל שתי שכבות אטנשן בלבד: https://github.com/HazyResearch/H3

[5] – קורס CS324 "מודלי שפה ענקיים" – סטנפורד: https://stanford-cs324.github.io/winter2022/

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

כללי

איך "לקמבן" תוצאות במאמר – גרסת GPT-3

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

לקראת GTC 2025- אלו ההרצאות שלא תרצו לפספס!

אתגר MAFAT החדש: סיווג משתמשים מתוך היסטוריית גלישה