UL2 20B: AN OPEN SOURCE UNIFIED LANGUAGE LEARNER

ים פלג, 09/02/2023

קטגוריה: כללי

אמ;לק: גוגל עקפו הלילה את הביצועים של GPT-3 עם 20 מיליארד פרמטרים בלבד ועל הדרך גם שילשו את הביצועים של T5.

קוד ומשקולות זמינים!

במאמר ששוחרר לפני כמה שעות משלבים הכותבים את "כל הטריקים האפשריים" לpretraining תחת מודל אחד תוך כדי שהם "מזקקים" טריקים ושיטות מעבודות קודמות.

התוצאה היא מודל חזק במיוחד (או יותר נכון: שיטת אימון) שלטענתם חזק בהרבה מGPT-3 ומודלי שפה קאוזלים אחרים. [1] [2]

טריקים עיקריים:

הכותבים משתמשים בשלוש שיטות self-supervision שונות בזמן האימון:

"השלמת מילים" – מוחקים מילים \ טוקנים מהמשפט ועל המודל להשלים אותן.
"השלמה סדרתית" – על המודל "להמשיך" את המשפט מאינדקס רנדומלי. [3]
"השלמת אקסטרים" – מוחקים מקטעים ארוכים ורנדומלים מהמשפט ועל המודל להשלים אותם במלואם.

טריק מעניין נוסף:

אימון Mixture of denoisers – אם אני מבין נכון (עוד לא עברתי על הקוד) הם מקפיאים חלקים שונים מהמודל בכל באצ' לפי המשימה אותה הם מבקשים מהמודל לבצע (Mixture of experts).

ואם אני טועה והם לא עושים את זה בזמן האימון: אני בטוח שזה ישפר ביצועים (או לכל הפחות לא יזיק) אבל יכול להיות שזה יגדיל את זמן האימון משמעותית..

מדידת ביצועים:

במאמר, הכותבים מודדים את ביצועי המודל גם בone-shot גם בzero-shot גם בchain of thought (טריקי "let's think step by step") אבל גם (ותודה רבה על זה!) בfine tuning עתידי למשימות אחרת – המטריקה שכנראה והחשובה ביותר להכי הרבה מקוראי המאמר.

עוד במאמר:

כותבים הם בין היחידים הדנים בשאלה "איך לחלק את הטקסט הארוך מידי שלי?" בזמן אימון המודל ומציגים כמה שיטות וניסוים לדוגמה: חלקים רנדומלים מטקסט, או "חלק אחרי חלק" או "חלק אחרי חלק עם masking לעתיד..". – ממליץ למי שמהתחום.

דעתי האישית: מילה טובה על המחקר של גוגל!

בתקופה שבה מאמרים שלמים נכתבים לצורך "ההייפ" והmarketing יפה לראות את ההתמדה של גוגל עם סדרת מאמרי T5.

הם באופן קבוע "מסננים" שיטות שלא עובדות מעבודות אחרות, בודקים ומעבירים ביקורת על על טענות לא נכונות ממאמרים אחרים ואפילו מצליחים לשמור צניעות וללמוד מטעויות עבר.

אבל יותר חשוב מהכל: T5 באמת עובד.

ובאופן עקבי הוא הולך ומשתפר ממאמר למאמר [4] [5] [6] [7] [8] [9] [10]

המאמרים יוצאים כל כמה חודשים ותמיד מלווים בקוד, משקולות מאומנות ומידע ברמת פירוט גבוהה בהרבה מכל השאר.

רפרנסים:

קוד: https://github.com/google-research/t5x
משקולות: https://github.com/google…/google-research/tree/master/ul2
מאמר: https://arxiv.org/abs/2205.05131
בלוג: https://ai.googleblog.com/…/ul2-20b-open-source-unified…

הערות שוליים:

[1] – ביצועי GPT-3 כבר נשברו על ידי מודל קטן ממנו: GLM. הבעיה איתו היא שהוא לא קאוזלי. משאבי החישוב הנדרשים כדי לאמן אותו ריבועית יותר כבדים מGPTים. (כי כדי לסמלץ מעבר אטנשן של GPT צריך לעבור מילה מילה בדאטה ולהכניס את המשפט "עד המילה" כדוגמה נפרדת: מכפיל את צעדי האימון ריבועית)
[2] – חשוב: GPT שוחרר כבר לפני כשלוש שנים. כמעט ואין עבודות וחידושים בתחום האטנשן הקאוזלי (למה?!). קל לפספס שגוגל עצמם שיפרו משמעותית (הרבה מאד מעבר ל"מה שידוע ש"נמצא בGPT-3) את האטנשן הקאוזלי בדיקודר של T5. לצערנו השיפורים עוברים ממתחת לרדאר מהסיבה הפשוטה שT5 מאומן למשימות "פחות סקסיות" כמו תרגום \ סיכום בניגוד ל"לבלבל את המוח causal".
[3] – לא להתבלבל עם causal language modeling של GPT בו על המודל להשלים את הטוקן הבא בכל שלב. פה לא רק שהמודל צריך להחזיר את הטוקן הבא, הוא גם לא רואה את כל המשפט בזמן שמלמדים אותו לעשות את זה.

מאמרי T5 והשיפורים הבולטים בהם:

[4] – T5 – https://arxiv.org/abs/1910.10683
[5] – T5 v1.1 – GEGLU Activation: https://arxiv.org/pdf/2002.05202.pdf
[6] – T5 LM Adapted – Prompt Tuning: https://arxiv.org/abs/2104.08691
[7] – T5 Talking Heads – Talking Heads Attention: https://arxiv.org/abs/2003.02436
[8] – T5 – Efficient – Architecture Optimization: https://arxiv.org/pdf/2109.10686.pdf
[9] – LongT5 – Global/Local Transient Attention: https://arxiv.org/pdf/2112.07916.pdf
[10] – UL2 – R-denoising, X-denoising, S-denoising: https://arxiv.org/abs/2205.05131

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next

כללי

UL2 20B: AN OPEN SOURCE UNIFIED LANGUAGE LEARNER

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next

סקירה: MacBook Neo – מחשב עבודה מצוין ומכונת AI מפתיעה

ראיון עם אנדריי אוסטרובסקי מ-Intuit: איך משתמשים ב-AI לכתיבת קוד בסקייל בארגונים