איך לשפר מודלי שפה פי 3 בחינם

וזה באמת מעניין להקשיב
ואז ואולי רק ג'נסון יציל אותנו עוד כמה שנים עם RTX 8090 TI
כן. [1]
שזה בערך כמו לאמר "בחינם"
למי שלא מכיר: UL2 הוא מודל הטקסט->טקסט הכי חזק בעולם, מגיע אלינו מבית גוגל. גודלו 20 מיליארד פרמרטרים, הוא מכסח את כולם. בהכל. והוא זמין להורדה כאן: https://huggingface.co/google/ul2 – תודה לכם גוגל! לא מובן מאליו!
-
תיקון רעש בטקסט: נקרא גם בסלנג "Masked Language Modeling" או בקיצור MLM: הרעיון הוא פשוט – מסתירים מהמודל מילים במשפט ועל המודל לנחש אילו את המילים החסרות. שימו לב: לא להתבלבל עם הMLM בBERT או כל המודלים הקלאסים יותר: כאן המשימה היא של מודל טקסט->טקסט כלומר על מודל "לייצר טקסט" חדש מאפס ובתוך הטקסט "לאמר לנו" מה המילים החסרות. הוא לא פשוט משלים את הוקטור.
-
השלמת "ההמשך": מסתירים מודל חלק מהטקסט מנקודה מסוימת ועד הסוף ועל המודל להשלים את כל הטקסט החסר. שוב לא להתבלבל עם GPT שמשימתו היא "להזיז את הטקסט". כאן המשימה היא ממש "להשלים את הטקסט". מודל מקבל טקסט אחד ומוציא טקסט אחר (ההמשך).
-
השלמת "אקסטרים": מסתירים מהמודל חלקים ארוכים במשפט ועל המודל להשלים אותם (לא מילים בודדות וגם לא מובטח שהן יגיעו בסוף המשפט). בעיה של המודל, עליו להשלים את כל הטקסט.
מה זה FLAN? המודל FLAN היה עד לא מזמן המודל החזק בעולם לטקסט->טקסט – גם הוא מבית גוגל. אותו תוכלו למצוא במספר גדלים רחב (מקטן לגדול) ממש כאן: https://huggingface.co/google/flan-t5-base. ותודה לכם גוגל שאתם באמת משחררים את כל המודלים שלכם!
לכל הקוראים: זה המודל שאתם רוצים בשביל לאמן טקסט->טקסט!! FLAN מפלצת! גם בגדלים קטנים!
"המודלים האחרים" הכי חזקים בעולם הם המודל PaLM [4] בגודל 500 מיליארד פרמרטרים. הוא גם של גוגל. גוגל מנצחים את גוגל. [5] אחרי שהם ניצחו את גוגל [6] ולאחר שהם ניצחו את גוגל. [7]
-
"איך נקרא דייט בין שני מדעני נתונים?"
-
תשובה: "date-mining"
זה באמת בדאטה..
מודלים קטנים שאומנו במיוחד למשימות של "לבלבל את המוח" ככה דווקא עובדים מצוין! מניסיון!
-
קצת CoT
לתת למודל להוציא את כל מה שהוא יודע על הבעיה עם הטריק "Let's think step by step" ואז להשתמש בזה לאימון
-
וגם קצת Few Shot
לתת למודל להתאמן על כמה משימות אחת אחרי השניה כדי שיבין במציאות שצריך להסתכל דוגמאות נוספות שבני אדם מספקים לו לפתרון הבעיה
כשיש לך 4 מיליון שעות TPU..
עד עכשיו. יום 1.6.2023 שעה: 23:48. הכי מפלצתי עד עכשיו.
מה?! איך זה עובד בכלל?!
היום מימשתי את זה! היה לא כיף! תודה ששאלתם!
מודל בגודל 6 מיליארד פרמרטרים המגרד את GPT-3 בגודל 175 מיליארד הפרמטרים
-
[1] – כבר אמרתי מזמן שכל מאמרי הScaling Laws מדברים על תצורת מודלים אחת מאד ספציפית ולא נכון לדעתי להסתכל עליה כ"הגורל" של התחום.
-
[2] – המאמר של UL2 פה https://arxiv.org/abs/2205.05131
-
[3] – מאמר ההמשך של UL2R: https://arxiv.org/pdf/2210.11399.pdf
-
[4] – המודל החזק בעולם עד לא מזמן (PaLM) שגוגל ניצחו: https://arxiv.org/abs/2204.02311
-
[5] – המודל החזק בעולם עד לא מזמן עד לא מזמן (Flan-T5) שגוגל ניצחו: https://huggingface.co/google/flan-t5-base
-
[6] – מודל חזק מאד מבית גוגל (LongT5) אותו גודל ניצחו: https://arxiv.org/abs/2112.07916
-
[7] – מודל הטקסט -> טקסט (T5) מבית גוגל https://arxiv.org/pdf/1910.10683.pdf
-
[8] – המאמר על FLAN בו גוגל מגדילים את המודל ובודקים את השפעת הטקסט https://arxiv.org/abs/2210.11416. זה לא המאמר המקורי של FLAN! זה מאמר מלפני כמה שבועות שממשיך אותו!