גוגל שחררו את הדאטהסט הגדול בעולם לביצוע הוראות
שחקו עם המודל המאומן: https://huggingface.co/spaces/osanseviero/i-like-flan
מאמר: https://arxiv.org/abs/2301.13688
אימון "לבצע הוראות"
מודלי שפה בשלב זה מסוגלים לבצע משימות רבות שמעולם לא ראו בזמן האימון על ידי הבנת הוראות השפה חופשית. הבולט מבניהם הוא כמובן מודל-שפה-סופר-פופולרי-ששמו-מתחרז-עם-עט שמסוגל לבצע הוראות מורכבות המכילות פרטים קטנים רבים. יכולת ההכללה של מודלים אלו למשימות חדשות שמעולם לא ראו מיוחסת בעיקר לאימון על מגוון רחב של הוראות, ניסוחי הוראות ומשימות שונות ומשונות בזמן האימון, אין לנו הרבה מידע על הנושא אבל ככל הנראה כך חברה-שאין-לנקוב-בשמה מאמנת את המודלים שלה בהצלחה רבה.
דאטהסט חדש:
אתמול שחררו גוגל דאטהסט חדש, הגדול ביותר עד לרגע זה המכיל הוראות, משימות, ניסוחים ותבניות שונות ומשונות על מנת לאמן מודלי שפה. הם ממשיכים ומראים שאימון על דאטהסט זה מוביל לשיפור משמעותי בביצועים בכל המדדים, מניתוח תוצאות המאמר נראה כי רוב כוחו של המודל המאומן מגיע מכמה טריקים:
- שילוב בין משימות Zero-shot וFew-shot: משפר את ביצועי המודל המאומן בשתיהן
- הוספה של chain of thought: לאחר שחוזרת תשובה מהמודל, מבקשים מהמודל להסביר את אותה התשובה עם Lets think step by step ואז משתמשים בהסבר זה בזמן האימון
- היפוך טקסט: אימון לא רק ל: שאלה->תשובה. גם תשובה->שאלה.
טריק זה מבאס מאד כי עד לרגע זה חשבתי שרק אני המצאתי אותו ושמרתי עליו בשקט.
- איזון משימות על פי חשיבות: החשיבות מחושבת כך: אימון מודל על כל הדאטה. ואז אימון סדרת מודלים כשבכל שלב מוציאים חלקים מהדאטה [על פי סוגי משימות וניסוחים] ומודדים את ההבדל בתוצאות. לאחר מכן כמות הדאטה מכל משימה ניתנת למודל על פי החלק היחסי בתוצאה.
איזון הדאטה חשוב במיוחד ומשפר תוצאות מודלי שפה בצורה משמעותית למרות שsCaLe iS aLl yOu nEeD. טריק ממש פשוט וחכם!
כל טריקים אלו מאפשרים למודלי השפה להגיב בצורה אנושית מאד למשימות שרירותיות שמעולם לא ראו בזמן האימון.
על המאמץ לאסוף הוראות ופתרונות
מאז החלו אימוני מודלי הענק שוחררו כבר מספר דאטהסטים למטרת אימון ביצוע הוראות. מכיוון שכל תחום המחקר עדיין רק בתחילתו [וגם כי כל אימון יקר בצורה מחרידה] עדיין לא התכנסנו להסכמה לגבי הטריקים הטובים ביותר לשיפור התוצאות, בין עם מדובר בקבוצות שונות של סוגי משימות, גדלי מודלים ותבניות בקלט.
אוסף חדש זה שגוגל שחררו (נקרא "Flan 2022") משלב 13 דאטהסטים קודמים ומוסיף עליהם טריקים כגון שינוי ניסוחים, הסברים, הפיכת Fewshot לZero Shot ועוד.
התוצאה המעניינת ביותר (באופן יחסי) השוחררה במאמר היא שמודלי שפה נראים כ"רק משתפרים" ככל שהם נחשפים ליותר ויותר משימות מסוגים שונים ומשונים. כמה שיותר – יותר טוב. כרגע אין טריידאוף הנראה לעין בין סוגי המשימות (גם במודלים קטנים).
איפה עומדים מודלי ביצוע ההוראות היום?
בנוסף לעבודת הדאטה, גוגל שחררו גרסה חדשה ומשופרת של המודל FLAN לביצוע הוראות המראה ביצועים מרשימים (שחקו עם המודל בעצמכם בלינק למעלה).
שחרור זה מגיע לאחר שבימים האחרונים מתרוצצות שמועות על גיוס "צבא של מתכנתים" על ידי חברה-שאין-לנקוב-בשמה לצורך תיוג דאטה איכותי למודל השפה שלהם, לטענת השמועות, זאת על מנת ללמד את המודל לפתור את כל משימות הקידוד הבסיסיות "והמשעממות" שיש היום.
אז נראה שאנחנו עדיין רחוקים ממודלים המגיעים לביצועי מודל-סופר-פופולרי-ששמו-מתחרז-עם-עט וככל הנראה הבעיה העיקרית היא דאטה איכותי.