מי רוצה CHATGPT פתוח?

ים פלג, 26/12/2022

קטגוריה: כללי

מטא שחררו אתמול מודל ביצוע הוראות משלהם!

המאמר: OPT-IML : Scaling Language Model Instruction Meta

מאמר: https://github.com/…/projects/OPT-IML/optimal_paper_v1.pdf

המודל המאומן: https://github.com/…/projects/OPT-IML/optimal_paper_v1.pdf

הדגש במאמר הוא על ההבנה המוגבלת של ביצועי המודלים המאומנים לבצע הוראות. דנים בו על פשרות והחלטות שונות שמתקבלות במהלך תהליך אימון.

בין הנושאים:

הScale
כמות הפרומפטים השונים לכל הוראה
כמות הדאטהסטים השונים לכל משימה
האם לאמן את המודל גם על דוגמות מתוייגות בצורה רגילה או רק עם RL
אימון Chain-of-thought וטריקים אחרים שגורמים למודל לנמק את עצמו
ועוד

הכותבים עוברים ממש על כל האפשרויות ובודקים את הבדל הביצועים במשימה.

לבסוף הם משחררים את OPT-IML: מודל בגודל 175 מיליארד פרמטרים המתחרה ישירות בInstructGPT.

הם גם משחררים את Instruction MetaLearning (IML): דאטהסט גדול ללימוד ביצוע הוראות המכיל 2000 משימות NLP מחולקות לקטגוריות מ-8 בנצ'מרקים קיימים.

הדאטהסט בודק את המודל בשלוש רמות הכללה שונות:

כל הניסוים במאמר

ביצוע אותה המשימה.
ביצוע משימה שונה אך מאותה קטגוריה (הכללה למשימות שהמודל מעולם לא למד לפתור רק על סמך "הבנת השפה")
ביצוע משימה מקטגוריה שהמודל מעולם לא ראה. (הכללה קשה מאד, על המודל להבין את השפה האנושית לעומק כדי להצליח במבחן זה).

תוך כדי שימוש בתוצאות המחקר הם מאמנים שני מודלי שפה לבצע הוראות: בגודל 20 מיליארד פרמטרים ובגודל 175 מיליארד פרמטרים ומראים ביצועים מרשימים על מגוון דאטהסטים שונים:
דאטהסט: PromptSource
דאטהסט: FLAN
דאטהסט: Super-NaturalInstructions
דאטהסט: UnifiedSKG.

הגישה של מטא למודלי שפה גדולים

גם במאמר זה וגם במאמר של גלקטיקה, מטא מתייחסים אל הבעיה בצורה שונה מכל השאר שמאמנים מודלי שפה קאוזלים (GPTים) גדולים: בצורה הנכונה.

הם משקיעים את רוב המאמצים בניקוי אגרסיבי של הדאטה והכנה של דאטהסטים נקיים מאד לצורך אימון המודלים שלהם.

זו הדרך הנכונה לעבוד והיא זו שבאמת מובילה למודלים חזקים בעולם האמיתי, כנראה שגם בOpenAI מנקים את הדאטה הרבה מעבר למה שידוע. אין הסבר אחר לאיכות של GPT-3.

ובנושא אחר

הפינה השבועית: מתי AGI? (נכון להרגע)

להלן סיכום המצב הנוכחי לגבי מחקר הAGI בטוויטר: שמעתי שמועה שמחישוב חדש עולה שישנו סיכוי של 30% שעד שנת 2030 יהיה AGI. הגדרת הAGI היא שהוא מסוגל לבצע 50% מעבודות בני האדם בעולם.

ישנם גם מספרים מדויקים לסיכוי שAGI == רע ולסיכוי ש AGI == טוב אבל אשמור משהו גם לפעם הבאה.

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

כללי

מי רוצה CHATGPT פתוח?

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

לקראת GTC 2025- אלו ההרצאות שלא תרצו לפספס!