על המלחמה בריכוזיות הבינה המלאכותית – אימון המודל היעיל בעולם

-
אומן מודל שפה (GPT-J) בגודל 6 מיליארד פרמטרים המגיע לאיכות המתחרה בGPT-3 בגודל 175 מיליארד פרמטרים!
-
האימון התבצע דרך האינטרנט על גבי רשת מכונות פרטיות הנמצאות בבתי החוקרים שגרים בשמונה מדינות שונות (!!!)
-
תשתית הרשת ב"ענן" שאתם משתמשים בו היא תשתית ביתית "מעפנה".
-
אה וגם המכונות עצמן נמצאות פיסית "במרתף של החבר".
-
המודל GPT-JT, בעל 6 מיליארד פרמטרים בלבד.
מודל השפה היעיל אי פעם – GPT-JT
המודל המאומן שוחרר ממש לפני כמה ימים ויכולותיו משמעותית איכותיות יותר ממודל הבסיס עליו הוא מבוסס. מורגש! שחקו איתו כאן: https://huggingface.co/spaces/togethercomputer/GPT-JT
למשל GPT-3 002 בלי לנקוב בשמות
שנכון לרגע זה נחשב למודל טקסט->טקסט החזק בעולם – עליו כתבתי פוסט כששוחרר [8]
המפוזרים בשמונה מדינות שונות בעולם!
-
העבודה של EleutherAI שהיו הראשונים לשחרר מודלים פתוחים שנמצאים היום בשימוש נרחב אצל מיליוני אנשים (דוגמאות: GPT-J-6B, GPT-NeoX). בנוסף: הראשונים לאסוף, לנקות ולשחרר דאטהסטים לאימון מודלי שפה גדולים, חלקם הפכו להיות ה-סטנדרט בתחום (דוגמה: The Pile). עבודתם של EleutherAI השפיעה בצורה עצומה על כמעט כל המחקר המודרני במודלים גדולים.
רק כדי ליישר קו: הם לא גוף מאורגן (ובטח שלא ממומן). הם קבוצת אנשים בדיסקורד שפשוט החליטו לאמן GPT-3ים בגדלים הולכים וגדלים ביחד. חלקם עומדים גם מאחורי חלקים בStable Diffusion.
במילים אחרות: האלגוריתמים היום כל כך עוצמתים שקבוצת חברים רנדומלית שינתה את עולם האומנות ועיבוד השפה כי "יאללה! בואו ננסה!".
-
העבודה של Google Research שפרסמו את UL2 ואת Chain-of-Thought (CoT) ובאופן כללי מפרסמים כמעט הכל תמיד. גם משקולות. גם קוד. בלי משחקים.
חוץ מזה שלפעמים מתפלק איזה טנזורפלו 1
-
העבודה של AllenAI בשחרור הדאטהסט Natural-Instructions (NI) המכיל למעלה 1,600 משימות והוראות המשמשות לאימון ביצוע הוראות (Instruct). הדאטהסט מגיע כתגובה לבעיה המוצגת במאמר של OpenAI: כשמאמנים מודלים לביצוע הוראות. הדאטה הזמין היום אינו כתוב בשפה יום יומית "מלוכלכת" וטבעית מה שיוצר מצב שלמודלים קשה להכליל למשימות בשפה "באמת חופשית".
דוגמה למשימה בשפה "באמת חופשית": "אחי, כתוב פונקצית פייתון שמרימה הכי הרבה בחדר כושר" – בדיחה שGPT-3 002 מבין מצוין וזורם איתה. המודלים הפתוחים המתחרים: FLAN, T0, BLOOMZ: פחות [7].
-
העבודה של BigScience ביצירת הדאטהסט הציבורי "P3" המקבץ כמה דאטהסטים באנגלית המכסים הוראות ל 55 משימות שונות.
-
העבודה של Ought בהגדרת הבנצ'מארק RAFT – דאטהסט לסיווג טקסט. (עוד עליו בהמשך)
-
העבודה של Stanford CRFM בשחרור הבנצ'מארק HELM לצורך בקרת האיכות – בנצ'מארק למודלי שפה המנסה למדוד מודלי שפה בקשת נושאים רחבה.
-
שלב האימון הראשון: כדי לאמן את GPT-JT הכותבים התחילו מGPT-J-6B שילבו את אוסף הטכניקות והטריקים שהוזכרו למעלה והתחילו לאמן: האימון מתחיל ב 2.62 מיליארד טוקנים עם לוס UL2, ולאחר מכן 0.92 מיליארד טוקנים עם לוס קאוזלי סטנדטרטי.
-
שלב האימון השני: חלוקת הדאטה 5% מ-COT, 20% מ-P3, 20% מ-NI, ויחד עם 55% מThe Pile. התוצאה היא GPT-JT.
הוא כל כך טוב שהוא מתעלה על רוב המודלים האחרים בהשוואה. חלקם גדולים יותר מ 100 מיליארד פרמטרים.
אם רק הינו יכולים להשתמש בחומרה הזו כדי לאמן מודלים..
כאן מגיעים שיפורי שיטות האימון של חוקרי הקבוצה..
מיותר לציין שזה גורם לקצת בעיות
בחישוב זריז: ברשת "מעפנה" במהירות 1Gbps, רק עלות התקשורת תסתכם בחודשיים. לפני אימון. רק תקשורת. (1440 שעות)
לא אכנס לשיטות עצמן, בשורה אחת: חלק מהשיטות מתוחכמות ומרשימות מאד וחלקן האחר בסגנון "דלג על עדכונים ודוגמאות רנדומלית. יהיה בסדר. אין מה לדאוג."
דעתי האישית היא שזה רק עניין של זמן. וההשלכות הן עצומות.
-
ההכרזה המקורית: https://www.together.xyz/…/neurips-2022-overcoming…
-
ממשק למשחקים: https://huggingface.co/spaces/togethercomputer/GPT-JT
-
[1] – האתר של קבוצת המחקר Together כאן: https://www.together.xyz/
-
[2] – מתוך המאמר של GPT-3. כאן: https://arxiv.org/abs/2005.14165
-
[3] – אימון GPT-3, העלויות: https://lambdalabs.com/blog/demystifying-gpt-3
-
[4] – דוח על GPUs פרטיים: https://www.jonpeddie.com/…/q421-sees-a-nominal-rise…/
-
[5] – חישוב עלויות חומרה וקירור בחומרה פרטית: https://venturebeat.com/…/the-real-cost-of-mining…/
-
[6] – כמות הפוטנציאל פה עצומה! מדובר על אימון כבד על 3.53 מיליארד טוקנים. בשביל Fine-tune אנחנו מדברים על אימון קל בסדרי גודל (לפעמים גם פי 100, תלוי משימה).
-
[7] – התשובה דרך אגב היא פונקציה שרצה בלולאה וכל איטרציה ומדפיסה יותר ויותר "חלבון" – כמובן שזה הפלט הכי מצחיק שקיבלתי אבל כמעט בכל המקרים שניסיתי, GPT-3 כן הבין את הרעיון בבדיחה.
-
[8] – על המודל של גוגל: U2 כתבתי כאן: https://www.facebook.com/photo/?fbid=10159950816494663…
-
[9] – הגבלות יצוא החומרה לסין – https://spectrum.ieee.org/chip-ban