כך תריצו מודל בגודל 14 מיליארד פרמטרים על טלפון

רשת LSTM.
טוויסט בעלילה!
למשל: T5 משופר או The Pile 2..
רענון על הScaling Laws: המאמר כאן: https://arxiv.org/pdf/2001.08361.pdf
אין לי מה להוסיף תיאור.. <|endoftext|>?
יש עוד כמה קטנים בהמשך
-
צריכת זכרון לרשת בגודל מיליארד וחצי פרמטרים (בדיוק בגודל של GPT-2 XL המפורסם להשוואה): בהרצה על A14 נקבל תמיד 0.015 שניות/טוקן.
-
מנגד GPT2-XL 1.3B על אותה החומרה מגיע ל 0.032 שניות/טוקן.
-
מכיוון שבזמן ההרצה אין מכפלות מטריצה-מטריצה (רק וקטור-מטריצה) הריצה באינפרנס מהירה כל כך שאתם יכולים להריץ את הרשת על הטלפון שלכם (!!!)
-
מודל שפה. עם ביצועים דומים לLLM בגודל 14 מיליארד פרמטרים. אצלכם בטלפון. לא "דרך האינטרנט". אצלכם ביד.
מתחילים כבר להבין למה זה כן מעניין?
אמרתי שהוא קל כל כך שהוא מסוגל לרוץ על טלפון, נכון? הם פשוט השאירו אותו רץ שם לתמיד בשביל הצחוקים וכולם יכולים לדבר איתו.
-
פעם אחת ביקשו ממנו לכתוב משפט ארוך מאד ואז להמציא ראשי תיבות חדשים לשם של עצמו RWKV: הוא ניפח את המשפט סתם ואז החליט שקוראים לו "Robotic and Wonderful Knowledge Virtual assistant".
-
עוד תגובה מעניינת היתה של יוזר שאימון Fine Tuning מודל GPT בגודל 13 מיליארד פרמטרים ליצירת סיפורים קצרים ותגובתו על הRNN בגודל 6 מיליארד פרמטרים (שמעולם לא אומן לייצר סיפורים קצרים) "הרצתי מודל בגודל 13מיליארד ואז הרצתי את מודל הRNN בגודל 7 מיליארד ווואו הוא פי 3 יותר מהיר והתוצאות גם טובות יותר."
אצרף לתגובות לפוסט צילומי מסך מתוך הדיסקורד של הפרוייקט
-
לקחו LSTM בפייטורצ'.
-
אימנו אותו על The Pile.
-
צחוקים.
יש כמה טריקים יפים מימוש הרשת שהיו צריכים להעשות כדי להצליח לאמן אותה על חומרה סבירה – במידה ויש בקהל מתעניינים באופטימזציה למודלים גדולים: מומלץ. (הטריקים בעיקר בצד ההנדסי)
-
"סתם שיחקתי במודל ואימנתי אחד קטן על דאטה קטן (בסביבות 10GB טקסט), והתוצאות טובות במיוחד. בדומה למודלים שלוקח הרבה יותר זמן לאמן"
-
"או מיי גאד הRNN הזה מהיר. הרצתי אימון ועברתי לטאב אחר וכשחזרתי הוא כבר יצר מילים נכונות ותקינות, אז הלכתי לחמם קפה וכשחזרתי הוא יצר טקסטים ארוכים נכונים לחלוטין."
-
ממציא הLSTM (הוכרייטר) צייץ גם הוא על הפרוייקט! https://twitter.com/Hochreiter…/status/1524270961314484227
טוב מספיק. עוד רגע אתחיל להמליץ להשתמש בSVM לתמונות או שXGBoost לא עובד. מה RNN?! בשנת 2023?!
-
בנית הארכיטקטורה בבלוקים בצורה הבאה: LayerNorm(SmallInit(Embedding)) – זה משפר אמפירית את האמבדינגס שילמד.
-
טריק Token-shift: להשתמש בכל שלב ב"חצי מהצ'אנלים של הטוקן הנוכחי וחצי מהצ'אנלים של הטוקן הקודם.
-
טריק פשוט הוסיפון Q & K שלטרנספורמר. מין הסתם זה שיפר ביצועים בהכל.
לא הפעילו במודל המאומן הסופי "כדי שזה ישאר LSTM ולא "קצת טרנספורמר".
-
שער "ריסט" נוסף בשכבת הFFN בבלוקים ובאקטיבצית רילו בריבוע. (הגיע מPrimer)
-
אתחול מיוחד
-
ועוד הרבה הרבה טריקים..
-
הפרוייקט עדיין בחיתולים (בדיוק נפרד מElutherAI לדיסקורד משל עצמו ואפילו עדיין לא שוחררו מודלים לHuggingface (הדיסקורד כבר מכיל מעל ל200 איש – יש התעניינות).
-
המודל עובד טוב בצורה מפתיעה (!!) ניסיתי אותו בFew Shot והוא "הרגיש GPT" לגמרי.
-
הוא גם ממש מעניין בצ'אט! באופן מפתיע! אין כמעט צ'אט בThe Pile.
-
האם זה תחילתו של הסוף? אני לא חושב שטרנספורמרים יעלמו בזמן הקרוב. אבל אני כן חושב שלמודלים קלילים (מבחינת צריכת כוח החישוב) יש מקום כיום ויפה לראות שיש מחקר המתקדם בכיוון.
-
שילוב בHuggingFace ושחרור מודלים מאומנים לקהל הרחב.
-
מימוש הארכיטקטורה תוך כדי תמיכה ב CPU & iOS & Android & WASM & WebGL כך תתאפשר ההפעלה של LLM בטלפון שלכם.
-
אימון מודל קצה-לקצה לטקסט<->תמונה (Clip) ותמיכה במודלי יצירת תמונה.
ניסיתי מאד לגרד עוד ועוד תוכן מעניין לטקסט אבל באמת שאין הרבה מה לסקור (וזה מצוין!).
"אימנו RNN עם כמות פרמטרים זהה לGPT וקיבלו מודל עם פוטנציאל להתחרות בGPT. בשבריר מכוח העיבוד."