close menu

מבזק חדשות: מודלי ענק בקוד פתוח

אמ;לק: רשת LSTM ענקית הדביקה את ביצועי GPT | קוד אימון מודלי ענק ב8-ביט שוחרר | בפרוייקט "ChatGPT הפתוח" נערכים לתחילת אימוני RLHF

מבזק: אימוני הLSTM הענקי הדביקו את ביצועי GPT

בשבועות האחרונים מתאמן מודל ענק מסוג LSTM בגודל 14 מיליארד פרמטרים..

עליו כתבתי כאן: https://www.facebook.com/photo/?fbid=10160157366804663…

..לפני כשעה הסתיימה סדרת מבחנים מתוכננת המתרחשת אוטומטי מפעם לפעם – התוצאות: בפעם הראשונה, רשת הLSTM "הדביקה" את ביצועי GPT ברוב המבחנים! [1]

תזכורת: מטרת רשת זו להוות חלופה מהירה וחסכונית במשאבי מחשוב (במיוחד זכרון) על מנת לאפשר הרצת מודלי ענק על מכשירי קצה.

למשל: טלפון.

סיום האימון מתוכנן לסוף השבוע הבא ובתאריך זה תבוצע הרצת המבחנים האחרונה בה תבחן הרשת בביצועיה מול GPT המתחרה.

מבזק: אימון ב8-ביט שוחרר בקוד פתוח

שלשום שוחרר עדכון לחבילת הקוונטיזציה הפופולרית: Bitsandbytes העומדת כיום במרכז הרצת מודלי ענק על חומרה פשוטה.

עדכון זה מאפשר בפעם הראשונה אימון ב8-ביט (float-8) מה שמוריד את כמות החישובים הנדרשת לאימון (בGPUs החדשים ביותר – H100) ב60%. בהתחשב בביצועים אלו ניתן לאמן את GPT-3 המקורי תוך 3 ימים בשימוש 1024 GPUs ו-PaLM ב-12 ימים בשימוש 2048 GPUs.

מדובר על שיפור של בערך פי 50 פחות שעות GPU ביחס לנתונים המדווחים במאמר GPT-3 המקורי מלפני 3 שנים ופי 9 פחות עבור המאמר PaLM שיצא לפני 9 חודשים בלבד.

לפי מפתחי החבילה – ממש כמו שהעדכון הקודם נכנס אל כל מודלי HuggingFace ואפשר הרצת אינפרנס על ידי משתנה בודד: "load_in_8bit = True". גם עדכון זה צפוי להכנס לכל מודלי Huggingface ויאפשר אימון מודלי ענק על חומרה זולה במיוחד.

מבזק: המתחרה הפתוח לChatGPT: מתכוננים לRLHF

לChatGPT יש מתחרה פתוח – Open Assistant.[2]

הפרוייקט נגיש לגמרי ונמצא כולו בGithub בקוד פתוח. קוד הפרוייקט הוא אחד מהפרוייקטים המוצלחים ביותר בGithub בכל הזמנים מבחינת כמות האינטרקציות המגיעות מאלפי המתנדבים התורמים לפרוייקט.

קוד הפרוייקט החזיק בTrending של כל Github במשך שלושה ימים רצוף (!!) ועד לרגע זה הפרוייקט מתקדם בקצב מסחרר ואימוני מודלים צפויים להתחיל בקרוב.

השלב הנוכחי: הפרוייקט פתוח נמצא כרגע בשלב מתקדם באיסוף הדאטה לRLHF – תהליך איסוף והגדרת הנתונים מעניין במיוחד ומתוחכם משמעותית

זו הפעם הראשונה שאנו נחשפים לנתוני אימון מסוג זה באופן פתוח..

התיוג מתבצע על ידי מתנדבים מהאינטרנט בממשק אונליין שפותח גם הוא על ידי מתנדבים. במידה ואתם גם מעוניינים לתרום כמה שניות מזמנכם ולהצטרף למאמץ המלחמתי: https://open-assistant.io

דגש: הפרוייקט שם לעצמו להיות נגיש וזול ולכן נבחנים כמה מודלים קטנים לצורך אימון העוזר האישי הסופי. כך שלפרוייקט זה ערך מחקרי מעניין נוסף – דיון בהשוואת מודלים שונים.

החלטה זו זהה להחלטה להשתמש במודל קטן כמו שStable DIffusion החליטו לעשות. את תוצאת החלטה זו לא צריך לפרט. חלק ממפתחי Stable Diffusion עובדים גם על פרויקט זה.

מידע נוסף על הפרוייקט תוכלו לקבל בסרטון החדש של יאניק העוסק בנושא: https://www.youtube.com/watch?v=64Izfm24FKA

רפרנסים:

[1] – את תוצאות הLSTM אפשר לראות כאן: https://github.com/…/RWKV-LM/blob/main/RWKV-eval2.png…

[2] – המתחרה הפתוח לChatGPT כאן: https://github.com/LAION-AI/Open-Assistant

עוד בנושא: