close menu

מתחרה לCHATGPT (המוצלח ביותר) – אומן בחצי שעה על מכונה אחת

קהילת הקוד הפתוח מחזירה מלחמה.

בלוג: https://www.databricks.com/…/hello-dolly-democratizing…

קוד: https://github.com/databrickslabs/dolly

ספריה מצוינת לאימונים (שימשה לאימון המודל): https://github.com/stochasticai/xturing

הכירו את דולי – “השיבוט של אלפקה”

המודל הפתוח הכי קרוב לCHATGPT כיום.

דעתי: עוד קצת. עדיין לא שם.

ועוד פרט קטן ולא מעניין על המודל..

המודל אומן תוך חצי שעה על מכונה אחת

בשחרור מודל זה, יוצריו מדגימים מעל כל צל של ספק שהמחסום העיקרי לאימון מודלי שפה הוא תשתית האימונים.

כדי להמחיש עד כמה מחסום הכניסה לתחום קטן משחושבים: את מודל הבסיס (GPT-J) אימנו שני סטודנטים.

מטרתם היא לאפשר לכל אחד לאמן מודל שילכוד את הקסם ב ChatGPT.

והם עצמם עשו זאת תוך 30 דקות. זהו. רק על מכונה אחת בודדת.

בנוסף: באופן מפתיע, נראה שאימון לביצוע הוראות אינו מצריך את המודלים העדכניים ביותר או הגדולים ביותר: המודל בו השתמשו הכותבים בגודל 6 מיליארד פרמטרים. הכותבים שחררו את כל הקוד ובנוסף הראו שלב אחרי שלב כיצד לאמן אחד מחדש בעצמכם ב-Databricks.

לגבי המודל עצמו, הם מדגישים לדעתי את הנושא הלא נכון. לא מדובר בכמות הפרמטרים. מדובר במודל עצמו – GPT-J. אני יכול לספר לכם שבכל הניסויים שלי, פעם אחרי פעם מודל זה הוא המודל החזק ביותר ביחס לגודלו (ולפעמים בפער גדול, תלוי משימה).

הכותבים מעודדים את קהילת הקוד הפתוח ומאמינים שמודלים מסוג זה יסייעו בדמוקרטיזציה של טכנולוגיה חשובה זו. על פי דבריהם, מטרתם בשחרור המודל היא להפוך טכנולוגיה זו מטכנולוגיה שרק כמה חברות גדולות יכולות להרשות לעצמן לפתח ולחקור לטכנולוגיה נגישה לכמה שיותר אנשים.

התחום בחודשים האחרונים

  • מאז שחרור ChatGPT בנובמבר האחרון כבש כל התחום את העולם בסערה. המודל ChatGPT אומן ככל הנראה על טריליוני מילים מהאינטרנט ונדרשו מספר עצום של GPUs לאימונו.
  • אירוע שחרור מודל זה הוביל לשחרור מודלים מהיר ממספר שחקניות גדולות אחרות.
  • בפברואר האחרון, מטא (פייסבוק) שחררו מספר מודלים איכותיים במיוחד בשם למה (LLaMA) כשבכל אחד מאותם המודלים הושקעו למעלה מ-80,000 שעות GPU.
  • לפני כשבועיים, חוקרים מסטנפורד אימנו על גבי אותם מודלי בסיס את המודל “אלפקה”, אותו המודל אומן “לענות מה שGPT-3 היה עונה”. זאת על ידי איסוף דאטהסט קטן (50,000 שאלות ותשובות) מGPT-3 עצמו.
  • ובאופן (מאוד!!) מפתיע גרמו למודל גם להפגין יכולות שיחה אינטראקטיביות דומות לChatGPT. למרות שמעולם לא אומן במיוחד לעשות זאת.

המודל החדש

על בסיס תצפית זו, החליטו יוצרי המודל לנסות ולאמן מודל אחר (GPT-J) על אותו סט נתונים. המודל עצמו מוצלח מקודמיו וגם הוא באופן מפתיע מפגין יכולות שיחה הדומות לChatGPT.

למודל ניתן השם “דולי”, והמודל זול במיוחד (!!) לאימון כשתשתית האימונים עצמה ששימשה את יוצרי המודל שוחררה גם היא בקוד פתוח וזמינה לכל דורש.

בעוד שהעבודה של צוות אלפקה מסטנפורד הראתה שניתן לגרום למודלים החדשים ביותר להגיב להוראות באיכות גבוהה, יוצרי מודל זה מראים שגם מודלים ישנים יותר שאינם מכילים את כל השיפורים החדשים יכולים להפגין התנהגות זו ואפילו להתעלות את המודלים החדישים ביותר במקרים מסויימים.

שנתיים זה הרבה מאוד בתחום שבו רק בשבוע שעבר שוחררו 5 מודלי State-of-the-art שעוקפים אחד את השני ליצירת וידאו..

הטריק

אז ככה.

בניגוד מוחלט לאינטואיציה, רובו המוחלט של כוח מודלי השפה אינו נובע מאימון ביצוע הוראות או אימון ממשוב אנושי (RLHF).

למעשה אימון יתר למטרות אלו פוגע במיוחד ביכולת ההכללה של המודל. אימון זעיר של כמה עשרות או מאות צעדים בודדים כבר מוביל מודלי בסיס איכותיים לבצע את ההוראות באופן איכותי במיוחד.

האמת המצערת: בשלב זה מפסיקות השיטות למדידת ביצועי מודלים לעבוד. אימון ממושך ממשוב אנושי (RLHF) או ביצוע הוראות אכן ממשיך לשפר את המטריקות המקובלות למדידת ביצועים. אך בדרך כלל גם גורם למודל שנוצר “להרגיש רובוטי”.

באימון המודל, הקפידו הכותבים על אימון מזערי על מנת לעורר את יכולות המודל לבצע הוראות ולא מעבר לכך. לאחר האימון, נראה כי המודל רכש יכולות נוספות כגון סיעור מוחות, מענה על שאלות פתוחות מהזכרון או כתיבת טקסט ארוך ואיכותי (מיילים) למרות שאינן קיימות באופן ממוקד בסט הנתונים. יכולות אלו התאפשרו על סמך הידע הקודם המקודד בתוך מודל הבסיס.

לסיכום

הקסם הוא שאין קסם. כמו שכולם כאן כבר כנראה יודעים: הסוד הוא הדאטה. אימון זה מצביע על כך שחלק גדול מאיכות המודלים החדישים ביותר כמו ChatGPT נובע מאיכות נתוני האימון ולא מארכיטקטורה משופרת.

הכותבים בחנו את המודל במדדים המופיעים במאמר InstructGPT, עליו מבוסס GPT-3 002 ומצאו שהמודל מפגין הרבה מאותן היכולות באיכות שאינה נופלת מGPT-3 002 (אנחנו בדרך, עדיין לא שם)

 

עוד בנושא: