close menu

למידה ממשוב אנושי ללא המשוב האנושי

ביקשתי ממודל לאמן את עצמו והוא באמת עשה את זה (RLHF)

מבלי שאני הייתי מעורב בתהליך כלל: פקודה אחת וזהו.

דוגמאות להמחשה: "דבר רק מילים חיוביות" | "אל תחרטט אם אתה לא יודע" | "שכל מילה שלך תתחיל ב א'" | "דבר רק בחרוזים"..

***

למידה ממשוב אנושי ללא המשוב האנושי

הדיבורים בקבוצה נתנו לי רעיון..

  • בלמידה מחיזוקים אנחנו נותנים למודל ציון לטקסטים שהוא מייצר.

תגמול: "טקסט טוב" \ "לא טוב" על פי העדפות שלנו.

  • ברור לכולם שהתהליך יקר: כי הזמן של בני האדם יקר.
  • לכן, הפתרון: משתמשים במודל נוסף קטן, שלומד "האם בני האדם יאהבו את הטקסט הזה" ומשלב מסוים התהליך הופך לאוטומטי.

אבל..

.

יש לנו כבר מודלים כאלה מאומנים מראש…

***

שימוש במודל מאומן כבר בתחילת האימון

למידה מחיזוקים בZERO SHOT – אני עדיין בקושי מאמין שזה עובד.

***

היתי חייב לבדוק: כמו שאתם רואים בקוד: השתמשתי במודל Flan של גוגל.

למי שלא מכיר: Flan הוא כמו ChatGPT רק יותר טמבל..

משימת המודל המורה* פשוטה:

  • "למד את הסטודנט לאמר אך ורק דברים חיוביים."
מכאן התהליך ממשיך כמו שכולכם מכירים:
  • הסטודנט מייצר קטעי טקסט.
  • המורה עונה "האם הטקסט חיובי?"
  • נלקחות מתוך המודל התפלגויות המילים "כן" ו "לא" ומנורמלות.
  • משתיהן מחושב התגמול לסטודנט וניתן לו כמשוב.
  • ומכיוון שהסטודנט רוצה לקבל כמה שיותר תגמול, לומד הסטודנט "לדבר חיובי".

———

תזכורת: תפקידי בכוח היה רק לעודד 

כן כן. אני רק הסתכלתי, זה עבד במכה הראשונה.

***

אז אין כאן חידוש קונספטואלי.

אבל יש כאן פוטנציאל לא נורמלי. כל אחד ואחד ממכם יכול לאמן לעצמו מודל "איך שבא לו" בשפה חופשית.

הבהרה: אם זה לא ברור, הכוונה היא לאמן-לאמן לא להנסח בפרומפט. המודל נשאר קפוא עם המאפיינים.

תהליך האימון עצמו (בדוגמה הנוכחית) לקח כ11 דקות בלבד.

במהלכן אני חיכיתי בשקט ועודדתי!

 

אני עדיין לא מאמין שזה עובד.

*בדוגמה הזו ספציפית. אנחנו כבר הרבה אחרי זה..

 

עוד בנושא: