למידה ממשוב אנושי ללא המשוב האנושי

ים פלג, 27/04/2023

קטגוריה: כללי

ביקשתי ממודל לאמן את עצמו והוא באמת עשה את זה (RLHF)

מבלי שאני הייתי מעורב בתהליך כלל: פקודה אחת וזהו.

דוגמאות להמחשה: "דבר רק מילים חיוביות" | "אל תחרטט אם אתה לא יודע" | "שכל מילה שלך תתחיל ב א'" | "דבר רק בחרוזים"..

***

למידה ממשוב אנושי ללא המשוב האנושי

הדיבורים בקבוצה נתנו לי רעיון..

בלמידה מחיזוקים אנחנו נותנים למודל ציון לטקסטים שהוא מייצר.

תגמול: "טקסט טוב" \ "לא טוב" על פי העדפות שלנו.

ברור לכולם שהתהליך יקר: כי הזמן של בני האדם יקר.
לכן, הפתרון: משתמשים במודל נוסף קטן, שלומד "האם בני האדם יאהבו את הטקסט הזה" ומשלב מסוים התהליך הופך לאוטומטי.

אבל..

יש לנו כבר מודלים כאלה מאומנים מראש…

***

שימוש במודל מאומן כבר בתחילת האימון

למידה מחיזוקים בZERO SHOT – אני עדיין בקושי מאמין שזה עובד.

***

היתי חייב לבדוק: כמו שאתם רואים בקוד: השתמשתי במודל Flan של גוגל.

למי שלא מכיר: Flan הוא כמו ChatGPT רק יותר טמבל..

משימת המודל המורה* פשוטה:

"למד את הסטודנט לאמר אך ורק דברים חיוביים."

מכאן התהליך ממשיך כמו שכולכם מכירים:

הסטודנט מייצר קטעי טקסט.
המורה עונה "האם הטקסט חיובי?"
נלקחות מתוך המודל התפלגויות המילים "כן" ו "לא" ומנורמלות.
משתיהן מחושב התגמול לסטודנט וניתן לו כמשוב.
ומכיוון שהסטודנט רוצה לקבל כמה שיותר תגמול, לומד הסטודנט "לדבר חיובי".

———

תזכורת: תפקידי בכוח היה רק לעודד

כן כן. אני רק הסתכלתי, זה עבד במכה הראשונה.

***

אז אין כאן חידוש קונספטואלי.

אבל יש כאן פוטנציאל לא נורמלי. כל אחד ואחד ממכם יכול לאמן לעצמו מודל "איך שבא לו" בשפה חופשית.

הבהרה: אם זה לא ברור, הכוונה היא לאמן-לאמן לא להנסח בפרומפט. המודל נשאר קפוא עם המאפיינים.

תהליך האימון עצמו (בדוגמה הנוכחית) לקח כ11 דקות בלבד.

במהלכן אני חיכיתי בשקט ועודדתי!

אני עדיין לא מאמין שזה עובד.

*בדוגמה הזו ספציפית. אנחנו כבר הרבה אחרי זה..

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

כללי

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

כללי

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

אירועים

למידה ממשוב אנושי ללא המשוב האנושי

ביקשתי ממודל לאמן את עצמו והוא באמת עשה את זה (RLHF)

למידה ממשוב אנושי ללא המשוב האנושי

שימוש במודל מאומן כבר בתחילת האימון

למידה מחיזוקים בZERO SHOT – אני עדיין בקושי מאמין שזה עובד.

מכאן התהליך ממשיך כמו שכולכם מכירים:

תזכורת: תפקידי בכוח היה רק לעודד

כן כן. אני רק הסתכלתי, זה עבד במכה הראשונה.

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

לקראת GTC 2025- אלו ההרצאות שלא תרצו לפספס!