המאמר: Mastering Diverse Domains through World Models
ואפילו לא צריך בני אדם ביוטיוב שיראו לו איך משחקים.
-
לאסוף עצים.
-
לאסוף אדמה.
-
לאסוף מספיק מהם ואז לבנות: שולחן.
-
לאסוף מספיק מהם ואז לייצר: גרזן.
כולם מבינים שגם צריך להבין איך בכלל לפתוח את התפריט ולבחור כל מיני דברים בשביל זה גם כן?
-
לחפור באדמה כדי: לאסוף אבנים.
-
לייצר: גרזן אבנים. (גרזן משופר)
-
לאסוף עוד ולהשתמש במה שאספנו כדי: לבנות תנור.
-
לחפור כדי: להשיג פחם.
-
להשתמש בכלים כדי: להשיג מחצבי ברזל.
-
להמיס את הברזל בתנור: ולייצר מטילי ברזל.
-
להמיס אותם ולשלב אותם עם שאר הדברים שאספנו כדי לייצר: גרזן ברזל.
-
לחפור המון באדמה באמצעות הגרזן המשופר החדש תוך כדי שעוברים מערות תת קרקעיות והמון בלאגן כדי: למצוא יהלום.
כן! למצוא (!!) את היהלום. אין לנו מושג איפה הוא יהיה, צריך לחפש.
האמת? PPO לא עובד. לא הPPO שכתוב במאמר לפחות. הכותבים שכחו לציין במאמר המון פרטים שבלי כל אחד מהם האלגוריתם פשוט לא לומד כלום. את הפרטים ה"סודיים" הללו תוכלו למצוא במימוש הפופולרי של Stable Baselines ובקושי מדברים עליהם במאמרים או בהרצאות על PPO.
אה כן, עוד משהו: סוכני RL שמגיעים לתוצאות עולמיות מאד רגישים להיפרפרמטרים שלהם. מתאר לעצמי שמי שמתעסק עם RL בקבוצה מכיר טוב מאד את הכאב.
יש עוד כל מיני טריקים הם למשל לא לשמור בReplay Buffer משחקים בהם הסוכן לא קיבל Reward או לעצור משחקים בהם הסוכן קיבל פסילה כלשהי (ולא לחכות שיפסל לחלוטין ויגמרו לו החיים)
היה נחמד אם מאמרים נוספים היו הולכים בדרך זו.
-
מודל ה-סביבה (World model) שבנוי מencoder decoder (ממש Autoencoder) כשביצוג הנסתר הנלמד משתמשים על מנת לחזות את המצב הבא אליו הסביבה תגיע בהנתן פעולה מסוימת ואת הReward אותו הסוכן יקבל בהנתן אותו המצב. חלקים ספציפיים במודל הם עם Feedback (כמו RNN) וחלקים אחרים לא. למודל יש 6 יציאות שונות אותן הוא מנסה לחזות בכל שלב.
-
רשתות Actor וCritic המקודדות את הסביבה העתידית אותה חזה מודל העולם ועליהן עבור מצב מסוים להחזיר את הRewardים העתידיים (עם Discount וכל הטריקים הרגילים) על סמך התחזית העתידית של מודל העולם (שימו לב! זו תחזית על העתיד על סמך תחזית על העתיד). עוד טריק שהם הוסיפו פה הוא שתחזית הReturns מתבצעת ברגרסיה בדידה עם טריק הtwohot. כך הם מנרמלים את תוצאות הרשת ושומרים על יציאות מנורמלות. ועוד טריק נוסף הוא נרמול האנטרופיה לאקספלורציה באמצעות חלון נע בזמן.