ExplAInable פודקאסט: Proximal Policy Optimization – הסבר

אנחנו שמחים להזמין אתכם לפרק התשיעי של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.
אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSS, ספוטיפי, אפל וגם ישירות דרך Podbean. אל תשכחו להירשם כמנויים כדי לא לפספס אף פרק שלנו.
על מה דברנו בפרק הזה?
כבר התרגלנו בעולם ה-ML, ששום מודל לא שורד יותר משנה-שנתיים בתור ה-SOTA עד שמגיעה גישה חדשה שטורפת את הקלפים.
לכן מעניין דווקא לדבר על PPO שנשאר הגישה הדומיננטי ב-Reinforcement learning כבר חמש שנים, ולא נראה שהיא הולכת לשום מקום.
בפרק נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי".