ExplAInable פודקאסט: Proximal Policy Optimization – הסבר

אורי אליאבייב, 17/02/2022

אנחנו שמחים להזמין אתכם לפרק התשיעי של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.

אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSS, ספוטיפי, אפל וגם ישירות דרך Podbean. אל תשכחו להירשם כמנויים כדי לא לפספס אף פרק שלנו.

על מה דברנו בפרק הזה?

כבר התרגלנו בעולם ה-ML, ששום מודל לא שורד יותר משנה-שנתיים בתור ה-SOTA עד שמגיעה גישה חדשה שטורפת את הקלפים.

לכן מעניין דווקא לדבר על PPO שנשאר הגישה הדומיננטי ב-Reinforcement learning כבר חמש שנים, ולא נראה שהיא הולכת לשום מקום.

בפרק נלמד על הבעיתיות של למידה רק עם גרדיאנט, ונדבר על מה זה "גרדיאנט טבעי".

הפוסט נכתב על ידי

אורי אליאבייב

אורי אליאבייב הוא מייסד קהילת MDLI ויועץ בתחום הבינה המלאכותית אשר מסייע לגופים רבים לאמץ אסטרגיית AI. לצד זאת אורי הוא מרצה מנוסה המעביר הרצאות וסדנאות בהן הוא מנגיש את נושא ה-AI לקהל הרחב.

עוד בנושא:

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

Deep Learning

ExplAInable פודקאסט: Proximal Policy Optimization – הסבר

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

איך בונים את ה-AI Hacker האולטימטיבי? ראיון בלעדי עם עופרי זיו מחברת Tenzai

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next