כתבות עם התגית Reinforcement learning

תחום ה-Data Science צבר תאוצה רבה בשנה האחרונה ונראה שישנם עוד ועוד אנשים שרוצים לסלול את דרכם פנימה לעולם זה. מגמה זו הובילה אותי בשנה שעברה ליצור שיתוף פעולה עם Y-DATA – תוכנית ההכשרה של יאנדקס. כפועל יוצא משיתוף פעולה זה הכנתי כתבה מקיפה על התוכנית הלימודית של Y-DATA בה צללנו לעומק של הסילבוס ולמדנו להכיר לראשונה את המהות של התכנית והדגש הרב שהיא שמה על התכנים האקדמיים. שנה שלמה עברה מאז ויאנדקס ממשיכה בכל הכוח ופותחת מחזור נוסף לתכנית ההכשרה שלה שכוללת הפעם תכנים רבים נוספים. ומעל כל זאת, החידוש האמיתי של המחזור הנוכחי הוא האפשרות להשתתף בתכנית במודל "לימודים מבוססי הצלחה" ולשלם על הקורס רק במידה ואכן הצלחתם למצוא עבודה בתחום.

לפני שאנחנו צוללים פנימה לשינויים, נסביר קצת מה היא תכנית Y-DATA ומה עומד מאחוריה. מי שירצה לקרוא על כך בהרחבה מוזמן כמובן לעיין בכתבה שהכנתי בשנה שעברה אשר מופיעה בפסקה הקודמת. Y-DATA היא בעצם תוכנית הכשרה בתחומי הדאטה אשר פונה למועמדים בעלי רקע אקדמי עשיר ו\או נסיון של כמה שנים לפחות בכתיבת קוד אשר רוצים לעשות הסבה לתחום ה-Data Science. התכנית היא שלוחה של בית הספר למדעי הנתונים של חברת יאנדקס (YSDA), הפעיל מזה מעל לעשור במספר ערים ברוסיה. התכנית חרטה על דגלה להכשיר את הסטודנטים שלה לשוק העבודה ולספק להם כלים של ממש, כאלה שיאפשרו להם למצוא עבודה במהרה בסיום הקורס. בשנה שעברה המחזור הראשון של התוכנית בארץ הפך במהרה להצלחה רצינית – בין היתר בזכות פרויקטי הגמר המרשימים שעליהם עוד נדבר בהמשך. כפי שציינתי, השנה התכנית עברה מקצה שדרוגים רחב והתאימה את עצמה לשוק הדינמי הישראלי.

כדי להכיר לעומק את כל השינויים שנעשו בתוכנית, ולכדי לשמוע מידע נוסף על תוכנית המלגות החדשה, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל. כמו כן, חשוב לי לציין כי בדומה לשנה שעברה, גם השנה אנחנו מקיימים שיתוף פעולה עם יאנדקס, מה שמקנה לכם 1,000 שקל הנחה בשימוש בקוד MDLI. באתר ההרשמה.

תשלום מבוסס הצלחה

לכתבה המלאה >>

אמנם, האתגר לא באמת נגמר כמו שצריך בגלל הוירוס. אבל עבדתי די קשה, אני מרשה לעצמי לסכם בכל מקרה!

לפני שבועיים Uri Goren פרסם את אתגר מערכות ההמלצה של jul.
אני מתעסק במערכות המלצה בתור (חצי) תחביב כבר כמעט שנה והרבה זמן חיפשתי תירוץ לצלול לעומק העניין.
אז למארגנים: תודה על הFOMO, אחלה תירוץ!

הבעיה: אנשים קנו מוצרים. אנחנו צריכים לאמר איזה מוצר הם יקנו בפעם הבאה.
הדאטה: טרנזקציות – אדם x קנה מוצר y בתאריך z.
ניקוד: אם קלענו למוצר אחד מתוך רשימת המוצרים העתידיים, האדם נספר לנו לחישוב הדיוק הסופי, שהוא לא יותר מאחוז האנשים בהם צדקנו.
עוד פרט חשוב: מספיק לנו לקלוע למוצר אחד. (ובדקתי את הפרט הזה דרך ההגשות ללידרבורד!)
ועוד פרט חשוב: אנחנו לא יודעים מה המוצרים! יש לנו רק id. זה חכם מצד המארגנים, היתי מנצל את זה לרעה אם זה לא היה ככה.

התחלתי לירות בייסליינים כבר בעשר הדקות הראשונות מפתיחת הטבלה.

הבייסליין הראשון כמובן: "תציע לכולם את המוצר הכי נפוץ".
השני היה: "תציע לכולם את המוצר הכי KNN.predict"

אחרי שניקיתי קצת, העפתי את העברית (כי זה דפק כל דבר אפשרי), העפתי את כל האנשים שאני יודע עליהם רק קניה אחת והגשתי את הבייסליין "תציע לכל אדם פשוט מה שהוא קנה ממנו הכי הרבה" ואת הבייסליין "תציע לכל אדם מה שכולם קונים הכי הרבה" והבייסליין "תציע לכל אדם מה שקונים ממנו הכי הרבה באותו החודש"
והכי חשוב,הרצתי את הבייסליין:

for cols_combination in כל_הקומבינציות(cols):
תציע לאותו אדם: df.groupby(cols_combination).agg(lambda x: x.value_counts().index[0])

שבאופן ממש מביך הביא אותי למקום הראשון בטבלה..
חצי שעה מפתיחת התחרות..

ואז התחלתי לעבוד באמת. לכתבה המלאה >>

עדכון 2020: רוצים לשמוע על התכנית החדשה של Y-DATA ועל העדכונים של 2020? כנסו לכתבה העדכנית בנושא.

אחת השאלות הנפוצות ביותר שאני שומע מידי שבוע היא: "איך להיכנס לתחום של Data Science". בעקבות הפריחה והשגשוג של התחום כולו, ישנו ביקוש רב להיכנס לעולמות אלו ורבים מחפשים את ההכשרה שתאפשר להם להשיג את דריסת הרגל הראשונה שלהם. מי שעוקב אחרי הפרסומים שלי וקורא כאן באתר, יודע עד כמה אני עובד קשה כדי לעזור לכמה שיותר אנשים להיכנס לתחום וכיצד אנחנו משקיעים מאמצים רבים כדי להגדיל את הקהילה המקומית בישראל.

לשם כך, יצרתי שיתוף פעולה עמוק עם חברת יאנדקס, אשר ייסדה סניף מקומי של Y-DATA – תכנית הכשרה מקיפה בתחום ה-Data Science. כחלק משיתוף פעולה זה אני מסייע ליאנדקס לאתר מועמדים מצוינים שיוכלו להתקבל לתוכנית.

כפי שאתם בוודאי יודעים, לפני שאני מבצע שיתופי פעולה שכאלה אני חוקר לעומק ולומד על תוכניות הלימוד ועל הגורמים שמנהלים את ההכשרה. כפועל יוצא מכך, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל ועם פרופסור ליאור רוקח אשר מלווה את התוכנית מהצד האקדמי כחלק משיתוף הפעולה עם אוניברסיטת בן גוריון. בראיון אנחנו נצלול פנימה ונבחן לעומק את הקורס הנ"ל, נשמע על מקרי הצלחה מהמחזור הקודם וכמובן נעמוד על הצדדים האקדמיים של קורס זה.

מי את תוכנית Y-DATA?

השאלה הראשונה שלי לקוסטיה הייתה מה היא בעצם תוכנית Y-DATA ומאיפה התוכנית הזו הגיעה אלינו? מדובר אחרי הכל בתוכנית חדשה יחסית בנוף הישראלי. "Y-DATA היא אכן תוכנית חדשה אבל בימים האלה המחזור הראשון שלה מסיים את הלימודים בקמפוס של אונ' תל אביב ומציג את פרויקטי הגמר שלהם לקהל הרחב. התוכנית  צמחה מתוך ההכרה שעד לאחרונה לא היו בארץ מספיק מסלולים מסודרים להכשרה בסיסית במדעי הנתונים ולמידה חישובית. לאחרונה נפתחו בעידוד המועצה להשכלה גבוהה מספר תוכניות ייעודיות לתואר ראשון בתחום זה (כגון תכנית "הנדסת נתונים ומידע" בטכניון והתכנית "הנדסת נתונים" באוניברסיטת בן גוריון בנגב),  אולם יעברו עוד מספר שנים עד שהתלמידים שלהן יסיימו את הלימודים וישתלבו בתעשייה. המחסור מורגש במיוחד בכל הנוגע לתכניות שרלוונטיות לאנשים שכבר יש להם רקע טכני משמעותי, ועובדים כיום בתפקידי פיתוח ומחקר והיו רוצים ללמוד באופן מסודר את התחום של למידה חישובית בלי לעזוב הכל ולעצור את החיים לשנתיים-שלוש לצורך הלימודים, שהתוצאה בסיומם לא ידועה מראש." הסביר קוסטיה.  לכתבה המלאה >>

בשנים האחרונות קשה שלא לשם לב להתקדמות העצומה שנרשמה בתחום הראייה הממוחשבת. יכולות או טכנולוגיות שנחשבו מדע בדיוני עד לפני כמה שנים, כעת הופכות לנגישות, קלות להטמעה וחלקן אפילו הפכו להיות מוצרי מדף מוכנים. עם זאת, ישנם מספר עצום של אתגרים ובעיות לא פתורות בתחום זה, ובמקביל לכך נוצרים תחומי מחקר חדשים המציגים שימושים נרחבים ופורצי דרך בתחום. מעבר לכך, אנו עדים לאלגוריתמים חדשים המסוגלים להבין לעומק תמונות או קטעי וידאו ואף ליצור כאלה יש מאין – נקודה היוצרת לא מעט גם אתגרים חברתיים ואתים.

כנס  (IMVC (Israel Machine Vision conference  מתקיים זו השנה העשירית ודן בסוגיות אלה ורבות אחרות, וכן כדי להכיר את הפיתוחים המתקדמים ביותר בשוק.  הכנס יכלול לא מעט תכנים והרצאות הקשורים לעולמות התוכן של Machine Learning ו-Deep Learning כך שיש לו חשיבות עצומה בקרב הקהילה המקומית. יתרה מכך, תחום הלמידה החישובית אף קיבל חשיבות רבה עם השנים והפך להיות מאוד דומיננטי בכנס כולו כפי שנלמד בהמשך.

כדי ללמוד על הכנס ועל התכנים השונים שיוצגו בו שוחחתי עם ד"ר חן שגיב וד"ר קובי כהן, היזמים מאחורי כנס IMVC, אשר הסבירו לי על כיצד הכנס היה לפני עשר שנים, מה צפוי לנו לראות בכנס השנה ולקינוח גם שיתפו אותי במחשבות שלהם לגבי העתיד של התחום כולו. דרך אגב, לפני שאנו צוללים פנימה כדי שתכירו כי השנה נוצר שיתוף פעולה בין קהילת Machine & Deep learning Israel לבין IMVC וארגנתי לחברי הקהילה הנחה משמעותית של 20% בשימוש בקופון MDL20.

IMVC 2019

כפי שציינתי תחילה, כנס IMVC 2019, אשר מתקיים השנה ב-18 במרץ, התקיים לראשונה ב-28 בינואר 2010 בעקבות זיהוי צורך של חן וקובי באירוע טכנולוגי מרוכז שיעניק במה לפיתוחים הנעשים בתעשייה ולא רק לאלו שנעשים באקדמיה כפי שהיה עד כה בכנסים מקבילים. הכנס הראשון היה הצלחה משמעותית וכפועל יוצא מכך, הפך להיות מסורת שנתית ומקום מפגש של כל השחקנים השונים בתחום הראייה הממוחשבת בארץ. הכנס אז מאגד  מספר רב של נושאים חמים בתחום הנ"ל ואף כולל אג'נדה מרתקת במיוחד.

ואם באג'נדה עסקינן, בתחילת 2010 כמעט ולא היה ניתן למצוא הרצאות בתחום Machine Learning בכנס וישנה רק הרצאה אחת אמיר נבות, אז מחברת רפאל, אשר עסק בנושא בהרצאתו: "Light-Arms Fire Detection using Machine Learning Technique". כפי שחן הסבירה לנו, אז הנושאים שהיו על הפרק היו מעט שונים: "בשנים הראשונות הכנס היה ממוקד בשיטות עיבוד תמונה וראיה ממוחשבת ואף כלל גם נושאים מעולם עיבוד האותות". היום קשה לנו לדמיין כנס Vision ללא נוכחות נכבדה של אלגוריתמים מעולמות ה-Machine/Deep Learning ואט אט עם השנים אכן התחיל אותו שינוי משמעותי בקרב הקהילה המדעית והמקצועית. לכתבה המלאה >>

כמידי שבוע אני מאגד לכם את כל הפוסטים הדיונים החשובים שעלו בקבוצה. השבוע היו לא מעט דיונים מרתקים על מגוון רחב של נושאים שכדאי לכם לבדוק. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). את הניוזלטר המלא ניתן למצוא כאן (השבוע: הקורס הרביעי של Razor, מגוון עבודות חדשות ועוד).

לכתבה המלאה >>

השבוע, כמידי שבוע, אני מאגד במקום אחד את כל המידע החשוב שעלה בקבוצה ואת כל הפוסטים שקיבלו הכי הרבה חשיפה. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). את הניוזלטר המלא ניתן למצוא כאן (לינק לכל האירועים בינואר וכל המשרות שנכנסו השבוע).

לכתבה המלאה >>

הצטרפו לערוץ הטלגרם שלנו כדי לא לפספס אף מידע חשוב

מדריך זה נכתב על ידי ג'ף מוסקוביץ

לפני מספר ימים כתבתי פוסט בקבוצת הפייסבוק Machine & Deep Learning Israel שעסק במספר פרויקטים שעשיתי לאחרונה. בסוף הפוסט הצעתי, בדרך אגב, עזרה לכל מי שמעוניין לקבל המלצה על קורסים רלוונטיים או איך להתחיל להתמקצע בתחום ה-Machine learning. להפתעתי גיליתי שיש הרבה אנשים בקבוצה שמעוניינים במידע הזה אז במקום לדבר עם כולם בנפרד, אני מאגד את כל ההמלצות שלי במדריך הזה שלפניכם. לפני שאנחנו מתחילים, אני אבקש סליחה מראש על שגיאות הכתיב שלי – עברית היא לא שפת האם שלי.

הרקע שלי

נתחיל עם הבהרה קצרה על הרקע שלי, מאחר וקיבלתי הרבה שאלות בסגנון הזה:

״אבל ג׳ף, בטח יש לך דוקטורט בחילוק ארוך מתקדם או משהו ויש לי רק תואר שני בזה. איך אני אסתדר עם המתמטיקה??״

יש לי תואר ראשון בעיתונאות ועוד אחד בהיסטוריה. זהו.

״אבל זה נושא די טכני, אני עדיין יכול לעשות את הקורסים האלה אם יש לי רק תואר ראשון במדע מחשב??״

עוד פעם, יש לי תואר ראשון בעיתונאות ועוד אחד בהיסטוריה …

תירגעו. כן, זה אפשרי.

כמו שMark Twain אמר:

"Never let your schooling interfere with your education”

דרישות קדם

דרישות הקדם היחידות הן סביב כישורי המתמטיקה שלכם, אתם תצטרכו הבנה בסיסית (באמת בסיסית) בנושאים הבאים:

  1. אלגברה לינארית.
  2. חדו"א (חשבון דיפרנציאלי ואינטגרלי).
  3. הסתברות.

לכתבה המלאה >>

את חברת EMC אין צורך באמת להציג. מדובר על אחת החברות הגדולות ביותר בעולם המתמחה באספקת מוצרים, שירותים ופתרונות בתחום אחסון וניהול מידע. החברה, שהייתה מחלוצות פארק ההייטק בבאר שבע, הקימה במרכז המחקר והפיתוח הדרומי שלה צוות Data Science as a Service העמל על מגוון רחב של פיתוחים. צוות זה מיישם טכניקות רבות בתחום ה-Machine learning ואף רותם אותן בכדי לפתח מוצרים מסקרנים במיוחד. קיימתי ראיון עם אושרי בן הרוש, Senior Manager ו-Data Scientist בחברת EMC, שהסביר לי על הצוות כולו ועל האתגרים עמם הם מתמודדים.

"הקבוצה שלנו נקראת Data Science as a Service וכשמה כן היא. אנחנו בעצם מספקים שירותי Data Science ליחידות עסקיות שונות ב-EMC וגם ללקוחות חיצוניים. הקבוצה הוקמה לפני 4.5 שנים כסטארטאפ פנימי בתוך EMC עצמה. הרעיון היה ש-EMC כארגון, הדומה לכל הארגונים האחרים, מתמודד עם בעיות שהן Data driven שכדאי לשם עליהן דגש ולנסות לתת להן מענה." הסביר בן הרוש. "לכן, החלטנו להקים צוות שיספק את השירותים האלה תחילה פנימה: כלומר הצוות יתחיל לפתור את הבעיות העסקיות של EMC תחת ההבנה שבעיות עסקיות של EMC יעניינו מאוד את הלקוחות של EMC. לאחר מכן נוכל לשלב את הפתרונות האלה במסגרת המוצרים שאנחנו יכולים להציע ללקוחות." לכתבה המלאה >>

X