כתבות מאת אורי אליאבייב

עריכה:
ההרשמה כבר הגיעה למספר מאוד גבוה של אנשים ולכן אני פותח רשימת המתנה עבור כל מי שלא הספיק להירשם: http://bit.ly/2ktLogQ

כפי שהובטח, אני עושה פיילוט ראשוני ומארגן גרסה מקומית של כנס ICCV בו יציגו דוברים ישראליים את העבודות אותן הם הולכים להציג בכנס ICCV עצמו. בכנס הנ"ל יוצגו גם שתי עבודות מכנס IJAIC. נתחיל ונציין כי אין קשר רשמי לכנס ICCVI או IJAIC העולמי וכי מדובר על יוזמה קהילתית מקומית שמטרתה היא לאפשר לאלו שלא ייקחו חלק בכנס ליהנות מתכנים והרצאות ברמה המקצועית הגבוהה ביותר. האירוע יתקיים בתאריך ה25/09/2019, בשעה 18:00, במיקרוסופט ריאקטור ויכלול כ-14 הרצאות בנות 12 דקות בהן כל מרצה יציג את הנושאים העיקריים בעבודה שלו. כמו כן, לאחר האירוע אשלח את כל החומרים בצורה מסודרת בניוזלטר של הקהילה וגם אעדכן את העמוד הזה (הירשמו לניוזלטר כדי להישאר מעודכנים). ההרשמה לאירוע מתבצעת דרך הטופס הזה.

רשימת דוברים (מתעדכן):

לכתבה המלאה >>

השנה, בדיוק כמו שנה שעברה, קיימנו סקר מקיף אודות מגוון רחב של נושאים בקרב חברי קהילת MDLI. הסקר בא לבחון אלמנטים הנוגעים בתנאי העסקה, אתגרים יומיים, כלים נפוצים שבשימוש ועוד עבור אלו שעוסקים במקצעות הדאטה. בסקר הנוכחי השיבו 569 איש בסה"כ (לעומת 225 בשנה שעברה) אשר מייצגים בצורה נרחבת את כל הקשת הישראלית בתחום. המידע נאסף עד חודש מרץ 2019 ועדכני לנקודת זמן זו. בדו"ח הבא נציג את התוצאות הישירות שעלו מתוך הסקר ולצד זאת מספר ניתוחי עומק שביצע עומרי גולדשיין על הנתונים וזאת כדי לחשוף קשרים ורבדים עמוקים יותר בין הנתונים. השאלון נבנה משני חלקים עיקריים: חלק ראשון אישי ותעסוקתי ולצידו, חלק שני מקצועי וטכני יותר. בסקירה הזו, נציג לכם את התובנות העיקריות שעלו מהסקר ואת המסקנות לכל מי שבתעשייה זו.

אחד האלמנטים העיקריים בדו"ח הוא נושא השכר הממוצע בתחום בהתאם לניסיון בתעשייה והשכלה אקדמית. השנה הסקר כלל תשובות של כ-402 איש העוסקים בתחום במשרה מלאה – מה שמעניק תמונת מצב טובה על התחום. עומרי פיתח שני מודלים שיסייעו לכם לחזות מה אמור להיות השכר הממוצע שלכם בהם תוכלו לעשות שימוש. אחד מפרויקטי ההמשך של הסקר הוא הכנת מחשבון שכר בו יהיה ניתן להזין פרטים אודתיכם ולאחר מכן לקבל את השכר הממוצע עבור אנשים עם פרופיל זהה. מתוך הבנה כי על אף שמדובר על מספר גדול ביחס לסקרי שכר אחרים, הנתונים עדיין יכולים להיות לא מדויקים במקרים מסוימים ולכן נרצה להוסיף דוגמאות נוספות. מחשבון שכר זה יעלה בשבועות הקרובים ויאפשר גם מתן פידבק על התוצאות לשם שמירתו עדכני לאורך זמן. לכתבה המלאה >>

לאחר למעלה מתשעה חודשים, בערב תצוגת פרויקטי גמר, הגיע לסופו בתחילת השבוע ה-MDLI Course – קורס ההתנדבותי שארגנו Eran PazGil LeviNir Ben-Zvi ואנוכי. הקורס שהועבר היה זהה לקורס CS231n: Convolutional Neural Networks for Visual Recognition של אוניברסיטת סטנפורד. לאחר ארבעה חודשים של קורס, חיברנו לסטודנטים שלנו מנטורים מהתעשייה, שהנחו אותם לאורך כל פרויקט הגמר. לאחר סיום העבודה על הרעיונות השונים שלהם, הסטודנטים שלנו הציגו את הפרויקטים שלהם בדמו דיי מיוחד שארגנו לכבודם בגוגל קמפוס.

בערב זה הוצגו שמונה פרויקטים מרתקים שסיכמו את כל מה שהסטודנטים שלנו למדו בחודשים האחרונים. כל פרויקט היה ייחודי ומעניין, ואף גרם לסטודנטים "לכלכך" קצת את הידיים ובאמת להרגיש איך זה לעבוד על אתגר אמיתי מקצה לקצה. ואם זה לא מספיק, גם בערב הזה, בדיוק כמו בקורס, יחס הגברים והנשים שהציגו היה זהה. בהמשך הכתבה תוכלו לראות את כל המצגות אותן הציגו הסטודנטים ואף את פרטיהם ליצירת קשר ולמידע נוסף.

זו הזדמנות מעולה גם להודות לכל המנטורים שנרתמו ועזרו לסטודנטים שלנו בפרויקטי הגמר. כולם, ללא יוצא מן הכלל, עבדו צמוד איתם לאורך כל הפרויקט וידעו תמיד ללוות ולכוון שצריך. המנטורים מוזכרים במצגות עצמן ואנחנו קוראים מכאן לחברות נוספות שרוצות לקחת חלק בפרויקטי בשנה הבאה לפנות אלינו כבר עכשיו.

תודה נוספת היא לכל הצוות בגוגל שהעניק לנו מעטפת אדירה והדוקה שסייעה לנו הרבות לצלוח את הקורס בכזו הצלחה. תודה ראשונה וענקית היא ל Naama Yanko שדאגה לקרדיטים בענן לכל הסטודנטים שלנו לקורס (וגם לתוספות הגדולות בזמן העבודה על פרויקטי הגמר). תודה עצומה, לכל הצוות המקצועי של הקמפוס שאירח אותנו במשך ארבעה חודשים בכל שבוע ותמיד היו שם בשבילינו.

נשמח גם להודות ל Matan Friedmann, בוגר הקורס הראשון שלנו, שהצטרף כמתרגל במחזור הזה וסייע לנו לא מעט בשמירה על הרמה הגבוהה של הסטודנטים. זו דוגמא מדהימה לדרך שהבוגרים שלנו משתלבים בחזרה כדי לסייע לקהילה ועד כמה הם הפכו להיות חזקים בתחום. מתן כמובן ימשיך איתנו בשנה הבאה ויעזור לנו להרים את הרמה של הסטודנטים הבאים אפילו מעבר.

תודה גדולה גם כמובן לכל הסטודנטים שלנו שהתמידו ועבדו קשה כדי לגרום לערב הזה להיות ברמה הגבוהה ביותר. תודה גם לכל האורחים שלנו מהתעשייה שהגיעו לשמוע על הפרויקטים, לשאול שאלות ולהתרשם מהעשייה של הסטודנטים.

נשאלנו הרבה פעמים אם ומתי נפתח קורס נוסף והיכן אפשר להתעדכן על כך. אנחנו מאמינים כי כן נפתח מחזור נוסף והוא ככל הנראה יתקיים בחודש נובמבר כמו בפעם הקודמת. ניתן להתעדכן בקבוצה ואני ממליץ גם להירשם לניוזלטר כדי להבטיח שלא תפספסו את הפרסום בגלל האלגוריתם של פייסבוק. אם אתם רוצים להיות בטוחים במאה אחוז, הצטרפו לערוץ הטלגם החדש שלנו. בנוסף לכך אני ממליץ לבקר בשתי כתבות שכתבתי בנושא שיכולות לסייע למי שרוצה להתחיל גם הוא להיכנס לתחום: קורסים מומלצים וספרים ממולצים. בנוסף לכך, מי שמחפש קורסים ומתלבט במה לבחור, גם לזה כתבתי מדריך מקיף. מי שכבר פועל בתחום ומחפש עבודה מוזמן להיכנס ללוח המשרות שלנו שמתעדכן על בסיס יומי.

ועוד נקודה אחת אחרונה, יש לכם עבודה שמתאימה לבוגרים שלנו? תרגישו חופשי לפנות אליהם ישירות או לפנות אלינו כדי לעשות את החיבור. אנחנו יכולים להמליץ עליהם בעיניים עצומות.

פרויקטים:

לכתבה המלאה >>

אחת השאלות הנפוצות ביותר שאני שומע מידי שבוע היא: "איך להיכנס לתחום של Data Science". בעקבות הפריחה והשגשוג של התחום כולו, ישנו ביקוש רב להיכנס לעולמות אלו ורבים מחפשים את ההכשרה שתאפשר להם להשיג את דריסת הרגל הראשונה שלהם. מי שעוקב אחרי הפרסומים שלי וקורא כאן באתר, יודע עד כמה אני עובד קשה כדי לעזור לכמה שיותר אנשים להיכנס לתחום וכיצד אנחנו משקיעים מאמצים רבים כדי להגדיל את הקהילה המקומית בישראל.

לשם כך, יצרתי שיתוף פעולה עמוק עם חברת יאנדקס, אשר ייסדה סניף מקומי של Y-DATA – תכנית הכשרה מקיפה בתחום ה-Data Science. כחלק משיתוף פעולה זה אני מסייע ליאנדקס לאתר מועמדים מצוינים שיוכלו להתקבל לתוכנית ואף הצלחתי להשיג הנחה משמעותית לחברי הקהילה (פרטים נוספים בפסקה האחרונה). 

כפי שאתם בוודאי יודעים, לפני שאני מבצע שיתופי פעולה שכאלה אני חוקר לעומק ולומד על תוכניות הלימוד ועל הגורמים שמנהלים את ההכשרה. כפועל יוצא מכך, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל ועם פרופסור ליאור רוקח אשר מלווה את התוכנית מהצד האקדמי כחלק משיתוף הפעולה עם אוניברסיטת בן גוריון. בראיון אנחנו נצלול פנימה ונבחן לעומק את הקורס הנ"ל, נשמע על מקרי הצלחה מהמחזור הקודם וכמובן נעמוד על הצדדים האקדמיים של קורס זה.

מי את תוכנית Y-DATA?

השאלה הראשונה שלי לקוסטיה הייתה מה היא בעצם תוכנית Y-DATA ומאיפה התוכנית הזו הגיעה אלינו? מדובר אחרי הכל בתוכנית חדשה יחסית בנוף הישראלי. "Y-DATA היא אכן תוכנית חדשה אבל בימים האלה המחזור הראשון שלה מסיים את הלימודים בקמפוס של אונ' תל אביב ומציג את פרויקטי הגמר שלהם לקהל הרחב. התוכנית  צמחה מתוך ההכרה שעד לאחרונה לא היו בארץ מספיק מסלולים מסודרים להכשרה בסיסית במדעי הנתונים ולמידה חישובית. לאחרונה נפתחו בעידוד המועצה להשכלה גבוהה מספר תוכניות ייעודיות לתואר ראשון בתחום זה (כגון תכנית "הנדסת נתונים ומידע" בטכניון והתכנית "הנדסת נתונים" באוניברסיטת בן גוריון בנגב),  אולם יעברו עוד מספר שנים עד שהתלמידים שלהן יסיימו את הלימודים וישתלבו בתעשייה. המחסור מורגש במיוחד בכל הנוגע לתכניות שרלוונטיות לאנשים שכבר יש להם רקע טכני משמעותי, ועובדים כיום בתפקידי פיתוח ומחקר והיו רוצים ללמוד באופן מסודר את התחום של למידה חישובית בלי לעזוב הכל ולעצור את החיים לשנתיים-שלוש לצורך הלימודים, שהתוצאה בסיומם לא ידועה מראש." הסביר קוסטיה.  לכתבה המלאה >>

סיכום זה נכתב על ידי Gal Hever בהתבסס על פוסט זה.

 

שלב ראשון – חשיבה:

כתבו רשימה עם כל השאלות/השערות המעניינות שעולות לכם/ן על הדאטה.

שלב שני – סטטיסטיקות וויזואליזציות:

  • בדיקת מאפיינים בסיסיים כגון: nunique value_counts, nrows, max, min, isna().sum() , dtypes.
  • pandas profiling
  • אחוזונים
  • היסטוגרמות
  • סוגי התפלגות של כל feature
  • מדדי ספירמן בין משתנים.
  • מציאת חריגים
  • בדיקת קורלציות
  • פרופורציות של קבוצות
  • scatter plot matrix
  • Feature importance
  • בדיקת מקרי קיצון (גבול עליון ותחתון) וגם מקרה רגיל באופן פרטני
  • הצגת הדאטה בצורה הטבעית וחקירת המבנה
  • חוקי אסוסיאציות
  • לכל משתנה לבדוק אם יש לו מדד מרכזי אחד או שהוא mixed
  • הצגה של קרוס קורלציות

סוגי ויזואליזציות לפי סוג הדאטה:
לכתבה המלאה >>

בימים האחרונים הגיע לארץ ג'ף דין, סגן נשיא בכיר וראש תחום בינה מלאכותית בגוגל. הוא ללא ספק אחת הדמויות הבכירות ביותר בעולם בנושא ה-AI – רוקסטאר של העולם שלי.
 
אתמול הייתה לי הזכות לקחת חלק באירוע מצומצם שהתקיים בגוגל קמפוס בו הוא דיבר בצורה חופשית על הדרך שבה גוגל משתמשת ב-AI כדי לפתור בעיות עולמיות. החל מזיהוי שטפונות ועד לגילוי מוקדם של מחלות – כל אלה פרויקטים של גוגל שכבר רצים ומצליחים להראות תוצאות מרהיבות. לקראת הסוף הוא הגיע לשקף שבו מדבר על הכללים והעקרונות שמנחים את גוגל בעת פיתוח מודלים מתקדמים. ג'ף ציין כי הם שמים דגש מאוד גדול כדי לגרום לאלגוריתמים שלהם להיות כמה שיותר הוגנים ואף הראה שורה ארוכה של מאמרים שפורסמו שעוסקים בדיוק בסוגיה הזו.
 
בחלק הזה הרגשתי צורך עז לשאול אותו על איך הם עושים את זה בפרקטיקה. זה נחמד שיש מסמך פומבי אבל מאוד סקרן אותי לדעת איך זה פוגש אותם ביום יום. להפתעתי המוחלטת, ג'ף הביא תשובה מאוד מסקרנת שחשפה, בפעם הראשונה עד כמה שידוע לי, על איך נראה תהליך שכזה בגוגל. ג'ף התחיל והסביר שהדבר הראשון שהם עושים, אשר בעל חשיבות רבה עבורם, הוא להסביר את העקרונות האלה לכל העובדים שמתעסקים בפיתוח מסוג זה. ג'ף ממש הדגיש כי יש לו חשיבות רבה לכך שזה לא יהיה "סתם מסמך פומבי" אלא משהו שכל עובד מכיר.

לכתבה המלאה >>

כפי שהובטח, אני עושה פיילוט ראשוני ומארגן גרסה מקומית של כנס CVPR בו יציגו דוברים ישראליים את העבודות אותן הם הולכים להציג בכנס CVPR עצמו. נתחיל ונציין כי אין קשר רשמי לכנס CVPR העולמית וכי מדובר על יוזמה קהילתית מקומית שמטרתה היא לאפשר לאלו שלא ייקחו חלק בכנס ליהנות מתכנים והרצאות ברמה המקצועית הגבוהה ביותר. האירוע יתקיים בתאריך ה02/06/2019, בשעה 18:00, בגוגל קמפוס ויכלול כ-14 הרצאות בנות 12 דקות בהן כל מרצה יציג את הנושאים העיקריים בעבודה שלו. כמו כן, לאחר האירוע אשלח את כל החומרים בצורה מסודרת בניוזלטר של הקהילה וגם אעדכן את העמוד הזה (הירשמו לניוזלטר כדי להישאר מעודכנים). ההרשמה לאירוע מתבצעת דרך הטופס הזה.

רשימת דוברים (מתעדכן):

לכתבה המלאה >>

לאחר לא מעט עבודה מאחורי הקלעים וכמה פיילוטים קצרים, אני שמח להכריז על תוכנית Attention – שיתוף פעולה עמוק שנעשה בין Machine & Deep learning Israel ובין תוכנית הסטארטאפים של גוגל קלאוד. כחלק מהתוכנית, הקהילה הופכת להיות פרטנר רשמי של גוגל, לצד קרנות הון הסיכון הגדולות בארץ ומאיצי סטארטאפים מוכרים.

שיתוף פעולה זה יאפשר לחברות העוסקות במחקר ופיתוח בתחום ה-Machine Learning להגיש מועמדות לתוכנית הסטארטאפים הייחודית של גוגל קלאוד, באמצעות טופס הרשמה ייעודי שנוצר עבור הקהילה. הצטרפות לתוכנית זו תוכל להעניק לסטארטאפים עד ל-100,000 דולר בקרדיטים בשירותי הענן של גוגל, שזהו המענק הגדול ביותר שניתן לחברות סטארטאפים. לצד הקרדיטים, החברות שייקחו חלק בתוכנית יזכו בעוד מגוון רחב של הטבות הכוללות גישה להכשרות ואירועים סגורים, הנחה במוצרי גוגל ושירותי G suite לחברה ועוד.

כדי לקחת חלק בתוכנית Attention ולקבל גישה לקרדיטים, על החברות לעמוד במספר תנאים מקדימים:

לכתבה המלאה >>

חברת לייטריקס הירושלמית היא אחת מחברות האפליקציות המצליחות ביותר בארץ, עם עשרות מליוני הורדות מרחבי העולם. למי שלא מכיר, לייטריקס היא החברה המפתחת שלל אפליקציות פופולריות וזוכות פרסים לעיבוד תמונות ווידאו ועריכת תוכן במובייל. החברה בעיקר מוכרת בזכות לאפליקציית Facetune, שהפכה ללהיט ברחבי העולם המאפשרת יכולות עריכה מתקדמות. כעת מודיעה החברה על השקת תוכנית מלגות חדשה שתאפשר לסטודנטים בתחומי מדעי הנתונים מהאוניברסיטה העברית לקבל תמיכה כספית במהלך התואר.

במסגרת התכנית תעניק לייטריקס מלגות לשנה הראשונה ללימודים במסגרת תואר שני בחוג לסטטיסטיקה באוניברסיטה העברית בירושלים. הסטודנטים שיזכו במלגה יקבלו מענק של 13,800 ש"ח לכיסוי הוצאות שכר הלימוד לשנת הלימודים הנוכחית , וכן 5,000 ש"ח לחודש למשך 12 חודשים בשנת הלימודים 2019-2020.

כדי ללמוד על תוכנית המלגות ועל הפעילות של החברה בתחומי למידת המכונה, קיימתי ראיון קצר עם יניב טנצר המשמש כראש חטיבת ה- Data science בלייטריקס. כפי שחלקכם בוודאי יודעים, לייטריקס פועלת רבות בתחום ואלגוריתמים לומדים הם חלק מאוד משמעותי בפעילות החברה. "בגדול קיימות בחברה שתי חטיבות שמתעסקות בלמידת מכונה אמנם מהיבטים שונים: חטיבת המרקטינג דאטא סיינס וחטיבת העיבוד תמונה. חטיבת המרקטינג דאטא סיינס, אותה אני מוביל, מתעסקת במגוון בעיות מרקטינג מזווית של למידת מכונה. לדוגמא: בניית מודלים לחיזוי הכנסות מקמפיינים שאנחנו מריצים ברשתות החברתיות, שמשרת את האנליסטים בחברה. דוגמא נוספת היא בניית מודלים לחיזוי מבין המשתמשים הקיימים, מי סביר שירכוש מנוי, מה שמאפשר לנו למקד את השיווק. זווית נוספת היא תכנון ניסויים וניתוח תוצאות. בשנה האחרונה השמשנו מערכת Multi – Arm – Bandit. חטיבת העיבוד תמונה מתעסקת בבעיות שונות מתחום העיבוד תמונה כמו סגמנטציה/ זיהוי אובייקטים ועוד." הסביר טנצר. מלבד זאת, טנצר אף הרחיב וסיפר קצר על הטכנולוגיות והמודלים איתם עובדים בחברה: "אנחנו עושים שימוש במגוון מודלים/כלים/טכנולוגיות – החל ממודלים סטנדרטים לקלאסיפיקציה בינארית כמו רגרסיה לוגיסטית ועד מודלי אנליזת הישרדות, מודלי סדרות זמן, רשתות עמוקות ועוד". מודלים אלו, ככל הנראה יהיו חלק מעבודתם של הסטודנטים במידה וירצו להצטרף לחברה במקביל או בסיום לימודיהם.

לכתבה המלאה >>

לפני קרוב לשנה החלטתי שאני משיק סדנא חדשה בתחום ה-AI עבור אנשים לא טכנולוגיים. הסדנא נוצרה מתוך אינספור שיחות עם מנהלים מגופים שונים שפשוט רצו להבין יותר טוב את עולם ה-AI בצורה שתעזור להם לקבל החלטות טובות יותר ולא בהכרח כדי לפתח מודל בעצמם.

בתקופה ההיא היה וואקום מטורף בכל הנושא הזה ומרבית הקורסים שהיו קיימים פשוט פנו לאנשים טכניים ואף אחד לא עצר רגע להסביר גם לאחרים על מה כל המהומה. הקורס הפורנטלי, שכבר עבר שלושה מחזורים, פשוט הפגיש את אנשי המקצוע השונים עם המציאות החדשה שנוצרה מולם. בכל שיעור שכזה הכרנו את הטכנולוגיות החדשות, הבנו את המגבלות שלהן והכי חשוב: הבנו איך אפשר ליישם את זה באופן עצמאי בתוך הארגון/עסק של כל אחד ואחד.

לכתבה המלאה >>

X