כתבות עם התגית deep learning

אחת השאלות הנפוצות ביותר שאני שומע מידי שבוע היא: "איך להיכנס לתחום של Data Science". בעקבות הפריחה והשגשוג של התחום כולו, ישנו ביקוש רב להיכנס לעולמות אלו ורבים מחפשים את ההכשרה שתאפשר להם להשיג את דריסת הרגל הראשונה שלהם. מי שעוקב אחרי הפרסומים שלי וקורא כאן באתר, יודע עד כמה אני עובד קשה כדי לעזור לכמה שיותר אנשים להיכנס לתחום וכיצד אנחנו משקיעים מאמצים רבים כדי להגדיל את הקהילה המקומית בישראל.

לשם כך, יצרתי שיתוף פעולה עמוק עם חברת יאנדקס, אשר ייסדה סניף מקומי של Y-DATA – תכנית הכשרה מקיפה בתחום ה-Data Science. כחלק משיתוף פעולה זה אני מסייע ליאנדקס לאתר מועמדים מצוינים שיוכלו להתקבל לתוכנית ואף הצלחתי להשיג הנחה משמעותית לחברי הקהילה (פרטים נוספים בפסקה האחרונה). 

כפי שאתם בוודאי יודעים, לפני שאני מבצע שיתופי פעולה שכאלה אני חוקר לעומק ולומד על תוכניות הלימוד ועל הגורמים שמנהלים את ההכשרה. כפועל יוצא מכך, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל ועם פרופסור ליאור רוקח אשר מלווה את התוכנית מהצד האקדמי כחלק משיתוף הפעולה עם אוניברסיטת בן גוריון. בראיון אנחנו נצלול פנימה ונבחן לעומק את הקורס הנ"ל, נשמע על מקרי הצלחה מהמחזור הקודם וכמובן נעמוד על הצדדים האקדמיים של קורס זה.

מי את תוכנית Y-DATA?

השאלה הראשונה שלי לקוסטיה הייתה מה היא בעצם תוכנית Y-DATA ומאיפה התוכנית הזו הגיעה אלינו? מדובר אחרי הכל בתוכנית חדשה יחסית בנוף הישראלי. "Y-DATA היא אכן תוכנית חדשה אבל בימים האלה המחזור הראשון שלה מסיים את הלימודים בקמפוס של אונ' תל אביב ומציג את פרויקטי הגמר שלהם לקהל הרחב. התוכנית  צמחה מתוך ההכרה שעד לאחרונה לא היו בארץ מספיק מסלולים מסודרים להכשרה בסיסית במדעי הנתונים ולמידה חישובית. לאחרונה נפתחו בעידוד המועצה להשכלה גבוהה מספר תוכניות ייעודיות לתואר ראשון בתחום זה (כגון תכנית "הנדסת נתונים ומידע" בטכניון והתכנית "הנדסת נתונים" באוניברסיטת בן גוריון בנגב),  אולם יעברו עוד מספר שנים עד שהתלמידים שלהן יסיימו את הלימודים וישתלבו בתעשייה. המחסור מורגש במיוחד בכל הנוגע לתכניות שרלוונטיות לאנשים שכבר יש להם רקע טכני משמעותי, ועובדים כיום בתפקידי פיתוח ומחקר והיו רוצים ללמוד באופן מסודר את התחום של למידה חישובית בלי לעזוב הכל ולעצור את החיים לשנתיים-שלוש לצורך הלימודים, שהתוצאה בסיומם לא ידועה מראש." הסביר קוסטיה.  לכתבה המלאה >>

סיכום זה נכתב על ידי Gal Hever בהתבסס על פוסט זה.

 

שלב ראשון – חשיבה:

כתבו רשימה עם כל השאלות/השערות המעניינות שעולות לכם/ן על הדאטה.

שלב שני – סטטיסטיקות וויזואליזציות:

  • בדיקת מאפיינים בסיסיים כגון: nunique value_counts, nrows, max, min, isna().sum() , dtypes.
  • pandas profiling
  • אחוזונים
  • היסטוגרמות
  • סוגי התפלגות של כל feature
  • מדדי ספירמן בין משתנים.
  • מציאת חריגים
  • בדיקת קורלציות
  • פרופורציות של קבוצות
  • scatter plot matrix
  • Feature importance
  • בדיקת מקרי קיצון (גבול עליון ותחתון) וגם מקרה רגיל באופן פרטני
  • הצגת הדאטה בצורה הטבעית וחקירת המבנה
  • חוקי אסוסיאציות
  • לכל משתנה לבדוק אם יש לו מדד מרכזי אחד או שהוא mixed
  • הצגה של קרוס קורלציות

סוגי ויזואליזציות לפי סוג הדאטה:
לכתבה המלאה >>

בימים האחרונים הגיע לארץ ג'ף דין, סגן נשיא בכיר וראש תחום בינה מלאכותית בגוגל. הוא ללא ספק אחת הדמויות הבכירות ביותר בעולם בנושא ה-AI – רוקסטאר של העולם שלי.
 
אתמול הייתה לי הזכות לקחת חלק באירוע מצומצם שהתקיים בגוגל קמפוס בו הוא דיבר בצורה חופשית על הדרך שבה גוגל משתמשת ב-AI כדי לפתור בעיות עולמיות. החל מזיהוי שטפונות ועד לגילוי מוקדם של מחלות – כל אלה פרויקטים של גוגל שכבר רצים ומצליחים להראות תוצאות מרהיבות. לקראת הסוף הוא הגיע לשקף שבו מדבר על הכללים והעקרונות שמנחים את גוגל בעת פיתוח מודלים מתקדמים. ג'ף ציין כי הם שמים דגש מאוד גדול כדי לגרום לאלגוריתמים שלהם להיות כמה שיותר הוגנים ואף הראה שורה ארוכה של מאמרים שפורסמו שעוסקים בדיוק בסוגיה הזו.
 
בחלק הזה הרגשתי צורך עז לשאול אותו על איך הם עושים את זה בפרקטיקה. זה נחמד שיש מסמך פומבי אבל מאוד סקרן אותי לדעת איך זה פוגש אותם ביום יום. להפתעתי המוחלטת, ג'ף הביא תשובה מאוד מסקרנת שחשפה, בפעם הראשונה עד כמה שידוע לי, על איך נראה תהליך שכזה בגוגל. ג'ף התחיל והסביר שהדבר הראשון שהם עושים, אשר בעל חשיבות רבה עבורם, הוא להסביר את העקרונות האלה לכל העובדים שמתעסקים בפיתוח מסוג זה. ג'ף ממש הדגיש כי יש לו חשיבות רבה לכך שזה לא יהיה "סתם מסמך פומבי" אלא משהו שכל עובד מכיר.

לכתבה המלאה >>

כפי שהובטח, אני עושה פיילוט ראשוני ומארגן גרסה מקומית של כנס CVPR בו יציגו דוברים ישראליים את העבודות אותן הם הולכים להציג בכנס CVPR עצמו. נתחיל ונציין כי אין קשר רשמי לכנס CVPR העולמית וכי מדובר על יוזמה קהילתית מקומית שמטרתה היא לאפשר לאלו שלא ייקחו חלק בכנס ליהנות מתכנים והרצאות ברמה המקצועית הגבוהה ביותר. האירוע יתקיים בתאריך ה02/06/2019, בשעה 18:00, בגוגל קמפוס ויכלול כ-14 הרצאות בנות 12 דקות בהן כל מרצה יציג את הנושאים העיקריים בעבודה שלו. כמו כן, לאחר האירוע אשלח את כל החומרים בצורה מסודרת בניוזלטר של הקהילה וגם אעדכן את העמוד הזה (הירשמו לניוזלטר כדי להישאר מעודכנים). ההרשמה לאירוע מתבצעת דרך הטופס הזה.

רשימת דוברים (מתעדכן):

לכתבה המלאה >>

לאחר לא מעט עבודה מאחורי הקלעים וכמה פיילוטים קצרים, אני שמח להכריז על תוכנית Attention – שיתוף פעולה עמוק שנעשה בין Machine & Deep learning Israel ובין תוכנית הסטארטאפים של גוגל קלאוד. כחלק מהתוכנית, הקהילה הופכת להיות פרטנר רשמי של גוגל, לצד קרנות הון הסיכון הגדולות בארץ ומאיצי סטארטאפים מוכרים.

שיתוף פעולה זה יאפשר לחברות העוסקות במחקר ופיתוח בתחום ה-Machine Learning להגיש מועמדות לתוכנית הסטארטאפים הייחודית של גוגל קלאוד, באמצעות טופס הרשמה ייעודי שנוצר עבור הקהילה. הצטרפות לתוכנית זו תוכל להעניק לסטארטאפים עד ל-100,000 דולר בקרדיטים בשירותי הענן של גוגל, שזהו המענק הגדול ביותר שניתן לחברות סטארטאפים. לצד הקרדיטים, החברות שייקחו חלק בתוכנית יזכו בעוד מגוון רחב של הטבות הכוללות גישה להכשרות ואירועים סגורים, הנחה במוצרי גוגל ושירותי G suite לחברה ועוד.

כדי לקחת חלק בתוכנית Attention ולקבל גישה לקרדיטים, על החברות לעמוד במספר תנאים מקדימים:

לכתבה המלאה >>

חברת לייטריקס הירושלמית היא אחת מחברות האפליקציות המצליחות ביותר בארץ, עם עשרות מליוני הורדות מרחבי העולם. למי שלא מכיר, לייטריקס היא החברה המפתחת שלל אפליקציות פופולריות וזוכות פרסים לעיבוד תמונות ווידאו ועריכת תוכן במובייל. החברה בעיקר מוכרת בזכות לאפליקציית Facetune, שהפכה ללהיט ברחבי העולם המאפשרת יכולות עריכה מתקדמות. כעת מודיעה החברה על השקת תוכנית מלגות חדשה שתאפשר לסטודנטים בתחומי מדעי הנתונים מהאוניברסיטה העברית לקבל תמיכה כספית במהלך התואר.

במסגרת התכנית תעניק לייטריקס מלגות לשנה הראשונה ללימודים במסגרת תואר שני בחוג לסטטיסטיקה באוניברסיטה העברית בירושלים. הסטודנטים שיזכו במלגה יקבלו מענק של 13,800 ש"ח לכיסוי הוצאות שכר הלימוד לשנת הלימודים הנוכחית , וכן 5,000 ש"ח לחודש למשך 12 חודשים בשנת הלימודים 2019-2020.

כדי ללמוד על תוכנית המלגות ועל הפעילות של החברה בתחומי למידת המכונה, קיימתי ראיון קצר עם יניב טנצר המשמש כראש חטיבת ה- Data science בלייטריקס. כפי שחלקכם בוודאי יודעים, לייטריקס פועלת רבות בתחום ואלגוריתמים לומדים הם חלק מאוד משמעותי בפעילות החברה. "בגדול קיימות בחברה שתי חטיבות שמתעסקות בלמידת מכונה אמנם מהיבטים שונים: חטיבת המרקטינג דאטא סיינס וחטיבת העיבוד תמונה. חטיבת המרקטינג דאטא סיינס, אותה אני מוביל, מתעסקת במגוון בעיות מרקטינג מזווית של למידת מכונה. לדוגמא: בניית מודלים לחיזוי הכנסות מקמפיינים שאנחנו מריצים ברשתות החברתיות, שמשרת את האנליסטים בחברה. דוגמא נוספת היא בניית מודלים לחיזוי מבין המשתמשים הקיימים, מי סביר שירכוש מנוי, מה שמאפשר לנו למקד את השיווק. זווית נוספת היא תכנון ניסויים וניתוח תוצאות. בשנה האחרונה השמשנו מערכת Multi – Arm – Bandit. חטיבת העיבוד תמונה מתעסקת בבעיות שונות מתחום העיבוד תמונה כמו סגמנטציה/ זיהוי אובייקטים ועוד." הסביר טנצר. מלבד זאת, טנצר אף הרחיב וסיפר קצר על הטכנולוגיות והמודלים איתם עובדים בחברה: "אנחנו עושים שימוש במגוון מודלים/כלים/טכנולוגיות – החל ממודלים סטנדרטים לקלאסיפיקציה בינארית כמו רגרסיה לוגיסטית ועד מודלי אנליזת הישרדות, מודלי סדרות זמן, רשתות עמוקות ועוד". מודלים אלו, ככל הנראה יהיו חלק מעבודתם של הסטודנטים במידה וירצו להצטרף לחברה במקביל או בסיום לימודיהם.

לכתבה המלאה >>

לפני קרוב לשנה החלטתי שאני משיק סדנא חדשה בתחום ה-AI עבור אנשים לא טכנולוגיים. הסדנא נוצרה מתוך אינספור שיחות עם מנהלים מגופים שונים שפשוט רצו להבין יותר טוב את עולם ה-AI בצורה שתעזור להם לקבל החלטות טובות יותר ולא בהכרח כדי לפתח מודל בעצמם.

בתקופה ההיא היה וואקום מטורף בכל הנושא הזה ומרבית הקורסים שהיו קיימים פשוט פנו לאנשים טכניים ואף אחד לא עצר רגע להסביר גם לאחרים על מה כל המהומה. הקורס הפורנטלי, שכבר עבר שלושה מחזורים, פשוט הפגיש את אנשי המקצוע השונים עם המציאות החדשה שנוצרה מולם. בכל שיעור שכזה הכרנו את הטכנולוגיות החדשות, הבנו את המגבלות שלהן והכי חשוב: הבנו איך אפשר ליישם את זה באופן עצמאי בתוך הארגון/עסק של כל אחד ואחד.

לכתבה המלאה >>

בשנים האחרונות קשה שלא לשם לב להתקדמות העצומה שנרשמה בתחום הראייה הממוחשבת. יכולות או טכנולוגיות שנחשבו מדע בדיוני עד לפני כמה שנים, כעת הופכות לנגישות, קלות להטמעה וחלקן אפילו הפכו להיות מוצרי מדף מוכנים. עם זאת, ישנם מספר עצום של אתגרים ובעיות לא פתורות בתחום זה, ובמקביל לכך נוצרים תחומי מחקר חדשים המציגים שימושים נרחבים ופורצי דרך בתחום. מעבר לכך, אנו עדים לאלגוריתמים חדשים המסוגלים להבין לעומק תמונות או קטעי וידאו ואף ליצור כאלה יש מאין – נקודה היוצרת לא מעט גם אתגרים חברתיים ואתים.

כנס  (IMVC (Israel Machine Vision conference  מתקיים זו השנה העשירית ודן בסוגיות אלה ורבות אחרות, וכן כדי להכיר את הפיתוחים המתקדמים ביותר בשוק.  הכנס יכלול לא מעט תכנים והרצאות הקשורים לעולמות התוכן של Machine Learning ו-Deep Learning כך שיש לו חשיבות עצומה בקרב הקהילה המקומית. יתרה מכך, תחום הלמידה החישובית אף קיבל חשיבות רבה עם השנים והפך להיות מאוד דומיננטי בכנס כולו כפי שנלמד בהמשך.

כדי ללמוד על הכנס ועל התכנים השונים שיוצגו בו שוחחתי עם ד"ר חן שגיב וד"ר קובי כהן, היזמים מאחורי כנס IMVC, אשר הסבירו לי על כיצד הכנס היה לפני עשר שנים, מה צפוי לנו לראות בכנס השנה ולקינוח גם שיתפו אותי במחשבות שלהם לגבי העתיד של התחום כולו. דרך אגב, לפני שאנו צוללים פנימה כדי שתכירו כי השנה נוצר שיתוף פעולה בין קהילת Machine & Deep learning Israel לבין IMVC וארגנתי לחברי הקהילה הנחה משמעותית של 20% בשימוש בקופון MDL20.

IMVC 2019

כפי שציינתי תחילה, כנס IMVC 2019, אשר מתקיים השנה ב-18 במרץ, התקיים לראשונה ב-28 בינואר 2010 בעקבות זיהוי צורך של חן וקובי באירוע טכנולוגי מרוכז שיעניק במה לפיתוחים הנעשים בתעשייה ולא רק לאלו שנעשים באקדמיה כפי שהיה עד כה בכנסים מקבילים. הכנס הראשון היה הצלחה משמעותית וכפועל יוצא מכך, הפך להיות מסורת שנתית ומקום מפגש של כל השחקנים השונים בתחום הראייה הממוחשבת בארץ. הכנס אז מאגד  מספר רב של נושאים חמים בתחום הנ"ל ואף כולל אג'נדה מרתקת במיוחד.

ואם באג'נדה עסקינן, בתחילת 2010 כמעט ולא היה ניתן למצוא הרצאות בתחום Machine Learning בכנס וישנה רק הרצאה אחת אמיר נבות, אז מחברת רפאל, אשר עסק בנושא בהרצאתו: "Light-Arms Fire Detection using Machine Learning Technique". כפי שחן הסבירה לנו, אז הנושאים שהיו על הפרק היו מעט שונים: "בשנים הראשונות הכנס היה ממוקד בשיטות עיבוד תמונה וראיה ממוחשבת ואף כלל גם נושאים מעולם עיבוד האותות". היום קשה לנו לדמיין כנס Vision ללא נוכחות נכבדה של אלגוריתמים מעולמות ה-Machine/Deep Learning ואט אט עם השנים אכן התחיל אותו שינוי משמעותי בקרב הקהילה המדעית והמקצועית. לכתבה המלאה >>

כמידי שבוע אני מאגד לכם את כל הפוסטים הדיונים החשובים שעלו בקבוצה. השבוע היו לא מעט דיונים מרתקים על מגוון רחב של נושאים שכדאי לכם לבדוק. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). את הניוזלטר המלא ניתן למצוא כאן (השבוע: הסקר של הקהילה, מגוון עבודות חדשות עם דגש על ג'ויניורים ועוד).

 

 Group's Highlights from last week

We had a great week and many good posts and links. Let's start.

1.  Eyal Zakkay has created a Telegram bot that monitors and control deep learning experiments. How wasn't is invented until now?

2. Dean Langsam was brave enough to ask if the "collaborative" feature of the notebooks is really important? לכתבה המלאה >>

כמידי שבוע אני מאגד לכם את כל הפוסטים הדיונים החשובים שעלו בקבוצה. השבוע היו לא מעט דיונים מרתקים על מגוון רחב של נושאים שכדאי לכם לבדוק. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). את הניוזלטר המלא ניתן למצוא כאן (השבוע: הקורס הרביעי של Razor, מגוון עבודות חדשות ועוד).

לכתבה המלאה >>

X