ללמוד מהטובים ביותר: הכירו את תוכנית Y-DATA של חברת יאנדקס

מאת אורי אליאבייב, 26 ביוני 2019

אחת השאלות הנפוצות ביותר שאני שומע מידי שבוע היא: "איך להיכנס לתחום של Data Science". בעקבות הפריחה והשגשוג של התחום כולו, ישנו ביקוש רב להיכנס לעולמות אלו ורבים מחפשים את ההכשרה שתאפשר להם להשיג את דריסת הרגל הראשונה שלהם. מי שעוקב אחרי הפרסומים שלי וקורא כאן באתר, יודע עד כמה אני עובד קשה כדי לעזור לכמה שיותר אנשים להיכנס לתחום וכיצד אנחנו משקיעים מאמצים רבים כדי להגדיל את הקהילה המקומית בישראל.

לשם כך, יצרתי שיתוף פעולה עמוק עם חברת יאנדקס, אשר ייסדה סניף מקומי של Y-DATA – תכנית הכשרה מקיפה בתחום ה-Data Science. כחלק משיתוף פעולה זה אני מסייע ליאנדקס לאתר מועמדים מצוינים שיוכלו להתקבל לתוכנית ואף הצלחתי להשיג הנחה משמעותית לחברי הקהילה (פרטים נוספים בפסקה האחרונה). 

כפי שאתם בוודאי יודעים, לפני שאני מבצע שיתופי פעולה שכאלה אני חוקר לעומק ולומד על תוכניות הלימוד ועל הגורמים שמנהלים את ההכשרה. כפועל יוצא מכך, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל ועם פרופסור ליאור רוקח אשר מלווה את התוכנית מהצד האקדמי כחלק משיתוף הפעולה עם אוניברסיטת בן גוריון. בראיון אנחנו נצלול פנימה ונבחן לעומק את הקורס הנ"ל, נשמע על מקרי הצלחה מהמחזור הקודם וכמובן נעמוד על הצדדים האקדמיים של קורס זה.

מי את תוכנית Y-DATA?

השאלה הראשונה שלי לקוסטיה הייתה מה היא בעצם תוכנית Y-DATA ומאיפה התוכנית הזו הגיעה אלינו? מדובר אחרי הכל בתוכנית חדשה יחסית בנוף הישראלי. "Y-DATA היא אכן תוכנית חדשה אבל בימים האלה המחזור הראשון שלה מסיים את הלימודים בקמפוס של אונ' תל אביב ומציג את פרויקטי הגמר שלהם לקהל הרחב. התוכנית  צמחה מתוך ההכרה שעד לאחרונה לא היו בארץ מספיק מסלולים מסודרים להכשרה בסיסית במדעי הנתונים ולמידה חישובית. לאחרונה נפתחו בעידוד המועצה להשכלה גבוהה מספר תוכניות ייעודיות לתואר ראשון בתחום זה (כגון תכנית "הנדסת נתונים ומידע" בטכניון והתכנית "הנדסת נתונים" באוניברסיטת בן גוריון בנגב),  אולם יעברו עוד מספר שנים עד שהתלמידים שלהן יסיימו את הלימודים וישתלבו בתעשייה. המחסור מורגש במיוחד בכל הנוגע לתכניות שרלוונטיות לאנשים שכבר יש להם רקע טכני משמעותי, ועובדים כיום בתפקידי פיתוח ומחקר והיו רוצים ללמוד באופן מסודר את התחום של למידה חישובית בלי לעזוב הכל ולעצור את החיים לשנתיים-שלוש לצורך הלימודים, שהתוצאה בסיומם לא ידועה מראש." הסביר קוסטיה. 

על אף שמדובר על תוכנית יחסית חדשה בארץ, התוכנית עצמה נהנת משורשים עמוקים אשר עזרו ליאנדקס עצמה להגדיל את מספר העובדים שלה. כך הסביר לנו קוסטיה על תחילתה של התוכנית:  "התכנית בארץ מהווה שלוחה של בית הספר למדעי הנתונים של חברת יאנדקס (YSDA), הפעיל מזה מעל לעשור במספר ערים ברוסיה. התכנית של YSDA היא תכנית לימודים אקדמאית מלאה לתואר שני, הנמשכת שנתיים, ומוכרת על ידי מספר אוניברסיטאות מהשורה הראשונה ברוסיה ונעשית בשיתוף פעולה איתן. תכנית זו נוצרה על ידי יאנדקס לאחר שחברת הטכנולוגיה חוותה צמיחה משמעותית בעסקיה וגילתה שהאפשרות שלה להמשיך ולצמוח בקצב מהיר מוגבלת כתוצאה ממחסור חמור של ידיים עובדות המתאימות לצרכיה. יאנדקס חיפשה מומחים לבינה מלאכותית הבקיאים במדע הנתונים, בלמידה חישובית ובחקר ביצועים — תכנים שלא נלמדו בהיקף הנדרש, לטעמה, באקדמיה ברוסיה. אלא שבמקום ללחוץ על משרד החינוך המקומי או להמתין שמערכת ההשכלה הגבוהה תתעדכן, יאנדקס עשתה את מה שמעט מאוד חברות מסוגלות לבצע: היא פתחה בית ספר משלה. מדי שנה הוא מושך כ–4,000 צעירים, המנסים להתחרות על 200 המקומות בתוכנית. 

Y-DATA

הנסיון העשיר בהוראה והכשרה שמביאים המומחים של YSDA שימש רבות בתכנון ועיצוב תכנית הלימודים של Y-DATA, שנועדה להתאים את החומרים ותכני הלימוד לשוק הישראלי. כתוצאה מזו התכנית בארץ שונה באופיה וצורתה מזו ברוסיה, ומהווה תכנית קצרה וממוקדת יותר שנמשכת שנה אחת ולא שנתיים, ומותאמת לאנשים שעובדים או לומדים במקביל ומעוניינים לפתח את הקריירה שלהם לתחום הלמידה החישובית."

אנחנו מדברים לא מעט על חברת האם, חברת יאנדקס, אך אני לא בטוח שכולכם מכירים את החברה – או יותר נכון את גודלה או השפעתה. לשם כך ביקשתי מקוסטיה לשפוך לנו אור על חברת יאנדקס שלא בהכרח מוכרת לרבים מאיתנו בישראל. "יאנדקס עוד מעט תחגוג 22 שנה. בארץ נהוג לקרוא לנו גוגל של רוסיה. זה משרת את המטרה להסביר מה אנחנו בשתי מילים אך זו עדיין רק חצי אמת. עם יותר מ-70 מוצרים ושירותים שונים אנחנו יותר מזכירים את עמק הסיליקון של רוסיה. השקעה בפרויקטים בעולם ההשכלה מהווה עמוד תווך באקוסיסטם של יאנדקס. בית ספר לניתוח נתונים של יאנדקס נפתח במוסקבה לפני 12 שנה כשהמושג מדע נתונים עוד לא היה מוטבע. היום זו אחת התכניות לתואר שני הנחשבות והמבוקשות ביותר ברוסיה, עם למעלה מ-800 בוגרים. Y-DATA זה המשך טבעי של בית הספר הזה לזירה בינלאומית". 

לאחר ההסבר המרשים על יאנדקס ועל בית הספר שלה, הייתי מאוד סקרן לדעת למה יאנדקס בחרה לפתוח את השלוחה שלה,  Y-DATA דווקא כאן בישראל. הרי מעצמה טכנולוגית שכמותה הייתה יכולה לבחור לעשות זאת בכל מקום אחר בעולם. נראה כי לקוסטיה לא היה ספק בכלל וכי יש לכך סיבות טובות ורבות: "למה דווקא ישראל? יש כאן שילוב של מספר דברים. אציין את שני הדברים העיקריים: ראשית, יאנדקס מרחיבה את פעילותה בישראל על ידי הכנסת מוצרים וטכנולוגיות שלנו לשוק הישראלי, לצד זאת ישנו דגש רב גם בהקשר של מרכזי פיתוח. רק לאחרונה יאנדקס הודיעו על פתיחת מרכז פיתוח לרכב אוטונומי בתל אביב. מעל כל אלה, ישנה הייחודיות של עולם ההייטק הישראלי והנראות שלו לכל העולם. עבורנו בניית תוכנית איכותית במדע נתונים זה גם העשרה של הקהילה המקומית וגם חשיפה לאנשים טובים בתחום: בוגרים שלנו, אנשי סגל ומנטורים של התוכנית, חברות מקומיות". 

קשה לא להבחין בכניסה של יאנדקס לארץ, אשר כוללת את השקת שירות המוזיקה שלה וגם את שירות הזמנת המוניות של החברה. כפי שקוסטיה ציין, יאנדקס איננה מכוונת רק לשוק הצרכני אלא מתכוונת להשיק מרכז פיתוח עבור הרכב האוטונומי אותו היא מפתחת אשר בחנתי בעצמי גם לפני מספר שבועות. 

מתכונת התוכנית

אחרי שהבנו מי היא יאנדקס והכרנו לעומק את תוכנית Y-DATA, הגיע הזמן ללמוד על הקורס עצמו ומה הוא כולל בפועל. הקורס נמשך שנה אקדמית אחת – שני סמסטרים של 14 שבועות, ומורכב מ-8 שעות שבועיות של הרצאות פרונטליות וכ-15-20 שעות של עבודה עצמית ותרגול. "התוכנית עצמה מסתמכת על 3 עמודי תווך: קורסים פרונטליים, סמינרים מחקריים ופרויקטים בתעשיה, מתוך רצון להקנות לסטודנטים הן בסיס תיאורטי משמעותי והבנה טובה של העקרונות עליהם מבוססים יישומי הלמידה החישובית, הן היכרות עם חוד החנית המחקרי והיכולת להבין ולהתעדכן במחקר המתפרסם בתחום. לא פחות חשוב מכל אלה, לספק התנסות מעשית בעבודה בשיתוף התעשיה, שמתרגמת את הידע התיאורטי למימוש" הסביר קוסטיה.

סילבוס התכנית מחולק לקורסים קצרים ומרוכזים בני 2–7 שבועות כל אחד. היחידות הראשונות מעניקות את הרקע התכנותי וההסתברותי הדרוש לעיסוק בתחום, וכוללות שיטות בשיערוך סטטיסטי ומתן רקע תכנותי בשפת פייתון, בדגש שימושים וחבילות הרלוונטיים ללמידה חישובית ומדעי הנתונים. 

קוסטיה הוסיף והסביר על היחידות הנוספות: "היחידות שאחריהן מעמיקות בנושאים ספציפיים בתחום הלמידה החישובית, כאשר כל יחידה בונה על התכנים של היחידות הקודמות ומעמיקה ומרחיבה הלאה את הידע של הסטודנטים. בין השאר כולל הקורס יחידה של היכרות עם שיטות הבסיס של למידת מכונה קלאסית (supervised learning), למידה עצמאית (unsupervised learning), יחידה בלמידה עמוקה; יחידה שמוקדשת לעבודה על ביג דאטה; ולקראת סוף התוכנית יחידה על עיבוד שפה טבעית ויחידה על למידת חיזוק (Reinforcement Learning). בכל הקורסים נעשה מאמץ לשלב בין הקניית הרקע התיאורטי ללימודים יישומיים, וניתן דגש על תרגול ועבודה עצמאית שנועדו להקנות היכרות מעשית עם היישומים הנפוצים בתחום ויכולת לכתוב באופן עצמאי קוד ML."

Y-DATA

אלמנט חשוב נוסף בקורס של Y-DATA הוא פרויקטי הגמר שמעניק לסטודנטים אפשרות "ללכלך את הידיים". פרויקטי גמר אלו מאפשרים להם הזדמנות אמיתית ליצור פרויקטים עליהם יוכלו לדבר בראיונות עבודה ולא פחות חשוב מכך, חיבור למנטורים חזקים מהתעשייה. על כך הסביר קוסטיה עוד: "על מנת לחזק את הרקע המעשי, הסטודנטים שלנו משולבים בפרויקטים בתעשיה, שמאפשרים להם להתנסות בעבודה על בעיות טכנולוגיות אמיתיות, שניתנו על ידי שורה של חברות טכנולוגיה וסטארט־אפים ישראליים, עמם יש לנו שיתוף פעולה. החברות הסכימו לפתוח את הנתונים שלהם לסטודנטים שלנו ולאפשר להם התנסות מעשית של עבודה עם בעיות "אמיתיות" בכל הסטנדרטים המקובלים לפרויקט data science בתעשייה. סטודנטים עובדים כיום בשבוע על הפרויקט במשך הסמסטר השני ללימודים ומקבלים ייעוץ שבועי מהמנטור מטעם Y-DATA".

על אף התוכנית האינטנסיבית ופרויקטי הגמר, קוסטיה מודה כי לא מדובר בפתרון קסם וכי עדיין יש מאמצים רבים שעל הסטודנטים לעשות כדי להשיג את העבודה בתחום. "אני אשקר אם אומר שכל הבוגרים שלנו בשלים לחלוטין ומוכנים לכל תפקיד Data Scientist בתעשיה. אנשים שונים השקיעו מאמץ שונה בתוכנית וזה מתורגם ליכולות שלהם בסופה. קודם כל, לבוגרים שעשו פרויקט בתעשייה מטעמנו וסיימו אותו יש יתרון חד-משמעי על פני אלה שלא (כשליש מהבוגרים שלנו לא יכלו לצמצם את המשרה שלהם ל-80% או פחות ולכן לא יכלו לקחת חלק בפרויקט). מי שעובד קשה והשלים את רוב התרגילים בקורסים לאורך השנה סיים אותה עם תמונה די מלאה של מה שקורה כיום בתחום והניסיון המעשי להתמודדות עם אתגרים מהסוג בו נתקל Data Scientist בעבודתו" ציין קוסטיה.

בפרויקטים בתעשיה יש לא מעט סיפורי הצלחה מאוד מרשימים אשר הצליחו לחולל שינוי של ממש בקריירה של הסטודנטים. "מבחינתי מדד ההצלחה החשוב הוא שינוי לטובה בקריירה של הבוגרים: תפקיד חדש במקום עבודה נוכחי או מעבר למקום חדש עם יותר עשיה במדע נתונים (הטייטל הרשמי פחות מעניין אותי). נאסוף את הנתונים המדוייקים מספר חודשים אחרי סיום התוכנית אבל כבר עכשיו, עוד לפני סוף המחזור הראשון כשליש הסטודנטים ביצעו שינוי שכזה לאחרונה. יש הרבה הצלחות בפרויקטי גמר. אציין כאן את אחד הצוותים שעבד על איתור ואפיון של סמנים לסרטן ריאות. צוות הסטודנטים: טל, איליה ורומן אשר עשו דרך מרשימה עם הפרויקט. מלכתחילה, הגדרת הפרויקט היתה איתור nodules – סימנים לרקמה שעשויה להיות סרטנית בצילומי ריאות, אבל הסטודנטים החליטו להוסיף מטרה מתקדמת נוספת לפרויקט. הם הגדירו בעיה חדשה של Image Retrieval שבהינתן גידול תחזיר גידולים דומים. כמו פרויקטים אמיתיים בתעשייה, אף רכיב בתהליך לא ניתן על מגש של כסף – החל מהגדרת הבעיה, סקירת ספרות ומציאת סט הנתונים המתאים ועד הגדרת שלבי הפתרון האפשריים. במשך תקופה של מספר חודשים הם עבדו על הפרויקט, במהלכו ניסו מספר פתרונות אפשריים לבעיה. הפתרונות הראשונים לא צלחו, אבל כמו בכל סיפור עם סוף טוב, בדקה ה 90 אחד הפתרונות הצליח. מעבר להתכנסות המודל למטרה הרצויה, הם גם ביצעו הערכת ביצועים בכמה מדדים שונים והוכיחו את איכות המודל וקבילותו. המודל שהם יצרו נמצא אמין, ויכול לשמש כמערכת שתעזור לרדיולוגים בשיפור המהירות והאיכות של איבחון של סרטן ריאות".

Y-DATA

השאלה האחרונה שהפנתי לקוסטיה הייתה סביב האנשים שמגיעים ועוברים את הקורס. רציתי לדעת אם יש מקום לאנשים שהם לא רק סטודנטים צעירים או כאלה שיש להם הרבה זמן פנוי – והאם אפשר לשלב עבודה עם התוכנית. קוסטיה השיב בצורה מפורטת ואף הצליח להפתיע אותי עם תמהיל הסטודטנים בקורס:  "אחד היתרונות הבולטים של התוכנית הוא האנשים שלומדים בה. אוכלוסיית הסטודנטים שלנו מגוונת מאוד, ומגיעה מרקעים שונים. אנחנו מאמינים שיש ערך רב ללימוד בקבוצה הטרוגנית, ושקבוצה כזו מאפשרת יצירת שיתופי פעולה יקרי ערך להמשך, העשרה הדדית והעמקה של חוויית הלימוד לכל הסטודנטים. 

בקווים כלליים, רוב הסטודנטים שלנו בעלי השכלה משמעותית בתחומים הנדסיים ומדעיים, כאשר כמעט מחצית הם בעלי תואר שני ומעלה. יש בתכנית קשת רחבה של גילאים בכל הטווח בין גילאי ה-20 לבני 50+, כאשר כמחצית ממשתתפי התכנית הם בתחילת או אמצע שנות ה-30 שלהם. כשליש ממשתתפות הקורס הן נשים. רוב הסטודנטים שלנו הם ישראלים, אך אנו פונים גם לסטודנטים בינלאומיים ויש מספר סטודנטים כאלו בתכנית השנה. רוב הסטודנטים שלנו עובדים במקביל ללימודיהם, אם כי בד"כ בהיקפי משרה מצומצמים (50-80 אחוז).

מבחינת רקעים של מי שלומד אצלנו, מבין כלל הסטודנטים שלנו, ניתן להגדיר כמה סוגי טיפוסים שונים: ישנה קבוצה יחסית גדולה של אנשים שמגיעים מרקע של פיתוח תוכנה – אנשים עם תארים במדעי המחשב או הנדסת תוכנה, שעובדים מספר לא מבוטל של שנים בתעשיה בתפקידי פיתוח, ומעוניינים לעשות את המעבר לתפקידים של data scientist, לעיתים בתוך החברה שלהם, ולעתים כדי להתקדם הלאה. אוכלוסיה משמעותית נוספת היא בוגרי תארים מתקדמים בתחומים מדעיים או קרובים, שאין להם נסיון רב בכתיבת קוד, אך מביאים השכלה רחבה וידע תיאורטי עמוק במגוון תחומים. זו דוגמא לאנשים שמיומנים מאוד בלמידה ופתרון בעיות, אשר מעוניינים לעשות את המעבר ממחקר ואקדמיה לתעשיה. בנוסף לאלו ישנם גם סטודנטים שמגיעים ממשרות בתחומים קרובים: אנליזה, ניתוח וניהול נתונים וכו', המעוניינים להעשיר את היכולות שלהם בכתיבת קוד על מנת לשדרג את האפשרויות המקצועיות שלהם ועוד."

הליווי האקדמי

לאחר שהכרתי את הצדדים הטכניים של התוכנית, הפנתי מספר שאלות לפרופסור ליאור רוקח אשר פירט בצורה רחבה על הצד האקדמי של התוכנית ועל ההתרחבות גם לבאר שבע. 

ראשית, הפנתי לליאור שאלה שכנראה מעסיקה רבים מהקוראים ושיש לה חשיבות רבה בעיקר מעצם היותו פרופסור: מה הן חשיבותן ותפקידן של תכניות לא אקדמיות ללימוד ML? ליאור השיב והסביר כי: "קורסים באקדמיה נוטים כמובן להיות תיאורטיים מטבעם כי המטרה העיקרית היא ללמד את העקרונות ולא ללמד חבילות תוכנה. לפיכך, הטיפול בפן המעשי בדרך כלל הוא מוגבל ומחייב את התלמיד ללמוד בעצמו את הפרקטיקה. תוכניות לא אקדמיות לעומת זאת מתמקדות בעיקר בפן המעשי ולכן יכולות להכשיר בזמן קצר יחסית "ידיים עובדות" בתחום, אך הרבה פעמים חסרה להם הבנה עמוקה של עקרונות היסוד של התחום שדרושה כדי לעבוד בהצלחה בתעשיה, בתפקידים שדורשים לרוב למידה מתמשכת ומעקב אחרי ההתפתחויות האחרונות בתחום".

בעקבות תשובה זו, המשכתי לשאול על היחס של Y-DATA אל מול תוכניות אחרות אשר נותנות דגש חזק מאוד על הפן המעשי, לעומת Y-DATA שמנסה לאזן בין התיאוריה לפרקטיקה, ורבים מהמרצים בה הם אקדמאים מוכרים בתחום. שאלתי את ליאור כיצד עובד איזון זה: "האיזון בין הצד המעשי לתיאוריה חשוב ביותר לכל מי שמעוניין ליישם את השיטות של למידה חישובית לפתרון בעיות חדשות או יישומים חדשים. קורסים רבים המוצעים על ידי חברות מסחריות מתמקדים בעיקר בשימוש באלגורתמים קיימים. הדבר עשוי להיות מספק כדי לבצע משימות שכבר נפתרו בעבר וכל מה שנדרש הוא בעיקר לאמן את המודלים על נתונים קיימים. אך לצורך התמודדות עם אתגרים חדשים יש צורך לבצע התאמות לאלגורתמים הקיימים והדבר מחייב הבנה עמוקה של התיאוריה העומדת מאחורי האלגורתמים." הסביר ליאור.

Y-DATA

כפי שציינתי בהתחלה, לאחר ההצלחה של שיתוף הפעולה עם אוניברסיטת תל אביב, Y-DATA תתחיל לפעול השנה גם בבאר שבע. ליאור הרחיב על כך: "ההחלטה להתרחב לבאר שבע היא חשובה ביותר עבור הקהל הרלוונטי המתגורר בדרום הארץ. עם התפתחות תעשיית הייטק בדרום בכלל ובבאר-שבע בפרט, נוצרו לא מעט הזדמנויות לתושבי המקום להשתלב בתעשיית הייטק מבלי להעתיק את מקום המגורים לאזור המרכז. הביקוש הגובר למדעני נתונים ומומחי Machine learning לא פסח על אזור הדרום. לפיכך קורס Y-DATA יכול לסייע להסב מהנדסי תוכנה תושבי הדרום לתחום זה ולענות על המחסור הנוכחי". ליאור אף התייחס לשיתוף הפעולה העמוק שנרקם בימים אלו עם אוניברסיטת בן גוריון:  תוכנית Y-DATA היא הזדמנות מצוינת לאוניברסיטת בן גוריון להכיר באופן בלתי אמצעי את חברת Yandex ופעילותה בארץ ובעולם. מכיוון שתוכנית Y-DATA מכסה את הפן האקדמי של מספר קורסים הנלמדים בלאו הכי כיום במסגרת המחלקה להנדסת מערכות תכונה ומידע, אנו בוחנים את האפשרות להכרה בנק"ז של הקורסים המתאימים בכפוף לעמידה בתנאים הרגילים של הקורסים. אני מאמין שתוכנית Y-DATA מהווה צוהר מצוין לעולם מדעי הנתונים ולמידה חישובית, שבעקבותיו חלק מהתלמידים יחליטו להתעמק בתחום ולהשתלב במחקר באקדמיה במסגרת לימודי תואר שני או דוקטורט".

לסיכום, נראה כי הושקע מאמץ רב בבניית התוכנית והתאמתה לקהל הישראלי. Y-DATA יכולה להיות הפתרון המעולה עבור מי שרוצה להכיר לעומק את התחום- הן מהצד האקדמי והן מהצד הפרקטי, אך לא יכול להרשות לעצמו להתחיל מסלול לתואר מתקדם או לעזוב את העבודה לחלוטין. אני מאוד שמח שנתנה לי האפשרות לעבוד עם הצוות של Y-DATA וליצור את שיתוף הפעולה הזה למען הקהילה. כחלק משיתוף פעולה זו, נוצר קוד הנחה מיוחד לחברי הקהילה המקנה 10% הנחה מעלות התוכנית (12,000 ש"ח). הקוד הוא: MLgroup.

ההרשמה לתוכנית פתוחה עד לתאריך 15.07.2019. ניתן לברר עוד על מבנה הקורסים, סגל ופרויקטי גמר באתר תוכנית. ההרשמה ומידע נוסף זמינים דרך לינק זה.

X