כתבות בנושא כללי

אמנם, האתגר לא באמת נגמר כמו שצריך בגלל הוירוס. אבל עבדתי די קשה, אני מרשה לעצמי לסכם בכל מקרה!

לפני שבועיים Uri Goren פרסם את אתגר מערכות ההמלצה של jul.
אני מתעסק במערכות המלצה בתור (חצי) תחביב כבר כמעט שנה והרבה זמן חיפשתי תירוץ לצלול לעומק העניין.
אז למארגנים: תודה על הFOMO, אחלה תירוץ!

הבעיה: אנשים קנו מוצרים. אנחנו צריכים לאמר איזה מוצר הם יקנו בפעם הבאה.
הדאטה: טרנזקציות – אדם x קנה מוצר y בתאריך z.
ניקוד: אם קלענו למוצר אחד מתוך רשימת המוצרים העתידיים, האדם נספר לנו לחישוב הדיוק הסופי, שהוא לא יותר מאחוז האנשים בהם צדקנו.
עוד פרט חשוב: מספיק לנו לקלוע למוצר אחד. (ובדקתי את הפרט הזה דרך ההגשות ללידרבורד!)
ועוד פרט חשוב: אנחנו לא יודעים מה המוצרים! יש לנו רק id. זה חכם מצד המארגנים, היתי מנצל את זה לרעה אם זה לא היה ככה.

התחלתי לירות בייסליינים כבר בעשר הדקות הראשונות מפתיחת הטבלה.

הבייסליין הראשון כמובן: "תציע לכולם את המוצר הכי נפוץ".
השני היה: "תציע לכולם את המוצר הכי KNN.predict"

אחרי שניקיתי קצת, העפתי את העברית (כי זה דפק כל דבר אפשרי), העפתי את כל האנשים שאני יודע עליהם רק קניה אחת והגשתי את הבייסליין "תציע לכל אדם פשוט מה שהוא קנה ממנו הכי הרבה" ואת הבייסליין "תציע לכל אדם מה שכולם קונים הכי הרבה" והבייסליין "תציע לכל אדם מה שקונים ממנו הכי הרבה באותו החודש"
והכי חשוב,הרצתי את הבייסליין:

for cols_combination in כל_הקומבינציות(cols):
תציע לאותו אדם: df.groupby(cols_combination).agg(lambda x: x.value_counts().index[0])

שבאופן ממש מביך הביא אותי למקום הראשון בטבלה..
חצי שעה מפתיחת התחרות..

ואז התחלתי לעבוד באמת. לכתבה המלאה >>

מאז שהקורונה פרצה לעולמנו, גופי מחקר ומדינות שחררו מאגרי מידע רבים באופן פומבי כדי לאפשר לקבוצות מחקר (וגם אנשים עצמאיים) לנתח את הנתונים סביב התפשטות הקורונה. מאגרי מידע אלו מפוזרים תחת מספר רב של יוזמות ומקורות. המטרה של הבלוג הזה הוא לעשות סדר בכל מאגרי המידע הפתוחים ובכל היוזמות בתחום הדאטה בארץ ובעולם. מכירים עוד מאגר חשוב? מוזמנים להוסיף אותו בתגובות או דרך הטופס הזה.

מאגרי מידע ויוזמות בארץ

COVID-19 Status – Israel

Israel Covid-19 Data

מאגרי מידע ויוזמות בחו"ל

לכתבה המלאה >>

בשבועות האחרונים, לצד התפשטות הקורונה החלו להתפשט גם ידיעות על כך שמודלים מבוססי בינה מלאכותית הם המושיעים הגדולים של המין האנושי – סוף כל סוף המכונות מנסות לעזור לנו ולא רק להשמיד אותנו. אט אט התחילו לצוץ כמעט ברמה יומית בקהילה הישראלית ובעולם בכלל, ניתוחים של כל מיני מאגרי מידע והבטחות ליכולת חיזוי מדהימה של התפשטות המחלה או מספר החולים הצפוי – כל זה באמצעות מודלים פשוטים וכמות דאטה חלקית עד אפסית. אם זה לא מספיק, היו לא מעט חברות אשר שטפו את הרשת עם אינספור ידיעות עם כותרות מפוצצות על כך שהן כבר מצאו תרופה לקורונה באמצעות בינה מלאכותית. פעמיים.

לשמחתנו, במקביל להגדלת הבאז סביבו פתרונות בינה מלאכותית לקורונה, קמו גם קולות מתונים שהעניקו תמונת מצב מדויקת יותר אודות הדרך בה ניתן לשלב מודלים מתקדמים לפתרון בעיית הקורונה (כדוגמת הפוסטים של ד"ר ינאי גונצ'רובסקי וערן פז שהטיבו להסביר את הנושא בצורה מדהימה). לכתבה המלאה >>

נכתב במקור כפוסט בקבוצת Machine & Deep learning Israel

אני רואה שיש פה לאחרונה הרבה דיונים על פרוייקטים ומה כדאי לעשות. הקדשתי לנושא הזה הרבה מחשבה לאחרונה לקראת הקורס שאני מתחיל ללמד באונ' ת"א ואני רוצה לחלוק פה את המחשבות שלי בתקווה שיעזרו לכמה אנשים למקד את המאמצים שלהם. הפוסט הזה מביע את דעתי האישית בלבד, ואין לי דאטא שיתמוך בה אז כל אחד מוזמן לפרש לפי ראות עיניו.

“If we have data, let’s look at data. If all we have are opinions, let’s go with mine.” -Jim Barkdale

אז קודם כל למה שתקשיבו לי בכלל?

חוץ מזה שאני ד"ר בתחום (חשמל בת"א חקרתי קבלת החלטות דינמית), אני גם בתעשייה כבר 4 וחצי שנים, הייתי מוביל טכנולוגי, הקמתי צוות ובדרך להקים עוד אחד (ובדרך ריאיינתי לפחות עשרות אנשים), ואם אתם אוהבים את גאמפא אז גם הייתי שנתיים במיקרוסופט ועבודות שלי הוצגו בכנסים פנימיים של החברה בנוסף לכנסים אקדמיים ולמוצרים מאד מצליחים. אפילו פרצתי דרך בתחום או שניים, אבל זה כבר נושא לפוסט אחר (וחלק מזה בכלל אסור לי לספר).

אז עכשיו אחרי שחפרתי מספיק על הניסיון שלי, מה אני מציע?

לכתבה המלאה >>

בארץ ישנם לא מעט תכניות סטארטאפים המסייעות לחברות בשלבים שונים. אותן תוכניות בדרך כלל פועלות תחת נושא משותף הרלוונטי לכל אותם הסטארטאפים (אייקומרס, תחבורה, סייבר ועוד). עם זאת, לחברות בתחום ה-ML אין מבחר מאוד גדול של תכניות שיכולות להעניק להן ערך מוסף, הן בסוגיות טכניות והן בסוגיות מקצועיות מול לקוחות. אחת התכניות שדווקא כן חרטה על דגלה לעזור לחברות בתחום ה-ML היא תכנית הסטארטאפים  Ignite של חברת אינטל, אשר כללה במחזור האחרון שלה לא מעט חברות מעולם זה.

כעת ההרשמה למחזור השני של Ignite פתוחה לסטארטאפים חדשים מישראל. בכתבה זו רציתי לבדוק מה יש ל-Ignite להציע לחברות ML וכיצד הם סייעו לחברות במחזור הקודם שפעלו בתחום זה. לשם כך קיימתי ראיון עם מנהל התכנית, צחי וייספלד, אשר סיפר לי על התכנית עצמה ועל הערך המוסף לחברות ML. לצד זאת, שאלתי מספר מייסדים של חברות מהמחזור הקודם על הדרך שבה Ignite סייע להם ולאן פונות פניהן כעת.

הרווארד של האקסלרטורים

לפני שאנחנו צוללים פנימה לעולמות ה-ML, ביקשתי מוייספלד שיספר מעט על התכנית ועל המתכונת בה הוא פועל. "מנכ"ל אינטל וצוות ההנהלה הבכיר של החברה ביקרו בישראל בסוף 2018 והחליטו שהיו רוצים להתחיל תכנית עולמית חדשה לסטארטאפים בשלבים מוקדמים, תכנית המחברת את אינטל בצורה בלתי אמצעית לסטארטאפים הטובים ביותר בעולם בתחומי טכנולוגיה מגוונים ומייצרת עבורם ערך. התכנית שהוכרזה ע"י המנכ"ל הינה תכנית גלובלית המתחילה בישראל". ציין וייספלד תחילה.

וייספלד המשיך והסביר כי: "התכנית, שכונתה בעיתונות כ-'הרווארד של האקסלרטורים', בוחרת בקפידה את משתתפיה (בכל מחזור נבחרים כ-10 מתוך 200 מועמדים). כל סטארטאפ משודך ליזם סדרתי מהתעשייה שחונך אותו ברמה השבועית (יינון ברכה, רון יקותיאל, רני וולינגשטיין, זוהר לבקוביץ, אמיר אהרוני ואחרים), כמו כן למנטורים מאינטל – מקבוצות הטכנולוגיה, AI , מקבוצות השיווק והמכירות. לצד אלו, היזמים נהנים מסידרת סדנאות ושעות ייעוץ פרטניות במגוון רחב של תחומים ע"י המומחים הטובים בעולם בתחומם – לדוגמא וירטואוזו (מהמומחים הגדולים בעולם ל storytelling). גישה למשאבים, משקיעים ולקוחות."

לצד העזרה העצומה בכמעט כל רובד אפשרי בחיי הסטארטאפ, ב-Ignite משקיעים לא מעט במתן סיוע מקצועי וטכני לחברות המגיעות עם עומק טכנולוגי. חברות אלה יכולות להפיק ערך גדול מהידע הרב שהצטבר אצל אינטל בתחומי ה-ML. לשם הדוגמא, המומחים של אינטל משתפים מנסיונם על הדרך שבה ניתן לנהל מחקרים בצורה רחבה, כיצד להרים אופרציות חומרה או תוכנה/שירותים מתקדמות וכמובן כיצד למכור את שירותי ה-ML לשחקנים הגדולים ביותר בעולם. לכתבה המלאה >>

בתקופה האחרונה אנחנו שומעים לא מעט על תחום ה-DeepFake ועל יכולתם של אלגורתמים מסוימים לזייף קטעי וידאו ברמת דיוק גבוהה למדי, ולמעשה ליצור תוכן שלא הוסרט מעולם. תוסיפו לכך את העובדה ש"חסמי הכניסה" ירדו באופן משמעותי (היום לא צריך צוות של חוקרים מומחים ועלויות הפיתוח זניחות יחסית) ותקבלו קרקע פוריה ללא מעט זיופים.

ההתקדמות הטכנולוגית הזו גרמה ללא מעט גופים וחברות ברחבי העולם להבין כי חוקי המשחק השתנו. כל אותם גופים הבינו כי עליהם למצוא פתרונות טכנולוגיים שיוכלו לסייע להם בתהליך אימות המידע שמגיע אליהם – משימה קשה הרבה יותר מאשר "רק" ליצור את התוכן המזויף. לכתבה המלאה >>

תחום הבינה המלאכותית הפך להיות חלק משמעותי בתעשיות רבות ואנו עדים לחברות ענק המשקיעות סכומי עתק בטכנולוגיה זו. לצד זאת, הבינה המלאכותית הפכה להיות אלמנט חשוב מאוד באסטרטגיה הכללית של מדינות שונות ברחבי העולם, כאשר כל אחת רוצה להבטיח כי היא לא נשארת מאחור בתחום אסטרטגיה שכזה. מדינת ישראל, בדומה למדינות רבות אחרות, הבינה כי עליה לגבש אסטרטגיה משלה בתחום הבינה המלאכותית – כזו שתאפשר לה לגבש אסטרטגיה לאומית לשנים הבאות.

לשם כך התבקשו הפרופסורים איציק בן-ישראל ואביתר מתניה להקים ועדות לאומיות שיבחנו זוויות שונות של התחום ואף יגבשו המלצות קונקרטיות לדרך בה אפשר לדאוג כי מדינת ישראל תישאר רלוונטית במרוץ החימוש הטכנולוגי החדש. הדוח המלא טרם פורסם ורק חלקים ממנו שוחררו בראיון שהתקיים עם פרופסור בן ישראל. עם זאת, דוח של ועדת המשנה בנושא אתיקה ורגולציה של בינה מלאכותית פורסם וזמין כעת לקריאה. תת ועדה זו הייתה בראשות פרופ׳ קרין נהון ולי היה הכבוד, לצד גורמים מקצועיים נוספים, לקחת חלק בוועדה.

בדוח נסינו לקחת נושא מורכב זה, אתיקה ורגולציה בתחום הבינה המלאכותית, ולהפוך אותו לכמה שיותר ברור ונגיש. בדו"ח תוכלו למצוא שלושה פרקים עיקריים הדנים בסוגיה כולה. הפרק הראשון עוסק בהכרת עולם הבעיה ובסיבות מדוע בינה מלאכותית צריכה התייחסות רגולטורית ואתית מיוחד. כמו כן, בפרק זה נגענו גם במה הוועדה לא עוסקת והיכן מתחיל ומסתיים הדיון אותו אנחנו רוצים ליצור.

הפרק השני עסק באתיקה ובינה מלאכותית בו הצפנו מספר נקודות שיש לבחון בעת פיתוח מוצר מבוסס בינה מלאכותית. שמנו דגש על מושגים מוכרים מעולם תוכן זה אשר מאפשרים לנו לבחון היכן אנחנו עתידים ליצור בעיה אתית בפיתוח כזה או אחר (הוגנות, שקיפות, בטיחות ועוד). לצד ההגדרה של המושגים האלו יצרנו גם כלי המאפשר לכל גורם העוסק בתחום להבין באילו מקרים הוא "נופל" בכל אחד מהמושגים החשובים שהגדרנו וכיצד הוא יכול להימנע מכך. כדי להדגים את השימוש בכלי סקרנו מספר מקרי בוחן בהם בוצעו הפרות אתיות בפרויקט שונים והדגמנו כיצד ניתן להשתמש בכלי במקרי בוחן אלו. הכלי יוכל לשמש הן מקבלי החלטות והן מפתחים בזמן פיתוח של מערכות בינה מלאכותית.

הפרק השלישי עוסק בבינה מלאכותית ואסדרה ומתייחס להיבטים אלו בהקשרי משילות האתית והמשפטית בתחום הבינה המלאכותית. בפרק זה יצרנו טבלה המפרטת את סוגי האסדרות השונות והיתרונות והחסרונות בכל דרך פעולה. לבסוף, בנספח א' ניתן למצוא סקירה קצרה שנעשתה על המצב בארה"ב ובאירופה וכיצד הם הגדירו את האסטרטגיה שלהם בתחום זה.

הדוח כולו נמצא כאן:

לכתבה המלאה >>

לאחר הרבה הכנות והפקת לקחים מהקורס הקודם, גיל, ניר, ערן ואני שמחים להודיע כי אנחנו פותחים מחזור נוסף של MDLI Course – קורס מבוא ל-Deep Learning של הקהילה. בבלוג הזה אנחנו נשתף אתכם במידע על הקורס השנה וכמובן נפרסם לינק להרשמה לקראת המחזור השלישי.

למי שלא מכיר: בשנתיים האחרונות החלטנו, ארבעת האדמינים בקבוצה, לקחת את הקורס המוכר של סטנפורד "CS231n: Convolutional Neural Networks for Visual Recognition" ולהעביר אותו בצורה פורנטלית ובעברית באופן התנדבותי לחלוטין. הקורס הועבר לקבוצה של 60 סטודנטים שהגיעו מידי שבוע במשך ארבעה חודשים לגוגל קמפוס כדי ללמוד על התחום. לאחר ארבעת החודשים הצמדנו לבוגרים מנטורים מהתעשייה לטובת פרויקטי גמר המציגים את הידע הנרכש בקורס עצמו.

שני המחזורים הקודמים היו הצלחה. אלו שצלחו את הקורס עד סופו רכשו סט כלים חדש וידע שעזר לחלקם למצוא עבודות חדשות, או לעשות שינוי קריירה בתוך הארגון בהם הם עובדים. השנה אנחנו מתכוונים להפוך את הקורס למקצועי עוד יותר וליישם את כל הלקחים שהפקנו מהמחזור הקודם. אנחנו נוסיף הדרכות על שירות הענן של גוגל, תרגולים סביב עבודות הבית (הודות למתן פרידמן -מצטיין המחזור הראשון) וחיבור חזק יותר לתעשייה בפרויקטי הגמר. כפועל יוצא מכך זה אומר שרף הסינון עולה והרצינות שאנחנו מצפים מהמחזור החדש עולה גם היא.

כמו כן, קחו בחשבון שהקורס הוא מאוד Hands On ומתמטי לכן נדרשים גם ידע מתמטי וגם ידע תכנותי ברמה גבוהה (אלגברה לינארית, חד"וא, הסתברות ופיתון). ידע זה קריטי להבנת הקורס ולהכנת מטלות הבית השונות לכן אנא הירשמו רק אם יש לכם שליטה מספקת בנושאים הנ"ל.

אנחנו מציינים את הנהלים כבר עכשיו, לפני ההרשמה עצמה, כדי שתוכלו לעבור על כל התנאים ולהבין שהם מתאימים לכם. אנחנו לא מתכוונים לעגל פינות והמשמעת הנוקשה נועדה כדי שכל אחד שנבחר יפיק את המירב מהקורס ויצדיק את העובדה שדווקא הוא נבחר על פני מועמד אחר. בדיוק כמו בשנה הקודמת, גם הפעם אנחנו נקפיד על ייצוג שווה בין נשים וגברים בקורס, אך אין זה אומר שנקודה זו משפיעה על הסינון עצמו או על הרף הנדרש.

נהלים חשובים של הקורס:

לכתבה המלאה >>

עריכה:
ההרשמה כבר הגיעה למספר מאוד גבוה של אנשים ולכן אני פותח רשימת המתנה עבור כל מי שלא הספיק להירשם: http://bit.ly/2ktLogQ

כפי שהובטח, אני עושה פיילוט ראשוני ומארגן גרסה מקומית של כנס ICCV בו יציגו דוברים ישראליים את העבודות אותן הם הולכים להציג בכנס ICCV עצמו. בכנס הנ"ל יוצגו גם שתי עבודות מכנס IJAIC. נתחיל ונציין כי אין קשר רשמי לכנס ICCVI או IJAIC העולמי וכי מדובר על יוזמה קהילתית מקומית שמטרתה היא לאפשר לאלו שלא ייקחו חלק בכנס ליהנות מתכנים והרצאות ברמה המקצועית הגבוהה ביותר. האירוע יתקיים בתאריך ה25/09/2019, בשעה 18:00, במיקרוסופט ריאקטור ויכלול כ-14 הרצאות בנות 12 דקות בהן כל מרצה יציג את הנושאים העיקריים בעבודה שלו. כמו כן, לאחר האירוע אשלח את כל החומרים בצורה מסודרת בניוזלטר של הקהילה וגם אעדכן את העמוד הזה (הירשמו לניוזלטר כדי להישאר מעודכנים). ההרשמה לאירוע מתבצעת דרך הטופס הזה.

רשימת דוברים (מתעדכן):

לכתבה המלאה >>

השנה, בדיוק כמו שנה שעברה, קיימנו סקר מקיף אודות מגוון רחב של נושאים בקרב חברי קהילת MDLI. הסקר בא לבחון אלמנטים הנוגעים בתנאי העסקה, אתגרים יומיים, כלים נפוצים שבשימוש ועוד עבור אלו שעוסקים במקצעות הדאטה. בסקר הנוכחי השיבו 569 איש בסה"כ (לעומת 225 בשנה שעברה) אשר מייצגים בצורה נרחבת את כל הקשת הישראלית בתחום. המידע נאסף עד חודש מרץ 2019 ועדכני לנקודת זמן זו. בדו"ח הבא נציג את התוצאות הישירות שעלו מתוך הסקר ולצד זאת מספר ניתוחי עומק שביצע עומרי גולדשיין על הנתונים וזאת כדי לחשוף קשרים ורבדים עמוקים יותר בין הנתונים. השאלון נבנה משני חלקים עיקריים: חלק ראשון אישי ותעסוקתי ולצידו, חלק שני מקצועי וטכני יותר. בסקירה הזו, נציג לכם את התובנות העיקריות שעלו מהסקר ואת המסקנות לכל מי שבתעשייה זו.

אחד האלמנטים העיקריים בדו"ח הוא נושא השכר הממוצע בתחום בהתאם לניסיון בתעשייה והשכלה אקדמית. השנה הסקר כלל תשובות של כ-402 איש העוסקים בתחום במשרה מלאה – מה שמעניק תמונת מצב טובה על התחום. עומרי פיתח שני מודלים שיסייעו לכם לחזות מה אמור להיות השכר הממוצע שלכם בהם תוכלו לעשות שימוש. אחד מפרויקטי ההמשך של הסקר הוא הכנת מחשבון שכר בו יהיה ניתן להזין פרטים אודתיכם ולאחר מכן לקבל את השכר הממוצע עבור אנשים עם פרופיל זהה. מתוך הבנה כי על אף שמדובר על מספר גדול ביחס לסקרי שכר אחרים, הנתונים עדיין יכולים להיות לא מדויקים במקרים מסוימים ולכן נרצה להוסיף דוגמאות נוספות. מחשבון שכר זה יעלה בשבועות הקרובים ויאפשר גם מתן פידבק על התוצאות לשם שמירתו עדכני לאורך זמן. לכתבה המלאה >>

X