ארכיון כתבות עבור מרץ, 2020

אמנם, האתגר לא באמת נגמר כמו שצריך בגלל הוירוס. אבל עבדתי די קשה, אני מרשה לעצמי לסכם בכל מקרה!

לפני שבועיים Uri Goren פרסם את אתגר מערכות ההמלצה של jul.
אני מתעסק במערכות המלצה בתור (חצי) תחביב כבר כמעט שנה והרבה זמן חיפשתי תירוץ לצלול לעומק העניין.
אז למארגנים: תודה על הFOMO, אחלה תירוץ!

הבעיה: אנשים קנו מוצרים. אנחנו צריכים לאמר איזה מוצר הם יקנו בפעם הבאה.
הדאטה: טרנזקציות – אדם x קנה מוצר y בתאריך z.
ניקוד: אם קלענו למוצר אחד מתוך רשימת המוצרים העתידיים, האדם נספר לנו לחישוב הדיוק הסופי, שהוא לא יותר מאחוז האנשים בהם צדקנו.
עוד פרט חשוב: מספיק לנו לקלוע למוצר אחד. (ובדקתי את הפרט הזה דרך ההגשות ללידרבורד!)
ועוד פרט חשוב: אנחנו לא יודעים מה המוצרים! יש לנו רק id. זה חכם מצד המארגנים, היתי מנצל את זה לרעה אם זה לא היה ככה.

התחלתי לירות בייסליינים כבר בעשר הדקות הראשונות מפתיחת הטבלה.

הבייסליין הראשון כמובן: "תציע לכולם את המוצר הכי נפוץ".
השני היה: "תציע לכולם את המוצר הכי KNN.predict"

אחרי שניקיתי קצת, העפתי את העברית (כי זה דפק כל דבר אפשרי), העפתי את כל האנשים שאני יודע עליהם רק קניה אחת והגשתי את הבייסליין "תציע לכל אדם פשוט מה שהוא קנה ממנו הכי הרבה" ואת הבייסליין "תציע לכל אדם מה שכולם קונים הכי הרבה" והבייסליין "תציע לכל אדם מה שקונים ממנו הכי הרבה באותו החודש"
והכי חשוב,הרצתי את הבייסליין:

for cols_combination in כל_הקומבינציות(cols):
תציע לאותו אדם: df.groupby(cols_combination).agg(lambda x: x.value_counts().index[0])

שבאופן ממש מביך הביא אותי למקום הראשון בטבלה..
חצי שעה מפתיחת התחרות..

ואז התחלתי לעבוד באמת. לכתבה המלאה >>

מאז שהקורונה פרצה לעולמנו, גופי מחקר ומדינות שחררו מאגרי מידע רבים באופן פומבי כדי לאפשר לקבוצות מחקר (וגם אנשים עצמאיים) לנתח את הנתונים סביב התפשטות הקורונה. מאגרי מידע אלו מפוזרים תחת מספר רב של יוזמות ומקורות. המטרה של הבלוג הזה הוא לעשות סדר בכל מאגרי המידע הפתוחים ובכל היוזמות בתחום הדאטה בארץ ובעולם. מכירים עוד מאגר חשוב? מוזמנים להוסיף אותו בתגובות או דרך הטופס הזה.

מאגרי מידע ויוזמות בארץ

COVID-19 Status – Israel

Israel Covid-19 Data

מאגרי מידע ויוזמות בחו"ל

לכתבה המלאה >>

בשבועות האחרונים, לצד התפשטות הקורונה החלו להתפשט גם ידיעות על כך שמודלים מבוססי בינה מלאכותית הם המושיעים הגדולים של המין האנושי – סוף כל סוף המכונות מנסות לעזור לנו ולא רק להשמיד אותנו. אט אט התחילו לצוץ כמעט ברמה יומית בקהילה הישראלית ובעולם בכלל, ניתוחים של כל מיני מאגרי מידע והבטחות ליכולת חיזוי מדהימה של התפשטות המחלה או מספר החולים הצפוי – כל זה באמצעות מודלים פשוטים וכמות דאטה חלקית עד אפסית. אם זה לא מספיק, היו לא מעט חברות אשר שטפו את הרשת עם אינספור ידיעות עם כותרות מפוצצות על כך שהן כבר מצאו תרופה לקורונה באמצעות בינה מלאכותית. פעמיים.

לשמחתנו, במקביל להגדלת הבאז סביבו פתרונות בינה מלאכותית לקורונה, קמו גם קולות מתונים שהעניקו תמונת מצב מדויקת יותר אודות הדרך בה ניתן לשלב מודלים מתקדמים לפתרון בעיית הקורונה (כדוגמת הפוסטים של ד"ר ינאי גונצ'רובסקי וערן פז שהטיבו להסביר את הנושא בצורה מדהימה). לכתבה המלאה >>

נכתב במקור כפוסט בקבוצת Machine & Deep learning Israel

אני רואה שיש פה לאחרונה הרבה דיונים על פרוייקטים ומה כדאי לעשות. הקדשתי לנושא הזה הרבה מחשבה לאחרונה לקראת הקורס שאני מתחיל ללמד באונ' ת"א ואני רוצה לחלוק פה את המחשבות שלי בתקווה שיעזרו לכמה אנשים למקד את המאמצים שלהם. הפוסט הזה מביע את דעתי האישית בלבד, ואין לי דאטא שיתמוך בה אז כל אחד מוזמן לפרש לפי ראות עיניו.

“If we have data, let’s look at data. If all we have are opinions, let’s go with mine.” -Jim Barkdale

אז קודם כל למה שתקשיבו לי בכלל?

חוץ מזה שאני ד"ר בתחום (חשמל בת"א חקרתי קבלת החלטות דינמית), אני גם בתעשייה כבר 4 וחצי שנים, הייתי מוביל טכנולוגי, הקמתי צוות ובדרך להקים עוד אחד (ובדרך ריאיינתי לפחות עשרות אנשים), ואם אתם אוהבים את גאמפא אז גם הייתי שנתיים במיקרוסופט ועבודות שלי הוצגו בכנסים פנימיים של החברה בנוסף לכנסים אקדמיים ולמוצרים מאד מצליחים. אפילו פרצתי דרך בתחום או שניים, אבל זה כבר נושא לפוסט אחר (וחלק מזה בכלל אסור לי לספר).

אז עכשיו אחרי שחפרתי מספיק על הניסיון שלי, מה אני מציע?

לכתבה המלאה >>

X