↓ הכתבות הכי חדשות ↓

תחום ה-Data Science צבר תאוצה רבה בשנה האחרונה ונראה שישנם עוד ועוד אנשים שרוצים לסלול את דרכם פנימה לעולם זה. מגמה זו הובילה אותי בשנה שעברה ליצור שיתוף פעולה עם Y-DATA – תוכנית ההכשרה של יאנדקס. כפועל יוצא משיתוף פעולה זה הכנתי כתבה מקיפה על התוכנית הלימודית של Y-DATA בה צללנו לעומק של הסילבוס ולמדנו להכיר לראשונה את המהות של התכנית והדגש הרב שהיא שמה על התכנים האקדמיים. שנה שלמה עברה מאז ויאנדקס ממשיכה בכל הכוח ופותחת מחזור נוסף לתכנית ההכשרה שלה שכוללת הפעם תכנים רבים נוספים. ומעל כל זאת, החידוש האמיתי של המחזור הנוכחי הוא האפשרות להשתתף בתכנית במודל "לימודים מבוססי הצלחה" ולשלם על הקורס רק במידה ואכן הצלחתם למצוא עבודה בתחום.

לפני שאנחנו צוללים פנימה לשינויים, נסביר קצת מה היא תכנית Y-DATA ומה עומד מאחוריה. מי שירצה לקרוא על כך בהרחבה מוזמן כמובן לעיין בכתבה שהכנתי בשנה שעברה אשר מופיעה בפסקה הקודמת. Y-DATA היא בעצם תוכנית הכשרה בתחומי הדאטה אשר פונה למועמדים בעלי רקע אקדמי עשיר ו\או נסיון של כמה שנים לפחות בכתיבת קוד אשר רוצים לעשות הסבה לתחום ה-Data Science. התכנית היא שלוחה של בית הספר למדעי הנתונים של חברת יאנדקס (YSDA), הפעיל מזה מעל לעשור במספר ערים ברוסיה. התכנית חרטה על דגלה להכשיר את הסטודנטים שלה לשוק העבודה ולספק להם כלים של ממש, כאלה שיאפשרו להם למצוא עבודה במהרה בסיום הקורס. בשנה שעברה המחזור הראשון של התוכנית בארץ הפך במהרה להצלחה רצינית – בין היתר בזכות פרויקטי הגמר המרשימים שעליהם עוד נדבר בהמשך. כפי שציינתי, השנה התכנית עברה מקצה שדרוגים רחב והתאימה את עצמה לשוק הדינמי הישראלי.

כדי להכיר לעומק את כל השינויים שנעשו בתוכנית, ולכדי לשמוע מידע נוסף על תוכנית המלגות החדשה, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל. כמו כן, חשוב לי לציין כי בדומה לשנה שעברה, גם השנה אנחנו מקיימים שיתוף פעולה עם יאנדקס, מה שמקנה לכם 1,000 שקל הנחה בשימוש בקוד MDLI. באתר ההרשמה.

תשלום מבוסס הצלחה

לכתבה המלאה >>

אני שמח להזמין אתכם לאירוע ראשון בסדרת אירועי MDLI ops שיעניק דגש לצד הטכני יותר של העבודה היומיומית. אירועים אלו יעניקו במה לחברות ישראליות שפועלות בתחום, מה שיאפשר להן להגיע לקהל רחב יותר של משתמשים. במקביל אירועים אלו יאפשרו לחברי הקהילה לשתף מתודולוגיות עבודה נכונות או כלים אחרים מומלצים שהם חלק משגרת העבודה שלהם. האירוע הראשון כולל 3 הרצאות מגוונות ומעניינות שיעסקו כל אחת בכלי או בעיה נפוצה בעת אימון מודלים. האירוע יתקיים בתאריך ה-10.5.2020 בשעה 17:30 ויועבר בשידור חי לחברי הקבוצה. כדי שאוכל לדעת באיזה כלי לשדר את האירוע, מה שיושפע מכמות הנרשמים, חשוב להירשם בלינק המצורף כדי שאוכל לדעת כיצד להיערך לכך בהתאם.

ניתן להירשם בלינק הבא.

אירוע בפייסבוק

מידע מלא על ההרצאות:

לכתבה המלאה >>

לפני זמן קצר, בחשיפה של דה מרקר, עלה כי ענקית הטכנולוגיה אינטל עתידה לרכוש את חברת מוביט הישראלית בעלות של לא פחות ממליארד דולר. ברגע שהידיעה עלתה לאוויר נשאלה מיד השאלה: מה הקשר בין חברת שבבים לבין אפליקצית תחבורה ציבורית? כפי שאתם יכולים לדמיין: דאטה. והרבה ממנו. 

נתחיל ונציין כי לאינטל לא באמת משנה אם קו 5 הגיע בזמן או לא. אינטל מעוניינת בתמונה הרחבה יותר שמוביט יוצרת על מצב התחבורה בערים שונות בעולם. מוביט מספקת את המידע החיוני הזה לעיריות וממשלות ברחבי העולם ובכך עוזרת להן לתכנן יותר טוב את המרחב האורבני ולהפחית את העומס על הכבישים. לכתבה המלאה >>

הוצאת הספרים Springer שחררה מאות ספרים במגוון רחב של נושאים בחינם לקהל הרחב. הרשימה, אשר כוללת 408 ספרים בסה"כ, מכסה מגוון רחב של נושאים מדעיים וטכנולוגים. כדי לחסוך לכם את המעבר על כך הספרים, ריכזתי ברשימה אחת את כל הספרים (65 במספר) שרלוונטים לתחום הדאטה. בין הספרים תוכלו למצוא כאלה שעוסקים בצד המתמטי של התחום (אלגברה, סטטיסטיקה ועוד) ולצידם גם ספרים מתקדמים יותר על DL ונושאים מתקדמים אחרים. לצד כל אלה, ישנם כמה ספרים טובים בשפות תכנות שונות כדוגמת פיתון, R מטלב ועוד. מומלץ לפתוח דרך המחשב כדי לראות את הרשימה המלאה בצורה נוחה. 

לכתבה המלאה >>

הבלוג פוסט נכתב במקור כפוסט על ידי יואב רמון בקבוצת Machine & Deep learning Israel

טוב, אז כמו שכתבתי אתמול ההרשמה השנה ל-ICASSP (International Conference on Acoustics, Speech, and Signal Processing) פתוחה וזאת הזדמנות מצויינת לחוות את הכנס הזה. רציתי לתת פה טעימה קטנה עם מאמר שבדיוק פורסם בכנס. זה מאמר שמאוד הרשים אותי והוא בתחום שיוצא לי לקרוא עליו הרבה לאחרונה, Text To Speech, אז החלטתי לכתוב עליו פה.

אז בשביל להתחיל להסביר את המאמר נסביר דבר ראשון איך מערכת TTS קלאסית עובדת:


1. נאסוף דאטא של דוגמאות רבות מאותו דובר (שעה+, לעתים אפילו יותר) שצריכות להיות מאוד נקיות ובאיכות מאוד גבוהה. את הדוגמאות האלה נצטרך לתמלל.


2. נאמן משהו שנקרא Vocoder (תוכנתי, לא פיזי) – המטרה של ה-Vocoder היא לייצר מייצוג קומפקטי של האודיו (בדרך כלל Mel scaled magnitude of STFT) בחזרה את הסיגנל הנקי. אחת הסיבות שעושים את האימון הזה בנפרד בדרך כלל היא שכדי לאמן Vocoder לא צריך לתמלל את הדוגמאות, ולכן אפשר לאמן אותו פשוט על כמויות גדולות של דוגמאות איכותיות. כמובן, אימון כזה הוא גם יותר ארוך ולכן ייקח יותר זמן. ישנן דוגמאות רבות ל-Vocoders כאלה, אבל המפורסם מכולם הוא Wavenet אם כי כבר מזמן הוא לא SOTA משום בחינה. זה קצת כמו ה-ResNet של עולם הקול.
לכתבה המלאה >>

מדריך זה נכתב על ידי איתמר כספי כפוסט בקבוצת Machine & Deep learning Israel.

מבוא לסביבות פייתון למדעני נתונים

אמ;לק –

conda create -n my_project_env
conda activate my_project_env

[ you are now in a new python environment! ]

conda install necessary_packages_seperated_by_spaces

[ run tests on your script and make sure everything works! ]

python -m pip freeze > my_project_requirements.txt

טריוויאלי? יופי. בסוף יש טיפים למיטבי לכת אולי שם יהיה לכן מעניין.

לכתבה המלאה >>

אמנם, האתגר לא באמת נגמר כמו שצריך בגלל הוירוס. אבל עבדתי די קשה, אני מרשה לעצמי לסכם בכל מקרה!

לפני שבועיים Uri Goren פרסם את אתגר מערכות ההמלצה של jul.
אני מתעסק במערכות המלצה בתור (חצי) תחביב כבר כמעט שנה והרבה זמן חיפשתי תירוץ לצלול לעומק העניין.
אז למארגנים: תודה על הFOMO, אחלה תירוץ!

הבעיה: אנשים קנו מוצרים. אנחנו צריכים לאמר איזה מוצר הם יקנו בפעם הבאה.
הדאטה: טרנזקציות – אדם x קנה מוצר y בתאריך z.
ניקוד: אם קלענו למוצר אחד מתוך רשימת המוצרים העתידיים, האדם נספר לנו לחישוב הדיוק הסופי, שהוא לא יותר מאחוז האנשים בהם צדקנו.
עוד פרט חשוב: מספיק לנו לקלוע למוצר אחד. (ובדקתי את הפרט הזה דרך ההגשות ללידרבורד!)
ועוד פרט חשוב: אנחנו לא יודעים מה המוצרים! יש לנו רק id. זה חכם מצד המארגנים, היתי מנצל את זה לרעה אם זה לא היה ככה.

התחלתי לירות בייסליינים כבר בעשר הדקות הראשונות מפתיחת הטבלה.

הבייסליין הראשון כמובן: "תציע לכולם את המוצר הכי נפוץ".
השני היה: "תציע לכולם את המוצר הכי KNN.predict"

אחרי שניקיתי קצת, העפתי את העברית (כי זה דפק כל דבר אפשרי), העפתי את כל האנשים שאני יודע עליהם רק קניה אחת והגשתי את הבייסליין "תציע לכל אדם פשוט מה שהוא קנה ממנו הכי הרבה" ואת הבייסליין "תציע לכל אדם מה שכולם קונים הכי הרבה" והבייסליין "תציע לכל אדם מה שקונים ממנו הכי הרבה באותו החודש"
והכי חשוב,הרצתי את הבייסליין:

for cols_combination in כל_הקומבינציות(cols):
תציע לאותו אדם: df.groupby(cols_combination).agg(lambda x: x.value_counts().index[0])

שבאופן ממש מביך הביא אותי למקום הראשון בטבלה..
חצי שעה מפתיחת התחרות..

ואז התחלתי לעבוד באמת. לכתבה המלאה >>

מאז שהקורונה פרצה לעולמנו, גופי מחקר ומדינות שחררו מאגרי מידע רבים באופן פומבי כדי לאפשר לקבוצות מחקר (וגם אנשים עצמאיים) לנתח את הנתונים סביב התפשטות הקורונה. מאגרי מידע אלו מפוזרים תחת מספר רב של יוזמות ומקורות. המטרה של הבלוג הזה הוא לעשות סדר בכל מאגרי המידע הפתוחים ובכל היוזמות בתחום הדאטה בארץ ובעולם. מכירים עוד מאגר חשוב? מוזמנים להוסיף אותו בתגובות או דרך הטופס הזה.

מאגרי מידע ויוזמות בארץ

COVID-19 Status – Israel

Israel Covid-19 Data

SNC list of Israeli Startup dealing with the corona

מאגר COVID-19 – מאגר רשמי של משרד הבריאות.

מאגרי מידע ויוזמות בחו"ל

לכתבה המלאה >>

בשבועות האחרונים, לצד התפשטות הקורונה החלו להתפשט גם ידיעות על כך שמודלים מבוססי בינה מלאכותית הם המושיעים הגדולים של המין האנושי – סוף כל סוף המכונות מנסות לעזור לנו ולא רק להשמיד אותנו. אט אט התחילו לצוץ כמעט ברמה יומית בקהילה הישראלית ובעולם בכלל, ניתוחים של כל מיני מאגרי מידע והבטחות ליכולת חיזוי מדהימה של התפשטות המחלה או מספר החולים הצפוי – כל זה באמצעות מודלים פשוטים וכמות דאטה חלקית עד אפסית. אם זה לא מספיק, היו לא מעט חברות אשר שטפו את הרשת עם אינספור ידיעות עם כותרות מפוצצות על כך שהן כבר מצאו תרופה לקורונה באמצעות בינה מלאכותית. פעמיים.

לשמחתנו, במקביל להגדלת הבאז סביבו פתרונות בינה מלאכותית לקורונה, קמו גם קולות מתונים שהעניקו תמונת מצב מדויקת יותר אודות הדרך בה ניתן לשלב מודלים מתקדמים לפתרון בעיית הקורונה (כדוגמת הפוסטים של ד"ר ינאי גונצ'רובסקי וערן פז שהטיבו להסביר את הנושא בצורה מדהימה). לכתבה המלאה >>

נכתב במקור כפוסט בקבוצת Machine & Deep learning Israel

אני רואה שיש פה לאחרונה הרבה דיונים על פרוייקטים ומה כדאי לעשות. הקדשתי לנושא הזה הרבה מחשבה לאחרונה לקראת הקורס שאני מתחיל ללמד באונ' ת"א ואני רוצה לחלוק פה את המחשבות שלי בתקווה שיעזרו לכמה אנשים למקד את המאמצים שלהם. הפוסט הזה מביע את דעתי האישית בלבד, ואין לי דאטא שיתמוך בה אז כל אחד מוזמן לפרש לפי ראות עיניו.

“If we have data, let’s look at data. If all we have are opinions, let’s go with mine.” -Jim Barkdale

אז קודם כל למה שתקשיבו לי בכלל?

חוץ מזה שאני ד"ר בתחום (חשמל בת"א חקרתי קבלת החלטות דינמית), אני גם בתעשייה כבר 4 וחצי שנים, הייתי מוביל טכנולוגי, הקמתי צוות ובדרך להקים עוד אחד (ובדרך ריאיינתי לפחות עשרות אנשים), ואם אתם אוהבים את גאמפא אז גם הייתי שנתיים במיקרוסופט ועבודות שלי הוצגו בכנסים פנימיים של החברה בנוסף לכנסים אקדמיים ולמוצרים מאד מצליחים. אפילו פרצתי דרך בתחום או שניים, אבל זה כבר נושא לפוסט אחר (וחלק מזה בכלל אסור לי לספר).

אז עכשיו אחרי שחפרתי מספיק על הניסיון שלי, מה אני מציע?

לכתבה המלאה >>

X