כתבות עם התגית NLP

המדריך עלה כפוסט של ים פלג בקבוצת Machine & Deep Learning Israel

המדריך עלה כפוסט של ים פלג בקבוצת Machine & Deep Learning Israel

כבר הרבה זמן שאני מחפש בעית שפה "להשתפשף עליה" בשביל ללמוד יותר טוב את התחום.
אז אחרי הפסד מטופש בARC (הגשה ששווה מדליית כסף באיחור של חמש דקות) נכנסתי לי לקאגל וגיליתי שרצה תחרות NLP ואני בדיוק תופס אותה בשבועיים האחרונים שלה.
התחרות: Tweet Sentiment Extraction.
על תחילת התחרות: לקחתי את כל הדאטה, זרקתי אותו לgoogle translate, תרגמתי אותו לרוסית, צרפתית, גרמנית, ספרדית -> חזרה לאנגלית.
יופי! עכשיו יש לי יותר דאטה מכולם ואני אפילו לא דובר אף אחת מהשפות. אז בלי לחשוב יותר מידי, אימנתי רוברטה (roBERTa) והגשתי: מדליית כסף.
עכשיו אפשר ללכת לקרוא את החוקים ולהבין על מה התחרות בכלל.

לכתבה המלאה >>

תחום ה-Data Science צבר תאוצה רבה בשנה האחרונה ונראה שישנם עוד ועוד אנשים שרוצים לסלול את דרכם פנימה לעולם זה. מגמה זו הובילה אותי בשנה שעברה ליצור שיתוף פעולה עם Y-DATA – תוכנית ההכשרה של יאנדקס. כפועל יוצא משיתוף פעולה זה הכנתי כתבה מקיפה על התוכנית הלימודית של Y-DATA בה צללנו לעומק של הסילבוס ולמדנו להכיר לראשונה את המהות של התכנית והדגש הרב שהיא שמה על התכנים האקדמיים. שנה שלמה עברה מאז ויאנדקס ממשיכה בכל הכוח ופותחת מחזור נוסף לתכנית ההכשרה שלה שכוללת הפעם תכנים רבים נוספים. ומעל כל זאת, החידוש האמיתי של המחזור הנוכחי הוא האפשרות להשתתף בתכנית במודל "לימודים מבוססי הצלחה" ולשלם על הקורס רק במידה ואכן הצלחתם למצוא עבודה בתחום.

לפני שאנחנו צוללים פנימה לשינויים, נסביר קצת מה היא תכנית Y-DATA ומה עומד מאחוריה. מי שירצה לקרוא על כך בהרחבה מוזמן כמובן לעיין בכתבה שהכנתי בשנה שעברה אשר מופיעה בפסקה הקודמת. Y-DATA היא בעצם תוכנית הכשרה בתחומי הדאטה אשר פונה למועמדים בעלי רקע אקדמי עשיר ו\או נסיון של כמה שנים לפחות בכתיבת קוד אשר רוצים לעשות הסבה לתחום ה-Data Science. התכנית היא שלוחה של בית הספר למדעי הנתונים של חברת יאנדקס (YSDA), הפעיל מזה מעל לעשור במספר ערים ברוסיה. התכנית חרטה על דגלה להכשיר את הסטודנטים שלה לשוק העבודה ולספק להם כלים של ממש, כאלה שיאפשרו להם למצוא עבודה במהרה בסיום הקורס. בשנה שעברה המחזור הראשון של התוכנית בארץ הפך במהרה להצלחה רצינית – בין היתר בזכות פרויקטי הגמר המרשימים שעליהם עוד נדבר בהמשך. כפי שציינתי, השנה התכנית עברה מקצה שדרוגים רחב והתאימה את עצמה לשוק הדינמי הישראלי.

כדי להכיר לעומק את כל השינויים שנעשו בתוכנית, ולכדי לשמוע מידע נוסף על תוכנית המלגות החדשה, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל. כמו כן, חשוב לי לציין כי בדומה לשנה שעברה, גם השנה אנחנו מקיימים שיתוף פעולה עם יאנדקס, מה שמקנה לכם 1,000 שקל הנחה בשימוש בקוד MDLI. באתר ההרשמה.

תשלום מבוסס הצלחה

לכתבה המלאה >>

הבלוג פוסט נכתב במקור כפוסט על ידי יואב רמון בקבוצת Machine & Deep learning Israel

טוב, אז כמו שכתבתי אתמול ההרשמה השנה ל-ICASSP (International Conference on Acoustics, Speech, and Signal Processing) פתוחה וזאת הזדמנות מצויינת לחוות את הכנס הזה. רציתי לתת פה טעימה קטנה עם מאמר שבדיוק פורסם בכנס. זה מאמר שמאוד הרשים אותי והוא בתחום שיוצא לי לקרוא עליו הרבה לאחרונה, Text To Speech, אז החלטתי לכתוב עליו פה.

אז בשביל להתחיל להסביר את המאמר נסביר דבר ראשון איך מערכת TTS קלאסית עובדת:


1. נאסוף דאטא של דוגמאות רבות מאותו דובר (שעה+, לעתים אפילו יותר) שצריכות להיות מאוד נקיות ובאיכות מאוד גבוהה. את הדוגמאות האלה נצטרך לתמלל.


2. נאמן משהו שנקרא Vocoder (תוכנתי, לא פיזי) – המטרה של ה-Vocoder היא לייצר מייצוג קומפקטי של האודיו (בדרך כלל Mel scaled magnitude of STFT) בחזרה את הסיגנל הנקי. אחת הסיבות שעושים את האימון הזה בנפרד בדרך כלל היא שכדי לאמן Vocoder לא צריך לתמלל את הדוגמאות, ולכן אפשר לאמן אותו פשוט על כמויות גדולות של דוגמאות איכותיות. כמובן, אימון כזה הוא גם יותר ארוך ולכן ייקח יותר זמן. ישנן דוגמאות רבות ל-Vocoders כאלה, אבל המפורסם מכולם הוא Wavenet אם כי כבר מזמן הוא לא SOTA משום בחינה. זה קצת כמו ה-ResNet של עולם הקול.
לכתבה המלאה >>

וואו, השבוע היה לנו המון פוסטים מעולים וחשובים בקבוצה. ספרתי בקלות יותר מ-15 פוסטים שכאלה ועשיתי את מרבית המאמצים כדי לארגן לכם את כולם במקום אחד מסודר. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). הניוזלטר המלא ניתן למצוא כאן.

Group's Highlights from last week

1. Noam Cohen from the Technion shared with us a wonderful blog post about "A Signal Processing Perspective For Graph Structured Information ". It got many upvoted so don't miss it.

2. Iyar Lin needed to settle an argument with a coworker so he created an interesting poll at the group which got many votes. If that's not enough he just published a test he maid to check some insights he got from the group.

3. Gidi Shperber shared the second part of this blog post "A different kind of (deep) learning: part 2". We all loved the first one so be sure to check this one also.

4. The one and only, Jonathan Laserson, shared with us a blog post he wrote about this work at Zebra medical. If you need to read only one post make it this one.

לכתבה המלאה >>

אנחנו עוסקים לא מעט בקהילה בדרכים בהן ניתן לצרף אנשים נוספים לתחום ולהנגיש, ככל שניתן, את הידע הנדרש כדי להשיג את העבודה הראשונה כ-Data scientist. רבים מכם יודעים כי לא מדובר על משימה קלה במיוחד, השילוב של חוסר הכרה של העולם התוכן לעומקו ומגוון ההכשרות הרחב שיש בשוק, מקשה על בוגרי תארים מתקדמים, או אפילו מפתחים בעלי ניסיון, לעשות את המעבר ולהשיג את דריסת הרגל הנדרשת.

אני מקדיש לנושא זה תשומת לב רבה ולעיתים עולות יוזמות חדשות בקהילה אשר מנסות להעניק מענה הולם לבעיה הזו. כדי להעצים את העשייה שלי בתחום ובשאיפה לעזור לכמה שיותר אנשים, אני כעת חובר לארגון  בשם Israel Tech Challenge, ארגון ללא מטרות רווח, אשר מציע תכנית הכשרה מקיפה ומלאה בתחום ה-Data science. כחלק משיתוף הפעולה שלי עם ITC אני מסייע להם באיתור מועמדים רלוונטיים שיכולים לקחת חלק בתכנית האקסלוסיבית שהם בונים.

קצת פרטים על התכנית עצמה: ההכשרה מתבצעת בתחום ה-Computer Vision (ראייה ממוחשבת) וה-NLP (עיבוד שפה טבעית), כאשר לב ליבה של התכנית היא שימוש בטכניקות מעולם ה-Deep Learning לביצוע משימות בתחום זה. התכנית היא חלק ממסלול ה-Data Science של תכנית ה-Fellows. התכנית הנ"ל מיועדת לבוגרי Bs.c מצטיינים מאוניברסיטאות מובילות בארץ ובעולם, בדגש על בוגרי תארים במדעי המחשב, הנדסה, מתמטיקה, פיסיקה, כימיה וביולוגיה שלהם ידע בתכנות. ההכשרה כולה בנויה משלושה חלקים עיקריים: החלק הראשון, אשר אורך ארבעה חודשים, עוסק בלימוד עצמו ומקנה לסטודנטים את כל הכלים להתמודדות עם בעיות שונות בתחום ה-Data science. בחלק זה מגיעים מרצים אורחים משלל חברות מובילות במשק אשר משתפים מינסיונם בעבודה היומיומית שלהם, וזאת במטרה לחשוף את הסטודנטים לבעיות אמתיות שעולות כחלק מתהליך העבודה. החלק השני כולל חמישה שבועות של התמחות קצרה אצל אחת מהחברות הפועלות עם ITC בהן הסטונדטים עובדים על בעיות מוגדרות עם ליווי של אנשי החברה.

החלק השלישי, אשר אורך חמישה חודשים, הוא התמחות בשכר אצל חברות מובילות בתפקידי פיתוח ומחקר במגוון רחב של חברות אשר פעולות בשיתוף פעולה עם ITC. השכר הממוצע לחודש בזמן ההתמחות הוא 20 אלף שקל לחודש, כאשר בסופו של שלב זה מרבית הסטודנטים כבר מקבלים הצעות מהחברות עצמן למשרות לטווח הארוך. לקורס יש שני מחזורים בשנה, הראשון מתקיים בחודש באפריל ובעוד השני שמתחיל בחודש אוקטובר (בעוד חודשיים). העלות של התכנית כולה היא היא 30,000 שקלים.

הסבר על התכנית

על מנת ללמוד על תכנית ההכשרה לעומק, קיימתי ראיון מקיף עם לואיס וולך, Data Science Lead ב-ITC ובר וינוגרד, יועץ בתחום ה-Data Science ואחד מסגל המורים בקורס. לאויס ובר אמונים על הפיתוח המקצועי של תכנית ההכשרה ושניהם מגיעים עם ניסיון רב בתחום וידע פרקטי בעולמות ה-Data Science. לאורך הראיון נצלול פנימה ונכיר את אבני הבניין השונות של תכנית זו ונבין כיצד היא יכולה לסייע לאלה אשר רוצים לעשות את שינוי הקריירה המיוחל לכתבה המלאה >>

DataHack הוא ארגון ללא מטרת רווח המארגן האקתון שנתי ומפגשי למידה בנושאי ביג דאטה, למידת מכונה, בינה מלאכותית ועוד. ההאקתון מתקיים בירושלים זאת השנה הרביעית ומקדם את האקוסיסטם הירושלמי הצומח, כל שנה מגיעים 400-500 משתתפים מכל רחבי הארץ לשלושה ימים אינטנסיבים של עבודה על פרוייקטים טכנולוגיים חדשניים ויצירתיים. מדובר באחד מהאירועים הטכנולוגיים הגדולים ביותר בעיר ובין ההאקתונים הגדולים ביותר בארץ.

האירוע הוא פסטיבל גדול של דאטה וטכנולוגיה, מחבר בין דיסצפלינות שונות בינהם סטטיסטיקאים, מפתחים, מעצבים, מדעני נתונים וחוקרים. כל שנה נוצרים עשרות רבות של פרוייקטים, לדוגמא בשנים קודמות פיתחו הצוותים פתרונות בעלי ערך חברתי גדול (ואף זכו בפרס מיוחד עבור כך) כמו כלי אוטומטי שעוזר לאתר נוער בסיכון שנמצא במצוקה ברשת, מערכת שמנתחת וידיאו של תינוקות כדי לזהות שיתוק מוחין, מערכת ניווט להולכי רגל להפחתת סיכוני פשיעה, מערכת לחיזוי עיכובים בטיסות ועוד. מעבר לכך, חלק מהפרויקטים היו באווירה קלילהו והומוריסטית יותר, כמו כלי למציאת כלב שהכי דומה לאדם מסוים או מנוע המלצות לאוכל המתאים ביותר לנשנוש לצד סרט נבחר.

בעוד חודש, 3-5.10, ייערך האירוע בפעם הרביעית, בבית אליאנס בירושלים. דין לנגסם, שזכה שנה שעברה במסלול הראשי, בחר לחלוק מספר נקודות שלדעתו הביאו לו ולקבוצתו את הניצחון: לכתבה המלאה >>

לגייס Data scientists זו לא משימה קלה. העלייה המשמעותית במספר החברות שנכנסות לעולם ה-Machine Learning לצד כמות הסטארטפים שפועלים בתחום הגבירו את הביקוש ל-Data scientists, מה שיוצר קשיי גיוס רבים ללא מעט חברות. יש לציין, לפני שאנחנו צוללים פנימה, כי גם חברות גדולות ותאגידים גדולים מתקשים למצוא את האנשים המתאימים ולא מדובר על מכשול שקיים רק אצל חברות צעירות או גופים לא טכנולוגים.

בדיוק לשם כך, קיימתי לפני מספר שבועות אירוע מצומצם בו חלקתי חלק מהתובנות שיש לי בנושא, המתבססות על סקר הקהילה שעשינו ולוח המשרות העשיר שמנוהל באתר זה. נתונים אלה, בשילוב לאינספור שיחות שקיימתי עם עובדים בתחום וחברות שונות המגייסות, סייעו לי לגבש מספר מסקנות וטיפים שיוכלו לעזור לכל מי שרוצה לגייס Data scientist. בנוסף להרצאה שלי, לקח חלק באירוע גם Alfie Booker המשמש כמגייס טכני ב- Google UK בחמש השנים האחרונות. אלפי עסק בעיקר בתהליך הגיוס בגוגל וכיצד ניתן לבנות אותו בצורה חכמה מול המועמדים השונים.

עיקר החלק שלי מבוסס על המצגת שהעברתי במפגש עצמו והיא מצורפת כאן לשימושכם:

לכתבה המלאה >>

פעמים רבות עולות שאלות בקהילה אודות חוקרים שונים באקדמיה העוסקים ב-Machine learning ו-Deep learning. בכדי לעשות סדר בנושא ולעזור לחברי הקהילה לקבל תמונת מצד מדויקת של כל העוסקים במלאכה באקדמיה, החלטתי ליצור רשימה מסודרת ומאוחדת שתרכז את כל החוקרים בתחום. הרשימה כוללת מספר רב של חוקרים בתחום מכל מוסדות הלימוד בארץ כאשר הם מחולקים לתחומי הפעילות שלהם (ראייה ממחושבת, עיבוד שפה טבעית וכו'). בנוסף לכך, לצד כל חוקר יש מידע נוסף אודות תחומי הפעילות העיקריים שלו, קישור לאתר האישי ועוד. השאיפה היא לשמור על הרשימה עדכנית ככל שניתן ומידי פעם אעבור עליה ואעדכן את הפרטים הרלוונטיים לכל חוקר וחוקר לכתבה המלאה >>

בתאריך ה-25.4 קיימנו את המפגש השני של Machine Learning Israel Seminar אשר עסק ב-NLP. המפגש הנוכחי, וכך גם שאר המפגשים בעתיד, בנוי משתי הרצאות: אחת מטעם חוקר מהאקדמיה והשנייה מטעם גורם מהתעשייה (סטארטאפ או חברה). כפי שהבטחתי אני מצרף כאן את המצגות של שני המרצים. בהזדמנות זו אני מציע לכם להירשם לניוזלטר של הקהילה ובכך לא לפספס את ההרשמה לאירוע הבא.

הרצאה ראשונה:

שם המרצה: Roee Aharoni
חברה: Bar Ilan University's NLP Lab
תפקיד: Phd Candidate at Bar Ilan University's NLP Lab
לצפייה במצגת לחצו כאן.

תיאור ההרצאה:

 

לכתבה המלאה >>

לפני קרוב לחודשיים פרסמתי כאן פוסט הקורא למומחים העוסקים במתן ייעוץ בנושאי Machine Learning להצטרף לרשימה שאני מארגן, המאגדת את מי שעוסק בתחום. מטרתה של הרשימה הייתה לאפשר חיבור טוב יותר בין חברות טכנולוגיה ובין יועצים חיצוניים ובכך לעזור לקהילה לגדול ולאפשר לעוד חברות להטמיע פתרונות מבוססי Machine Learning במוצריהם.

נכון לכתיבת שורות אלה, ישנם קרוב ל-30 מומחים וחברות ייעוץ אשר הצטרפו לרשימה. חברי הרשימה עוסקים במגוון רחב של תחומים: ראיה ממוחשבת, עיבוד שפה טבעית וכו'. מרבית המומחים פירטו בצורה נרחבת על הידע והניסיון שלהם וחלקם הגדול אף כלל רשימה של לקוחות קודמים עמם עבדו. בכדי ליצור אחוזי התאמה גבוהים יותר, ישנו גם חלק יעודי ללקוחות עתידיים עמם המומחים ירצו לעבוד ואופי החברות הרלוונטיות אליהם.

מחפשים משרה בתחום? היכנסו ללוח המשרות שלנו.

בעקבות בקשות רבות מחברי הקהילה ואלו שמחוצה לה, אני פותח את הרשימה לקהל הרחב ומאפשר לכל אחד לפנות לאותם מומחים, ולצד זאת להוסיף את עצמו לרשימה כמומחה. במידה ואכן תמצאו מומחה העונה לדרישות שלכם, תוכלו לפנות אליו במספר אמצעי ההתקשרות הזמינים ברשימה (אימייל, אתר, לינקדאיין, טלפון ועוד). במידה ואתם מומחים בעצמכם, אתם מוזמנים למלא את כל הפרטים ולהוסיף את שמכם למאגר. ככל שתמלאו את הפרטים בצורה מלאה יותר כך יגדל הסיכוי שחברות אכן יפנו אליכם לכתבה המלאה >>

X