כתבות עם התגית NLP

אנחנו שמחים להזמין אתכם לפרק השני של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.

אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSS, גוגל פודקאסט, ספוטיפי, אפל וגם ישירות דרך Podbean. אנחנו בעתיד הקרוב נוסיף עוד פלטפורמות ומקורות האזנה (יכול להיות שכעת חלק מהלינקים טרם עובדים).

לכתבה המלאה >>

כנס  (IMVC (Israel Machine Vision conference מתקיים זו השנה ה-12, ולאורך השנים צבר לעצמו שם כאחד האירועים הבולטים ביותר לתחום הראייה הממוחשבת. גם השנה אנו מקיימים שיתוף פעולה עם הכנס שמקנה לחברי קהילת MDLI הנחה מיוחדת ברישום ל-IMVC באמצעות הקוד MDLI15.

במסגרת שיתוף הפעולה, ישבנו עם ד"ר חן שגיב וד"ר קובי כהן, מייסדי הכנס, כדי לשמוע מהם על ההיערכות לאירוע בסדר גודל כזה לצד הקורונה, לבדוק מה מצפה למשתתפים באירוע הקרוב, ומה הם חושבים על העתיד של עולם הראייה הממוחשבת.

לכתבה המלאה >>

הכתבה בשיתוף Y-Data

בזמן שתעשיית הדאטה בישראל רק הולכת ומתפתחת, יותר ויותר אנשים מחפשים את כרטיס הכניסה לתחום. קורסים והכשרות הם התשובה של רבים לכך, ואחד הקורסים שהצליחו לצבור לעצמם שם בקהילה שלנו הוא התכנית של Y-DATA, אותה אנו מלווים זו השנה השלישית. ההרשמה לקורס פתוחה עד התאריך 10.8.2021 וגם הפעם יש לנו קוד הנחה המקנה לכם 1000 ש"ח הנחה- ML2021. ניתן להשיג מידע נוסף ולהירשם דרך הלינק הזה.

למי שלא מכיר, Y-DATA מבית יאנדקס (Yandex) היא תכנית להכשרת מדעני נתונים, שפונה למי שיש להם ניסיון משמעותי בתכנות ורקע אקדמי רלוונטי המבקשים לעשות הסבה לתחום. המחזור השלישי של התכנית מתקרב לסיום, ובאוקטובר הקרוב יפתח המחזור הרביעי שיכלול כ-50 סטודנטים, שירכשו כלים ויכולות שיאפשרו להם להשתלב בתעשייה עם סיום ההכשרה (ולעתים, אפילו במהלכה). השנה, התכנית אף מפעילה אקסלרטור קריירה שמלווה את הסטודנטים בתהליך חיפוש העבודה ומקנה להם כלים לייעול התהליך.

אחרי שנה כה מטלטלת, רצינו לבדוק מקרוב איך הצליחו החבר'ה ב-Y-DATA להתמודד עם השלכות הקורונה, איך התפתחה התכנית שלהם לאורך השנים ולמה החליטו שלא להמשיך רק בלמידה מרחוק. מעבר לכך, חשוב היה לנו לשמוע מה חושבים הבוגרים של התכנית עליה, וכיצד היא תרמה להם.

הראיון הבא עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל, ישפוך קצת אור על הנושא. לכתבה המלאה >>

סקירה זו היא חלק מפינה קבועה בה אני סוקר מאמרים חשובים בתחום ה-ML/DL, וכותב גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמתי, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.


לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום בחרתי לסקירה את המאמר שנקרא:

InfoBERT: Improving Robustness of Language Models from an Information Theoretic Perspective


פינת הסוקר:

          המלצת קריאה ממייק: חובה בהחלט לאוהבי נושא של אימון אדוורסרי ותורת המידע. לאחרים מומלץ מאוד

          בהירות כתיבה: בינונית פלוס

        רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת מאמר: היכרות עם עקרונות של התקפות אדוורסריות לרשתות נוירונים (בדגש על NLP), הבנה טובה במושגי יסוד של תורת המידע כמו מידע הדדי של משתנים אקראיים. 

        יישומים פרקטיים אפשריים: אימון מודלי NLP, עמידים להתקפות אדוורסריות.


פרטי מאמר:

      לינק למאמר: זמין להורדה.

      לינק לקוד: רשמי, לא רשמי

      פורסם בתאריך: 22.03.21, בארקיב.

      הוצג בכנס: ICLR 2021


תחום מאמר: 

  • טרנספורמרים, BERT
  • אימון אדוורסארי – adversarial training
  • למידת ייצוג – representation learning

כלים ומושגים מתמטיים במאמר:

  • צוואר בקבוק מידעי (information bottleneck) ברשתות נוירונים
  • מידע הדדי (mutual information)
  • (InfoNCE (noise contrastive estimation

תמצית מאמר:  לכתבה המלאה >>

סקירה זו היא חלק מפינה קבועה בה אני סוקר מאמרים חשובים בתחום ה-ML/DL, וכותב גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמתי, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.


לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום בחרתי לסקירה את המאמר שנקרא: 

Learning to summarize from human feedback


פינת הסוקר:  

           המלצת קריאה ממייק: מאוד מומלץ.

           בהירות כתיבה: גבוהה מינוס

          רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת מאמר: הבנה טובה בשיטות הקיימות של abstractive summarization , בטרנספורמרים וידע בסיסי ב-reinforcement learning.

          יישומים פרקטיים אפשריים: אימון של מודלים לתמצות אבסטרקטיבי עם עם פחות דאטה מתויג.


פרטי מאמר:

      לינק למאמר: זמין להורדה.

      לינק לקוד: זמין כאן

     פורסם בתאריך: 27.10.20, בארקיב.

     הוצג בכנס: NeurIPS 2020.


תחומי מאמר:

  • תמצות אבסטרקטיבי (abstractive summarization) של טקסטים
  • למידה באמצעות חיזוקים (RL – reinforcement learning)

כלים מתמטיים, מושגים וסימונים:

  •  טרנספורמרים
  • פונקצית מטרה סרוגייט (surrogate objective – F_sur)
  •  (proximal policy optimization (PPO
  • שיטות אזור אימון (trust region TR)
  • פונקציית גמול (reward function)
  • מרחק KL
  • מבחן ROUGE

תמצית מאמר:  לכתבה המלאה >>

תחום עיבוד השפה הטבעית (NLP), על אף היותו ותיק מאוד, יצר הרבה כותרות בשנה האחרונה הודות לפריצות דרך של צוותי מחקר רבים בעולם. פריצות דרך אלה יצרו מודלים מדויקים אשר מצליחים להצטיין בצורה מרשימה למדי במגוון רחב של משימות ומבחנים. על אף כל ההתקדמות הרבה שנעשתה בתחום, ישנו קושי מהותי לקחת את הפיתוחים שנעשו במעבדה ולהמירם למוצרים מוגמרים שיכולים לשרת את הקהל הרחב. זו בעיה נפוצה בעולם ה-ML, אך בתחום חמקמק כמו השפה האנושית נראה כי מדובר על משימה קשה אף יותר. עם כל זאת, לפני כמה שבועות השיקה חברת AI21 Labs הישראלית מוצר חדש בשם "Wordtune" אשר נראה כי מצליח לשלב בין שני העולמות: מודלי שפה איכותיים לצד מוצר צרכני ברמה גבוהה.

מדובר בתוסף לדפדפן אשר מסייע לכם לשפר את האנגלית. חשוב להדגיש: המטרה העיקרית שלו היא לא לתקן שגיאות כתיב או לזהות טעויות הקלדה – מטרתו היא לסייע למשתמש לכתוב טקסט ברמה גבוהה יותר. דמיינו שיש לכם עורך צמוד שאתם יכולים להתייעץ איתו בסוגיות שונות: כיצד לכתוב את הטקסט בצורה רשמית יותר, איך להשתמש בביטוי מסוים, איך לקצר משפט ארוך כדי שיהיה נהיר יותר וכו'. כל אחד מאותם פיצ'רים הוא משימה לא פשוטה בתחום ה-NLP, כזאת שנחקרת על ידי חוקרים רבים מגופי מחקר שונים. בשבועות האחרונים, גם לפני ההשקה הרשמית, יצא לי להשתמש ב-Wordtune במגוון רחב של מקרים (כתיבת מיילים, ניוזלטרים, הצעות מחיר ועוד) ואני חייב לציין שהכלי הזה השאיר אצלי חותם לא קטן.

לאחר ההתקנה הפשוטה מהחנות של כרום, Wordtune בעצם מתלבש על כל תיבת טקסט עליה אתם עובדים – מפוסט פשוט בפייסבוק ועד מייל רשמי מהעבודה. ברגע שאתם מתחילים לכתוב באנגלית, התוסף נכנס לפעולה ומסמן עבורכם מילים שהוא יכול למצוא להן תחליפים מתאימים. זה הפיצ'ר הכי פשוט שלו – הפיצ'רים המתקדמים יותר, ויש לא מעט כאלה, עוסקים ביכולות של Wordtune לעזור לכם להתנסח בצורה טובה יותר. אחד מאותם פיצ'רים הוא היכולת לכתוב את אותו משפט בדיוק בצורה רשמית או קלילה, כאשר כל מה שצריך לעשות הוא לסמן את המשפט ולתת ל-Wordtune לחשוב על ניסוחים אחרים. לאחר כמה שניות תופיע תיבה קטנה לצד המשפט עם ניסוחים שונים, כאשר כל שינוי משמעותי ייצבע בסגול וידגיש בפניכם את ההמלצה של Wordtune.

לכתבה המלאה >>

המדריך עלה כפוסט של ים פלג בקבוצת Machine & Deep Learning Israel

כבר הרבה זמן שאני מחפש בעית שפה "להשתפשף עליה" בשביל ללמוד יותר טוב את התחום.
אז אחרי הפסד מטופש בARC (הגשה ששווה מדליית כסף באיחור של חמש דקות) נכנסתי לי לקאגל וגיליתי שרצה תחרות NLP ואני בדיוק תופס אותה בשבועיים האחרונים שלה.
התחרות: Tweet Sentiment Extraction.
על תחילת התחרות: לקחתי את כל הדאטה, זרקתי אותו לgoogle translate, תרגמתי אותו לרוסית, צרפתית, גרמנית, ספרדית -> חזרה לאנגלית.
יופי! עכשיו יש לי יותר דאטה מכולם ואני אפילו לא דובר אף אחת מהשפות. אז בלי לחשוב יותר מידי, אימנתי רוברטה (roBERTa) והגשתי: מדליית כסף.
עכשיו אפשר ללכת לקרוא את החוקים ולהבין על מה התחרות בכלל.

לכתבה המלאה >>

תחום ה-Data Science צבר תאוצה רבה בשנה האחרונה ונראה שישנם עוד ועוד אנשים שרוצים לסלול את דרכם פנימה לעולם זה. מגמה זו הובילה אותי בשנה שעברה ליצור שיתוף פעולה עם Y-DATA – תוכנית ההכשרה של יאנדקס. כפועל יוצא משיתוף פעולה זה הכנתי כתבה מקיפה על התוכנית הלימודית של Y-DATA בה צללנו לעומק של הסילבוס ולמדנו להכיר לראשונה את המהות של התכנית והדגש הרב שהיא שמה על התכנים האקדמיים. שנה שלמה עברה מאז ויאנדקס ממשיכה בכל הכוח ופותחת מחזור נוסף לתכנית ההכשרה שלה שכוללת הפעם תכנים רבים נוספים. ומעל כל זאת, החידוש האמיתי של המחזור הנוכחי הוא האפשרות להשתתף בתכנית במודל "לימודים מבוססי הצלחה" ולשלם על הקורס רק במידה ואכן הצלחתם למצוא עבודה בתחום.

לפני שאנחנו צוללים פנימה לשינויים, נסביר קצת מה היא תכנית Y-DATA ומה עומד מאחוריה. מי שירצה לקרוא על כך בהרחבה מוזמן כמובן לעיין בכתבה שהכנתי בשנה שעברה אשר מופיעה בפסקה הקודמת. Y-DATA היא בעצם תוכנית הכשרה בתחומי הדאטה אשר פונה למועמדים בעלי רקע אקדמי עשיר ו\או נסיון של כמה שנים לפחות בכתיבת קוד אשר רוצים לעשות הסבה לתחום ה-Data Science. התכנית היא שלוחה של בית הספר למדעי הנתונים של חברת יאנדקס (YSDA), הפעיל מזה מעל לעשור במספר ערים ברוסיה. התכנית חרטה על דגלה להכשיר את הסטודנטים שלה לשוק העבודה ולספק להם כלים של ממש, כאלה שיאפשרו להם למצוא עבודה במהרה בסיום הקורס. בשנה שעברה המחזור הראשון של התוכנית בארץ הפך במהרה להצלחה רצינית – בין היתר בזכות פרויקטי הגמר המרשימים שעליהם עוד נדבר בהמשך. כפי שציינתי, השנה התכנית עברה מקצה שדרוגים רחב והתאימה את עצמה לשוק הדינמי הישראלי.

כדי להכיר לעומק את כל השינויים שנעשו בתוכנית, ולכדי לשמוע מידע נוסף על תוכנית המלגות החדשה, קיימתי ראיון עם קוסטיה קילימניק, מנהל תוכנית Y-DATA בישראל. כמו כן, חשוב לי לציין כי בדומה לשנה שעברה, גם השנה אנחנו מקיימים שיתוף פעולה עם יאנדקס, מה שמקנה לכם 1,000 שקל הנחה בשימוש בקוד MDLI. באתר ההרשמה.

תשלום מבוסס הצלחה

לכתבה המלאה >>

הבלוג פוסט נכתב במקור כפוסט על ידי יואב רמון בקבוצת Machine & Deep learning Israel

טוב, אז כמו שכתבתי אתמול ההרשמה השנה ל-ICASSP (International Conference on Acoustics, Speech, and Signal Processing) פתוחה וזאת הזדמנות מצויינת לחוות את הכנס הזה. רציתי לתת פה טעימה קטנה עם מאמר שבדיוק פורסם בכנס. זה מאמר שמאוד הרשים אותי והוא בתחום שיוצא לי לקרוא עליו הרבה לאחרונה, Text To Speech, אז החלטתי לכתוב עליו פה.

אז בשביל להתחיל להסביר את המאמר נסביר דבר ראשון איך מערכת TTS קלאסית עובדת:


1. נאסוף דאטא של דוגמאות רבות מאותו דובר (שעה+, לעתים אפילו יותר) שצריכות להיות מאוד נקיות ובאיכות מאוד גבוהה. את הדוגמאות האלה נצטרך לתמלל.


2. נאמן משהו שנקרא Vocoder (תוכנתי, לא פיזי) – המטרה של ה-Vocoder היא לייצר מייצוג קומפקטי של האודיו (בדרך כלל Mel scaled magnitude of STFT) בחזרה את הסיגנל הנקי. אחת הסיבות שעושים את האימון הזה בנפרד בדרך כלל היא שכדי לאמן Vocoder לא צריך לתמלל את הדוגמאות, ולכן אפשר לאמן אותו פשוט על כמויות גדולות של דוגמאות איכותיות. כמובן, אימון כזה הוא גם יותר ארוך ולכן ייקח יותר זמן. ישנן דוגמאות רבות ל-Vocoders כאלה, אבל המפורסם מכולם הוא Wavenet אם כי כבר מזמן הוא לא SOTA משום בחינה. זה קצת כמו ה-ResNet של עולם הקול.
לכתבה המלאה >>

וואו, השבוע היה לנו המון פוסטים מעולים וחשובים בקבוצה. ספרתי בקלות יותר מ-15 פוסטים שכאלה ועשיתי את מרבית המאמצים כדי לארגן לכם את כולם במקום אחד מסודר. כפי שאתם בוודאי יודעים, הרשימה הזו נשלחת גם בניוזלטר שלנו כמידי שבוע (הירשמו כאן!). הניוזלטר המלא ניתן למצוא כאן.

Group's Highlights from last week

1. Noam Cohen from the Technion shared with us a wonderful blog post about "A Signal Processing Perspective For Graph Structured Information ". It got many upvoted so don't miss it.

2. Iyar Lin needed to settle an argument with a coworker so he created an interesting poll at the group which got many votes. If that's not enough he just published a test he maid to check some insights he got from the group.

3. Gidi Shperber shared the second part of this blog post "A different kind of (deep) learning: part 2". We all loved the first one so be sure to check this one also.

4. The one and only, Jonathan Laserson, shared with us a blog post he wrote about this work at Zebra medical. If you need to read only one post make it this one.

לכתבה המלאה >>

X