כתבות עם התגית Zero Shot Learning

סקירה זו היא חלק מפינה קבועה בה אני סוקר מאמרים חשובים בתחום ה-ML/DL, וכותב גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמתי, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.


לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום בחרתי לסקירה את המאמר שנקרא:

A causal view of compositional zero-shot recognition

פינת הסוקר:  

      המלצת קריאה ממייק: מומלץ בחום לבעלי ידע בתחומים רלוונטיים.

      בהירות כתיבה:  גבוהה.

      רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת מאמר: נחוץ רקע טוב בהסתברות והבנה בסיסית של עקרונות הסיבתיות.

    יישומים פרקטיים אפשריים: אפשר להשתמש ברעיון זה בשביל לבנות מודל ליצירת דוגמאות (נגיד, תמונות) המכילות שילובים של אובייקטים שלא מופיעים בסט האימון.


פרטי מאמר:

      לינק למאמר: זמין להורדה.

      לינק לקוד: .זמין כאן

      פורסם בתאריך: 01.11.2020, בארקיב.

      הוצג בכנס: NeurIPSi 2020.


תחומי מאמר:

  • למידת zero-shot ZS.
  • הכללה הרכבתית (compositional generalization)- יכולת לזהות שילובים חדשים (שלא נראו ביחד קודם) של מרכיבים (פיצ'רים) ידועים.

כלים מתמטיים, מושגים וסימונים:

  • הסקה סיבתית: גרף סיבתיות, פיצ'רים מערבבים (confounding), התערבות (intervention) לפיצ'רים.
  • למידת ייצוגי דאטה מופרדים (disentangled representations).
  • קריטריון מידע של הילברט-שמידט (HSIC): כלי שערוך של מידת אי תלות בין שני מדגמים של משתנים אקראיים.
  • שערוך פריקות של ייצוגי דאטה לא מתויג (PIDA).

תמצית מאמר:

לכתבה המלאה >>

הבלוג פוסט נכתב במקור כפוסט על ידי יואב רמון בקבוצת Machine & Deep learning Israel

טוב, אז כמו שכתבתי אתמול ההרשמה השנה ל-ICASSP (International Conference on Acoustics, Speech, and Signal Processing) פתוחה וזאת הזדמנות מצויינת לחוות את הכנס הזה. רציתי לתת פה טעימה קטנה עם מאמר שבדיוק פורסם בכנס. זה מאמר שמאוד הרשים אותי והוא בתחום שיוצא לי לקרוא עליו הרבה לאחרונה, Text To Speech, אז החלטתי לכתוב עליו פה.

אז בשביל להתחיל להסביר את המאמר נסביר דבר ראשון איך מערכת TTS קלאסית עובדת:


1. נאסוף דאטא של דוגמאות רבות מאותו דובר (שעה+, לעתים אפילו יותר) שצריכות להיות מאוד נקיות ובאיכות מאוד גבוהה. את הדוגמאות האלה נצטרך לתמלל.


2. נאמן משהו שנקרא Vocoder (תוכנתי, לא פיזי) – המטרה של ה-Vocoder היא לייצר מייצוג קומפקטי של האודיו (בדרך כלל Mel scaled magnitude of STFT) בחזרה את הסיגנל הנקי. אחת הסיבות שעושים את האימון הזה בנפרד בדרך כלל היא שכדי לאמן Vocoder לא צריך לתמלל את הדוגמאות, ולכן אפשר לאמן אותו פשוט על כמויות גדולות של דוגמאות איכותיות. כמובן, אימון כזה הוא גם יותר ארוך ולכן ייקח יותר זמן. ישנן דוגמאות רבות ל-Vocoders כאלה, אבל המפורסם מכולם הוא Wavenet אם כי כבר מזמן הוא לא SOTA משום בחינה. זה קצת כמו ה-ResNet של עולם הקול.
לכתבה המלאה >>

X