כתבות עם התגית GAN

סיכום תחרות זו עלה כחלק מפוסט של ים פלג.

קבוצת MelANOVA:
על התחרות:
מלנומה – סרטן שרוב גידולו מתחילים בעור.
דיאגנוזה למלנומה כוללת בין היתר התבוננות בנקודות חן ושומות.
הבעיה ברורה: אנחנו מקבלים תמונות של שומות -> צריכים להחזיר: "כן סרטני" / "לא סרטני".
התחרות רצה שנה אחרי שנה כבר כמה שנים ברציפות.
את התחרות פתחנו במקום הראשון.
הגשה של ספי ונתי מהרצת האלגוריתם שפיתחו לתחרות של שנה שעברה.
אף אחד מאיתנו לא חשב שהמצב ימשיך כך לאורך זמן, ישבנו וחשבנו על אסטרטגיה מנצחת להמשך התחרות.
אז איך מנצחים תחרויות מדע נתונים? [מסודר לפי סדר חשיבות]
  1. אסטרטגית Cross Validation טובה.
  2. ניקוי טוב של הנתונים.
  3. הנדסת פיצ'רים טובה.
  4. מציאת טריקים\"רמאויות קטנות" בדאטה או במטריקה.
  5. מודל טוב.
  6. אופטימיזציה טובה להיפרפרמטרים.
  7. שיטה טובה לאנסמבל [בדגש על סטאקינג].
  8. שיטה טובה לאוגמנטציות (גם בזמן האימון וגם בזמן ההרצה – TTA).
  9. כוח מחשוב. זה תמיד עוזר.
  10. מזל. (כן כן! מזל מאוד עוזר)

לכתבה המלאה >>

Gradient Origin Networks

Sam Bond-Taylor, Chris G. Willcocks

אמלק:

Gradient Origin Networks הן סוג חדש של רשתות שעוזרות לנו למפות את המרחב הלטנטי של דטה-סט מסויים, עם רשתות קטנות ופשוטות יותר לאימון מ-GANs ו-VAE. המאמר עושה זאת תוך כדי ניצול של התחום המגניב החדש שנקרא Implicit Representation Learning .

הקדמה:

אז כדי להבין את המשמעות של הרשתות האלה אנחנו דבר ראשון צריכים ללמוד על תחום שלם שאני כמעט ולא הכרתי אותו לפני שקראתי את המאמר: Implicit Representation. המטרה של התחום באופן כללי היא לייצג סיגנלים, כמו תמונות, מודלים תלת-מימדיים או כל סוג אחר של אותות בתור רשת נוירונים שממפה קואורדינטה במרחב של הסיגנל לערך של הסיגנל בקואוקדינטה הזאת.

מה זה אומר? קל להסביר את זה בתמונה:
נניח תמונה שהיא 32 על 32 פיקסלים ויש בתוכה את הספרה "5". המטרה היא לייצר רשת שמקבלת כל מיקום של פיקסל בתמונה ובתורה מוציאה ערך בין 0-1 לפי הערך של הפיקסל בתמונה שאנו מנסים לייצג. באופן זה, אנחנו מאמנים את הרשת כבעיית ריגרסיה פשוטה שמטרתה היא לסווג את הפיקסלים. אם ניתן לרשת בתור Input את הערכים (0,0) היא תביא לנו את הערך 0, ואם נביא לה את הערכים (7, 10) היא תביא לנו את הערך 1.

 

דרך פעולה זו טובה משתי סיבות מרכזיות:

א. זאת דרך למפות מידע (כלשהו) בהסתמך על מורכבות, ולא בהסתמך על הרזולוציה שלו. אם נרצה לשמור בפורמט PNG את אותו מספר "5" ברזולוציה פי 2 יותר גבוהה נצטרך פי 4 יותר זכרון, פה הרשת לומדת את המהות של הסיגנל ולכן יכול להכיל מידע בכל רזולוציה שנבחר לייצא.

ב. אנחנו יודעים לעשות מלא דברים עם רשתות. אנחנו יודעים לצמצם, לחקור ולהריץ אותן ביעילות על כל מיני פלטפורמות. דמיינו שלא משנה אם תפתחו משחק מחשב תלת-מימדי, תרנדרו תמונה מהאינטרנט או תפתחו מסמך וורד, מה שבעצם תורידו זאת רשת נוירונים שיודעת למפות מיקום (נקודת X,Y,Z בעולם המשחק, נקודות X,Y בתמונה או מיקום מילה במסמך) למשמעות (הפוליגון שבמיקום הזה, ערך ה-RGB או המילה עצמה).

אני לא ארחיב פה לעומק על המשמעויות הנוספות של התחום הזה ועל למה לדעתי הוא מאוד מבטיח, אבל לכל מי שרוצה להרחיב אני ממליץ לקרוא על SIREN Networks. זה מאמר שלדעתי בעתיד יחשב ממש מכונן ויש לו כמה טריקים מגניבים שעוזרים למפות את הדוגמאות בצורה יותר טובה, לדוגמא סינוס בתור אקטיבציה. לכתבה המלאה >>

השנה, בדיוק כמו שנה שעברה, קיימנו סקר מקיף אודות מגוון רחב של נושאים בקרב חברי קהילת MDLI. הסקר בא לבחון אלמנטים הנוגעים בתנאי העסקה, אתגרים יומיים, כלים נפוצים שבשימוש ועוד עבור אלו שעוסקים במקצעות הדאטה. בסקר הנוכחי השיבו 569 איש בסה"כ (לעומת 225 בשנה שעברה) אשר מייצגים בצורה נרחבת את כל הקשת הישראלית בתחום. המידע נאסף עד חודש מרץ 2019 ועדכני לנקודת זמן זו. בדו"ח הבא נציג את התוצאות הישירות שעלו מתוך הסקר ולצד זאת מספר ניתוחי עומק שביצע עומרי גולדשיין על הנתונים וזאת כדי לחשוף קשרים ורבדים עמוקים יותר בין הנתונים. השאלון נבנה משני חלקים עיקריים: חלק ראשון אישי ותעסוקתי ולצידו, חלק שני מקצועי וטכני יותר. בסקירה הזו, נציג לכם את התובנות העיקריות שעלו מהסקר ואת המסקנות לכל מי שבתעשייה זו.

אחד האלמנטים העיקריים בדו"ח הוא נושא השכר הממוצע בתחום בהתאם לניסיון בתעשייה והשכלה אקדמית. השנה הסקר כלל תשובות של כ-402 איש העוסקים בתחום במשרה מלאה – מה שמעניק תמונת מצב טובה על התחום. עומרי פיתח שני מודלים שיסייעו לכם לחזות מה אמור להיות השכר הממוצע שלכם בהם תוכלו לעשות שימוש. אחד מפרויקטי ההמשך של הסקר הוא הכנת מחשבון שכר בו יהיה ניתן להזין פרטים אודתיכם ולאחר מכן לקבל את השכר הממוצע עבור אנשים עם פרופיל זהה. מתוך הבנה כי על אף שמדובר על מספר גדול ביחס לסקרי שכר אחרים, הנתונים עדיין יכולים להיות לא מדויקים במקרים מסוימים ולכן נרצה להוסיף דוגמאות נוספות. מחשבון שכר זה יעלה בשבועות הקרובים ויאפשר גם מתן פידבק על התוצאות לשם שמירתו עדכני לאורך זמן. לכתבה המלאה >>

X