כתבות עם התגית Data Science

חלק א' – מבוא

אחד הנושאים הבולטים בתחום למידה עמוקה בשנה האחרונה הוא Multiple Modalities – שילוב דאטה ממספר דומיינים באותו מודל, כמו למשל מודל המסוגל לעבד יחד וידאו ואודיו, או לחילופין מודל היודע להפוך תמונה לטקסט ולהיפך. כמובן שתחום זה אינו חדש במחקר, אך לאחרונה יש בו חידושים טכנולוגיים פורצי דרך יחד עם תוצאות מדהימות במגוון רחב של משימות. מעבר לעובדה שיש יותר ויותר אפליקציות המשלבות דאטה ממספר דומיינים, מה שמגביר את ההתעניינות בתחום הן מבחינה מחקרית והן מבחינת פיתוח, נראה שיש לפופולריות הזו סיבה מהותית יותר. מודל המשלב בתוכו יכולת לעבד ולשלב דאטה מדומיינים שונים מצליח "להבין" יותר לעומק את המבנה הדאטה שהוא מקבל ועקב כך הביצועים שלו טובים יותר. מחקרים חדשים המתבססים על שילוב של דומיינים מראים תפיסה טבעית יותר של הקלט, מה שמאפשר למודל ללמוד בצורה יותר איכותית. בכתבה זו נסקור אחד הרעיונות המרכזיים לאימון מודלים המשלבים דאטה טקסטואלי וויזואלי. אמנם גישה זו הוצעה כבר בעבר אך היא שוכללה בצורה משמעותית בשנה האחרונה ולא מעט מאמרים עכשוויים מבוססים עליה. נעבור בקצרה על כמה עבודות מרכזיות המציעות שיטות לבניית ייצוג של דאטה מולטימודלי המורכב מטקסט ותמונות. לכתבה המלאה >>

האם כדאי להשתמש ב-PyTorch או ב-TensorFlow? זו אולי אחת השאלות הכי נפוצות בקרב קהילת ה-AI, והתשובה רחוקה מלהיות ברורה וחד משמעית.

כתבה זו סוקרת את שתי הספריות במגוון אספקטים, תוך שימת דגש על היתרונות והחסרונות של כל ספריה. בנוסף, הכתבה נותנת כלים למפתח המתלבט איך לבחור נכון את הספריה המתאימה עבורו.


PyTorch ו-TensorFlow הן הספריות הפופולריות ביותר היום הנוגעות ללמידה עמוקה, והשאלה איזה מהן עדיפה יותר רחוקה מלהיות פשוטה. הוויכוח על איזו ספריה היא הטובה ביותר מתקיים כמעט מרגע הולדתן, כאשר לכל ספריה יש את התומכים שלה. למעשה, שתי הספריות פותחו תוך שנים ספורות בלבד, וככל שהן משתכללות, כך הויכוח הולך ומחריף. עם זאת, הרבה מהויכוח נובע מדיס-אנפורמציה או מידע שכבר אינו רלוונטי, מה שהופך את הדיון לעיתים להיות מטעה. בעוד ש-TensorFlow נהנית ממוניטין של ספרייה שרלוונטית לתעשייה ואילו PyTorch מתאימה דווקא למחקר, טענות אלו כבר לא בהכרח מדויקות ל-2022 כפי שנראה בהמשך אלו, ואתם מוזמנים למסע משותף לעמוד יחד על ההבדלים בין שתי הספריות, והיתרונות והחסרונות של כל אחת מהן.

לכתבה המלאה >>

מהנתונים שאספנו עולה שפער השכר בין נשים לגברים עומד על 8%. רוב הפער נובע מכך שנשים ממלאות פחות תפקידים בכירים מגברים. חלק קטן מהפער נובע מכך שכשהן ממלאות תפקידים אלו – שכרן נמוך ממקביליהן הגברים. החדשות הטובות: מחוץ לתפקידים הבכירים, כמעט ולא קיימים פערים.

בחודשים האחרוניים פירסמתי מספר פוסטים שקשורים לסקר מדעני הנתונים ומקצועות המאשין לרנינג בישראל: דו"ח השכר, מאחורי הקלעים של מחשבון השכר (את מחשבון השכר עצמו ניתן למצוא כאן) וכן מיהו דאטה סיינטיסט – תשובה מבוססת נתונים. אחד הנושאים שנשאלתי עליו הכי הרבה היה פערי השכר המגדריים בסקר. בפוסט האחרון בסדרה ניגע סופסוף בתפוח האדמה הלוהט הזה.

לכתבה המלאה >>

Each year, the MDLI (Machine Learning & Deep Learning Israel) community asks its members to complete a survey that helps us better understand the AI and ML industry in Israel. The results of the survey were used to create a few reports – a salary analysis and a behind-the-scenes look at how our salary calculator works. This third installment will address one of the burning questions in the field: Who is a data scientist, and what does he/she do?

This is a translation of the original post in Hebrew. The original version was written by Omri Goldstein.

לכתבה המלאה >>

בפוסטים הקודמים שעסקו בסקר מדעני הנתונים ומקצועות ה-Machine Learning (ML) כתבתי בעיקר על השכר – פילוחים, תחזיות ותגליות. מי שלא קרא מוזמן לעיין בדו"ח השכר המלא  ולהתנסות במחשבון השכר ולקרוא את הפוסט שמסביר על מאחורי הקלעים של מחשבון השכר. הפעם הגיע הזמן לדבר על משהו שאינו כסף, לשם שינוי. השנה הוספנו לסקר שאלות רבות על אופי התפקידים השונים, מה שמאפשר לענות על אחת השאלות שאני נשאל הכי הרבה – מה עושה מדען נתונים (ולצורך העניין, מפתח\ת אלגוריתמים, אנליסט, וכו').

לכתבה המלאה >>

סקירה זו היא חלק מפינה קבועה בה אנו סוקרים מאמרים חשובים בתחום ה-ML/DL, וכותבים גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמנו, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.


לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום נבחר לסקירה המאמר שנקרא:

Highly accurate protein structure prediction with AlphaFold

פינת הסוקר:

המלצת קריאה מאופיר: קריאה מרתקת, במיוחד למי שמתעניין גם בביואינפורמטיקה. כמות המשאבים שהושקעו במחקר והתוצאות שלו מסחררות. מעבר לחידושים עבור הבעיה הספציפית, מוצגות טכניקות חדשות באופן כללי.

בהירות קריאה: בינונית-גבוהה.

רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת המאמר: נדרשת היכרות עם למידה עמוקה. בנוסף, מומלצת מאוד היכרות עם מושגים ביואינפורמטיים.

יישומים פרקטיים אפשריים: מדובר בכלי החזק ביותר כיום לניבוי מבנה של חלבונים, והוא צפוי לשמש רבות לקידום מחקר החלבונים בעולם, בין אם למדע בסיסי ובין אם לתחומים כמו הנדסת חלבונים. בנוגע לשימושים מסחריים – DeepMind שחררה את המודל והמשקולות, אך השימוש במשקולות אסור לשימוש מסחרי.


פרטי מאמר:

לינק למאמר: זמין כאן 

לינק לקוד: זמין להורדה 

פורסם בתאריך: 15/07/2021

הוצג בכתב העת: Nature

תחומי מאמר:

  • ניבוי מבנה תלת מימדי של חלבונים.

כלים מתמטיים, טכניקות, מושגים וסימונים:

  • רשתות נוירונים גרפיות (GNNs).
  • Attention.
  • Skip-connections.

מבוא והסבר כללי על תחום המאמר: לכתבה המלאה >>

סקירה זו היא חלק מפינה קבועה בה אנו סוקרים מאמרים חשובים בתחום ה-ML/DL, וכותבים גרסה פשוטה וברורה יותר שלהם בעברית. במידה ותרצו לקרוא את המאמרים הנוספים שסיכמנו, אתם מוזמנים לבדוק את העמוד שמרכז אותם תחת השם deepnightlearners.


לילה טוב חברים, היום אנחנו שוב בפינתנו deepnightlearners עם סקירה של מאמר בתחום הלמידה העמוקה. היום נבחר לסקירה המאמר שנקרא:

DeeperGCN: All You Need to Train Deeper GCNs


פינת הסוקר:

    המלצת קריאה מאופיר: לכל המתעניינים ברשתות נוירונים גרפיות, גם אם לא תחום העיסוק העיקרי שלהם – יתכן והמאמר יהיה שימושי גם לתחום הבעיה שלהם

    בהירות קריאה: גבוהה

    רמת היכרות עם כלים מתמטיים וטכניקות של ML/DL הנדרשים להבנת המאמר: היכרות עם מושגי יסוד של DL, המאמר כולל מיני-סקירה על GNNs

    יישומים פרקטיים אפשריים: הטכניקות המוצגות במאמר מאפשרות שיפור והעמקה של רשתות נוירונים גרפיות באופן כללי, ואינן מוגבלות לארכיטקטורה ספציפית


פרטי מאמר:

    לינק למאמר: זמין להורדה.

    לינק לקוד: זמין להורדה.

    פורסם בתאריך: 13/6/20, בארקיב.

    הוצג בכנס: גרסה מוקדמת של המאמר הוצגה בעל פה ב-ICCV2019.


תחומי מאמר:

  • רשתות נוירונים גרפיות (GNNs)

כלים מתמטיים, טכניקות, מושגים וסימונים

  • פונקציות אגרגציה (Aggregation functions)
  • קשרים שיוריים (Residual connections)
  • נורמליזציית הודעה (Message normalization)

קישורים להסברים טובים על מושגי יסוד במאמר:

מבוא והסבר כללי על תחום המאמר: לכתבה המלאה >>

כפי שסיפרנו לכם בעבר, השנה השקנו לראשונה מחשבון שכר לכל מקצועות הדאטה המבוסס על נתוני הסקר השנתי של קהילת MDLI. בפוסט הבא רצינו לחלוק איתכם את הרציונל שעומד מאחוריי פיתוח המחשבון, לספר מה מייחד אותו ואיך הוא יכול לספק ערך לחברי הקהילה.

לכתבה המלאה >>

פוסט זה נכתב על ידי עומר קורן, מנכ״ל Webiks

בחודשים האחרונים הייתי חבר בצוות שפעל מטעם מפא"ת ובחן את השימושיות של טכנולוגיות בינה מלאכותית בהתמודדות של גופים שונים בישראל עם משבר הקורונה. העבודה שלי התבססה על דאטה פתוח מהארץ ומהעולם. אני חושב שהייתה לי פרספקטיבה מעניינת על המפגש בין "הקהילה" שלנו, קהילת הדאטה-סיינס, למידת המכונה והבינה המלאכותית בישראל, לבין "המדינה" – משרד הבריאות, משרדי ממשלה ומוסדות נוספים.

מהפרספקטיבה הזו אני מרשה לעצמי לומר שאני חושב שפספסנו כאן הזדמנות אדירה להביא חדשנות פתוחה ושימושית מתוך המפגש הזה. במבחן התוצאה, אנחנו, בתור קהילה, לדעתי, נכשלנו. לא תרמנו תרומה משמעותית להתמודדות של מדינת ישראל עם משבר הקורונה.

זה לא פוסט של הלקאה עצמית. זה גם לא פוסט של ריסוס האשמות כלפי אחרים. זה פוסט של הסתכלות ביקורתית על העבר מתוך תקווה ללמוד ולהשתפר בעתיד. צעד אחד קטן של Backpropagation, אם תרצו.

נהוג לומר בימים אלו "הקורונה כאן כדי להישאר" ו"אנחנו צריכים ללמוד לחזור לשגרה בנוכחות קורונה" – וברוח זו אני חושב שעדיין לא מאוחר לתקן טעויות שעשינו. בניגוד לאחרים אני לא חושב שהבעיה היא בעיה מהותית, שמסיבה אינטרינזית כזו או אחרת דאטה-סיינס פשוט לא יכול לעזור להתמודדות עם פנדמיות. להיפך, אני חושב שהבעיה היא בעיה של התנהלות ושל דינמיקה, ואת אלו אפשר ואפילו קל, אולי, לשנות ולשפר.

אתחיל מלתאר שתי דוגמאות ל"פספוסים". שני נושאים שבהם הקהילה שלנו, לדעתי, יכלה לתרום תרומה משמעותית להתמודדות של מדינת ישראל עם המשבר. אחרי הדוגמאות לפספוסים אנסה להציע קצת הסברים.  לכתבה המלאה >>

נכתב על ידי עמית מנדלבוים, Director, Mellanox AI @ Nvidia, כפוסט בקבוצה MDLI (ממליץ להיכנס לקרוא גם את התגובות).

——————————————-

בצורה קצת יותר מפורטת. למה לעשות תואר שני, איך לעשות תואר שני, וכל הסיבות למה אתם לא עושים או רוצים לעשות תואר שני ולמה הן לא רלוונטיות. אזהרה: פוסט ארוך!

קצת רקע, ראיינתי בשנתיים וחצי האחרונות למעלה מ150 מועמדים לתפקידי דאטה סאיינטיסט. אני שומר על ראש פתוח ולכן ראיינתי כמעט כל סוג אפשרי

1. אנשים ותיקים מאוד בהיי-טק שלאחרונה נכנסו לתחום.

2. אנשים שעשו תואר ראשון (ואולי גם שני ושלישי) ואז עשו קורס של אחת המכללות למיניהן (בלי להזכיר שמות) כולל תוכניות מאוד אינטנסיביות שחלק כאן מכירים.

3. אנשים כמעט בלי רקע בתחום אבל עם רקע מתמטי\מדעי חזק מאוד.

4. אנשים שעובדים כבר כמה שנים בתחום.

5. אנשים שסיימו עכשיו תואר שני בתחום.

6. אנשים שסיימו תואר ראשון ולקחו כמה קורסים + פרויקט.

בלי להיכנס כרגע להכללות ובלי לפגוע באף אחד, ותוך הסתייגות שתמיד תמיד יש יוצאי דופן, להפתעתי (שוב, כי אני מנסה לשמור על ראש פתוח), מי שהפגינו את היכולות הטובות ביותר בראיונות היו אלו שעשו תואר שני בתחום (או לכל הפחות קרוב לתחום) עם סטייה קלה לאנשים שעשו תואר שני או שלישי אחר (למשל פיזיקה, ביולוגיה, מתמטיקה) עם רקע של הצטיינות ונכנסו לתחום לאחרונה דרך המחקר שלהם, עבודה שלהם, או עצמאית. כמובן שאלה שעשו תואר שני וכבר עובדים כמה שנים בתחום היו טובים, אבל אלה למרבה הצער נדירים ביותר.

קצת רקע נוסף שלא תחשבו שאני סתם איזה מתנשא שזורק עליכם "תעשו תואר שני" בלי שיש לכם אפשרות, אז אני התחלתי תואר שני במדעי המחשב, בגיל 30, כשהייתי עם שני ילדים, אחרי שנתיים בתעשייה ועם תואר ראשון בהנדסה (כלומר הרבה השלמות לתואר השני) ועם זה שהייתי צריך גם לעבוד במקביל לחלק מהתואר. וכן, היו אתי בתואר השני לא מעט אנשים כאלה (פחות או יותר), כולם סיימו וכולם עובדים היום בתחום.

אז נתחיל משאלת השאלות, למה בכלל לעשות תואר שני?

לכתבה המלאה >>

X