כתבות בנושא כללי

הכתבה בשיתוף Toloka

קשה שלא להבחין בגידול המשמעותי של צוותי המחקר בתחום ה-ML בשנים האחרונות. צוותים אלו עושים שימוש רחב בדאטה שיש בארגון כדי לפתח מודלים שייסיעו בצמיחה ובגדילה של אותו ארגון. אלמנט מאוד משמעותי בעבודה עם דאטה הוא הצורך לתייג אותו ולהכין אותו כשורה לאימון המודל. כפועל יוצא מכך, תהליך ארגון ותיוג הדאטה בארגונים השונים מקבל חשיבות רבה בתקופה האחרונה. חברות מבינות את הצורך בלהעניק מקום של כבוד לשלב הזה בכל תהליך אימון המודלים – מה שלא תמיד היה נהוג בעבר.

כדי ללמוד על הנושא הזה יותר ולהבין כיצד חברות ניגשות לסוגיה הזו, החלטנו לקיים ראיון עם אולגה מגורסקאיה (Olga Megorskaya), המנכ"לית של חברת Toloka AI – אחת מחברות תיוג הדאטה הצומחות בתחום. בראיון גם נכיר גם את הגישה של Toloka לכל תהליך תיוג הדאטה ואפילו נראה איך העשייה שלהם שזורה בלא מעט פיתוחים, גם בתחום ה-ML, ואיך הם מצליחים לעבוד צמוד גם עם התעשייה וגם עם האקדמיה.

אז עבור מי שלא מכיר, Toloka בעצם פועלת בשני מישורים: הראשון, הוא פיתוח מערכת שלמה המאפשרת לבצע את כל פעולות התיוג והכנת הדאטה במקום אחד. Toloka פיתחה מערכת שמאפשרת תיוג בסקייל גדול מאוד ועם כלים נוספים להערכת איכות הדאטה. 

המישור השני, והמעניין לא פחות, הוא הרשת הענפה של מתייגים הפרושים בכל העולם שיודעים לתת מענה לצרכי תיוג שונים ומגוונים. Toloka מציינת כי יש ברשותה מילוני מתייגים רשומים, כאשר כ-200 אלף מתוכם פעילים ברמה החודשית. השילוב בין מערכת תיוג משומנת היטב וגישה למאות אלפי אנשים בכל רגע נתון, מאפשר להם לקחת פרויקטים בקנה מידה גדל אבל גם לקבל תמונה מאוד מעניינת על השוק בארץ ובעולם.

גישות שונות לתיוג

לכתבה המלאה >>

הכתבה בשיתוף Y-Data

כמידי שנה אנחנו עושים שיתוף פעולה רחב עם Y-DATA, השנה נעסוק בכתבה בשינויים בקורס ונחשוף את מסלול ה-B2B החדש שפונה למעסיקים שרוצים להעניק כישורים נוספים לעובדים שלהם. כבכל שנה, גם הפעם אנחנו מעניקים לכם קוד הנחה ייעודי שיספק לכם 1,000 שקל הנחה ברישום הקורס – הקוד הוא: MDLI22. ניתן להשיג מידע נוסף ולהירשם דרך הלינק הזה (ההרשמה מסתיימת ב-31.7.2022).

עבור אלו שלא מכירים את Y-DATA, נפרט קצת על התוכנית ומה הייחודיות שלה. Y-DATA היא תוכנית לימודים מעמיקה בת 8 חודשים שמקנה למשתתפיה ידע וכישורים מקצועיים בתחום מדעי נתונים המאפשרים להם להשתלב בשוק ההייטק הישראלי. התוכנית פונה לשלוש אוכלוסיות עיקריות: – מהנדסי תוכנה או אנליסטים עם רקע טוב בתכנות, בוגרי תארים מתקדמים באקדמיה שהחליטו לעבור לתעשיה ובוגרים טריים של תואר ראשון בהנדסה או מדעי מחשב.

התוכנית פועלת מ2018 והכשירה כבר מעל 200 בוגרים, בינהם מספר רב של מקרי הצלחה וY-DATA מדווחים על כך ש-90 אחוז מהבוגרים שלהם משתלבים בחברות מובילות בתעשייה. אם אתם רוצים מידע נוסף על הקורס שלהם, אני ממליץ לכם לבדוק את כתבות העומק שהכנו עליהם בשלוש שנים האחרונות (כאן, כאן וכאן).

מסלול B2B עבור עובדים בחברות לכתבה המלאה >>

בשבוע האחרון הרשת געשה ורעשה סביב פרסומו של בלייק למויין, מהנדס תוכנה בגוגל, אשר טען כי מודל השפה המתקדם של החברה (LaMDA) פיתח רגשות ומודעות עצמית. הפרסום הוביל להשעייתו מהחברה, ולסקנדל לא קטן.

למויין היה אמון על בדיקת תקינותו של בוט מבוסס LaMDA. הדבר נעשה באמצעות שיח חופשי, שכלל שאלות מאתגרות במיוחד במטרה להבין את גבולות קצה ההבנה שלו. הבדיקות הללו מבקשות לוודא שגוגל אינה משחררת לחופשי מודל שפה שמהדהד שיח לא אתי, גם במקרה שזה מופיע במאגרי המידע שלו. באופן זה אפשר לוודא שהוא לא אנטישמי, מיזוגני או כל דבר אחר שיכול להעסיק שעות נוספות את מחלקת ה-PR של גוגל (כפי שקרה בעבר למיקרוסופט, לצערה הרב).

לכתבה המלאה >>

חלק א' – מבוא

אחד הנושאים הבולטים בתחום למידה עמוקה בשנה האחרונה הוא Multiple Modalities – שילוב דאטה ממספר דומיינים באותו מודל, כמו למשל מודל המסוגל לעבד יחד וידאו ואודיו, או לחילופין מודל היודע להפוך תמונה לטקסט ולהיפך. כמובן שתחום זה אינו חדש במחקר, אך לאחרונה יש בו חידושים טכנולוגיים פורצי דרך יחד עם תוצאות מדהימות במגוון רחב של משימות. מעבר לעובדה שיש יותר ויותר אפליקציות המשלבות דאטה ממספר דומיינים, מה שמגביר את ההתעניינות בתחום הן מבחינה מחקרית והן מבחינת פיתוח, נראה שיש לפופולריות הזו סיבה מהותית יותר. מודל המשלב בתוכו יכולת לעבד ולשלב דאטה מדומיינים שונים מצליח "להבין" יותר לעומק את המבנה הדאטה שהוא מקבל ועקב כך הביצועים שלו טובים יותר. מחקרים חדשים המתבססים על שילוב של דומיינים מראים תפיסה טבעית יותר של הקלט, מה שמאפשר למודל ללמוד בצורה יותר איכותית. בכתבה זו נסקור אחד הרעיונות המרכזיים לאימון מודלים המשלבים דאטה טקסטואלי וויזואלי. אמנם גישה זו הוצעה כבר בעבר אך היא שוכללה בצורה משמעותית בשנה האחרונה ולא מעט מאמרים עכשוויים מבוססים עליה. נעבור בקצרה על כמה עבודות מרכזיות המציעות שיטות לבניית ייצוג של דאטה מולטימודלי המורכב מטקסט ותמונות. לכתבה המלאה >>

מוזמנים להשתתף בתחרות של יחידת המו״פ במפא"ת (MAFAT Challenge) – תחרות למידת מכונה שעוסקת ב- WiFi Sensing, חישה על בסיס אותות WiFi!

הפוסט פורסם לראשונה בקהילה שלנו על ידי ערן דהן ומובא כאן במסגרת שיתוף פעולה שלנו עם מפא"ת. כל מי שמעוניין, מוזמן להירשם ולהתחרות (הקישור להרשמה בסוף הפוסט).

פרטים על התחרות

זו התחרות השלישית בסדרה של תחרויות שמפא"ת עורכת בסיועה של חברת ווביקס – במטרה ליצור חיבורים לא טריוויאליים בין האתגרים הטכנולוגיים-מבצעיים שמעניינים את מפא"ת לבין קהילת הדאטה-סיינס והחוקרים בארץ ובעולם. התחרויות הקודמות עסקו בניתוח של צילומי אוויר ובקלסיפיקציה של מידע מכ"מי.

התחרות פתוחה לכולם. מי שירשם לתחרות יקבל גישה לדאטה-סט ייחודי שאספנו ותייגנו – דאטה-סט שכולל סדרות זמן של RSSI – עוצמת האות המתקבלת על ידי המקלט ברשת WiFi שנוצרת בין מכשירי קצה שממוקמים במיקומים שונים בתוך ומחוץ לחדר לבין נתב שנמצא בתוך החדר – במצבים שונים של נוכחות אנשים בחדר.

לכתבה המלאה >>

אנחנו שמחים להזמין אתכם לפרק ה-11 של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.

אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSSספוטיפיאפל וגם ישירות דרך Podbeanאל תשכחו להירשם כמנויים כדי לא לפספס אף פרק שלנו.
לכתבה המלאה >>

אנחנו שמחים להזמין אתכם לפרק העשירי של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.

אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSSספוטיפיאפל וגם ישירות דרך Podbeanאל תשכחו להירשם כמנויים כדי לא לפספס אף פרק שלנו.

לכתבה המלאה >>

אני שמח להזמין אתכם לאירוע השלישי שלנו בסדרת Applied ML seminars שנעשים בשיתוף עם Applied Materials. בכל אירוע מסוג זה, ניקח נושא אחד שמעניין את הקהילה ונדבר עליו בהרחבה מכמה זוויות שונות. באירוע הזה נדבר על מקרה שמאוד נפוץ בקרב חברי הקהילה: מה עושים אם יש לנו טעויות בתיוגים, דאטה מועט או אפילו סתם דאטה לא מאוזן בצורה משמעותית. אלו בעיות שכל אחד נתקל בהם במהלך העבודה שלו ובאירוע זה יהיו לנו שלושה דוברים שידברו על האתגרים האלו בבעיות סגמנטציה (כמובן שניתן ללמוד מזה על עולמות תוכן נוספים).

האירוע יתקיים באופן וירטואלי ב-1.3 בשעה 18:00 ויכלול שלושה דוברים מחברות שונות.

ההקלטה המלאה של האירוע:

לכתבה המלאה >>

אנחנו שמחים להזמין אתכם לפרק התשיעי של ExplAInable במתכונת החדשה שלו. הפודקאסט יעסוק במגוון רחב של נושאים בתחום ה-ML ובכל פרק נסקור נושא אחד ספציפי. את הפודקאסט מגישים אורי גורן ותמיר נווה – שנינו יועצים בתחום ה-ML אשר מגיעים מרקעים מגוונים ומעניינים. אם אתם רוצים לשמוע עוד קצת עלינו ועל הפודקאסט החדש, אתם יכולים להאזין לפרק 0 שהכנו שמסביר קצת עלינו ועל מאחורי הקלעים של היוזמה הזו.

אנחנו בימים אלו מתחילים להעלות את הפרקים לכל הפלטפורמות השונות ובינתיים אתם יכולים להגיע אלינו דרך RSSספוטיפיאפל וגם ישירות דרך Podbean. אל תשכחו להירשם כמנויים כדי לא לפספס אף פרק שלנו.

לכתבה המלאה >>

האם כדאי להשתמש ב-PyTorch או ב-TensorFlow? זו אולי אחת השאלות הכי נפוצות בקרב קהילת ה-AI, והתשובה רחוקה מלהיות ברורה וחד משמעית.

כתבה זו סוקרת את שתי הספריות במגוון אספקטים, תוך שימת דגש על היתרונות והחסרונות של כל ספריה. בנוסף, הכתבה נותנת כלים למפתח המתלבט איך לבחור נכון את הספריה המתאימה עבורו.


PyTorch ו-TensorFlow הן הספריות הפופולריות ביותר היום הנוגעות ללמידה עמוקה, והשאלה איזה מהן עדיפה יותר רחוקה מלהיות פשוטה. הוויכוח על איזו ספריה היא הטובה ביותר מתקיים כמעט מרגע הולדתן, כאשר לכל ספריה יש את התומכים שלה. למעשה, שתי הספריות פותחו תוך שנים ספורות בלבד, וככל שהן משתכללות, כך הויכוח הולך ומחריף. עם זאת, הרבה מהויכוח נובע מדיס-אנפורמציה או מידע שכבר אינו רלוונטי, מה שהופך את הדיון לעיתים להיות מטעה. בעוד ש-TensorFlow נהנית ממוניטין של ספרייה שרלוונטית לתעשייה ואילו PyTorch מתאימה דווקא למחקר, טענות אלו כבר לא בהכרח מדויקות ל-2022 כפי שנראה בהמשך אלו, ואתם מוזמנים למסע משותף לעמוד יחד על ההבדלים בין שתי הספריות, והיתרונות והחסרונות של כל אחת מהן.

לכתבה המלאה >>

X