תיוג נכון: הכירו את חברת Toloka והשינוי שהיא מובילה בעולם תיוג הדאטה

הכתבה בשיתוף Toloka
קשה שלא להבחין בגידול המשמעותי של צוותי המחקר בתחום ה-ML בשנים האחרונות. צוותים אלו עושים שימוש רחב בדאטה שיש בארגון כדי לפתח מודלים שייסיעו בצמיחה ובגדילה של אותו ארגון. אלמנט מאוד משמעותי בעבודה עם דאטה הוא הצורך לתייג אותו ולהכין אותו כשורה לאימון המודל. כפועל יוצא מכך, תהליך ארגון ותיוג הדאטה בארגונים השונים מקבל חשיבות רבה בתקופה האחרונה. חברות מבינות את הצורך בלהעניק מקום של כבוד לשלב הזה בכל תהליך אימון המודלים – מה שלא תמיד היה נהוג בעבר.
כדי ללמוד על הנושא הזה יותר ולהבין כיצד חברות ניגשות לסוגיה הזו, החלטנו לקיים ראיון עם אולגה מגורסקאיה (Olga Megorskaya), המנכ"לית של חברת Toloka AI – אחת מחברות תיוג הדאטה הצומחות בתחום. בראיון גם נכיר גם את הגישה של Toloka לכל תהליך תיוג הדאטה ואפילו נראה איך העשייה שלהם שזורה בלא מעט פיתוחים, גם בתחום ה-ML, ואיך הם מצליחים לעבוד צמוד גם עם התעשייה וגם עם האקדמיה.
אז עבור מי שלא מכיר, Toloka בעצם פועלת בשני מישורים: הראשון, הוא פיתוח מערכת שלמה המאפשרת לבצע את כל פעולות התיוג והכנת הדאטה במקום אחד. Toloka פיתחה מערכת שמאפשרת תיוג בסקייל גדול מאוד ועם כלים נוספים להערכת איכות הדאטה.
המישור השני, והמעניין לא פחות, הוא הרשת הענפה של מתייגים הפרושים בכל העולם שיודעים לתת מענה לצרכי תיוג שונים ומגוונים. Toloka מציינת כי יש ברשותה מילוני מתייגים רשומים, כאשר כ-200 אלף מתוכם פעילים ברמה החודשית. השילוב בין מערכת תיוג משומנת היטב וגישה למאות אלפי אנשים בכל רגע נתון, מאפשר להם לקחת פרויקטים בקנה מידה גדל אבל גם לקבל תמונה מאוד מעניינת על השוק בארץ ובעולם.
גישות שונות לתיוג
לכן, החלטתי להתחיל את הראיון בשאלה קצת יותר כללית על האופן בו חברות ניגשות לסוגיות התיוג בכלל ואילו גישות הם רואים בשטח שחברות נוקטות. "ישנן מתודולוגיות שונות לתיוג דאטה כיום בשוק, כאשר כל אחת תלוי באופי החברה והמשימה שלה. למשל, ישנן חברות שעושות את התיוג In House, אך זהו תהליך יקר מאוד. מנגד ישנן חברות שבוחרות להשתמש ב"תיוג סינטטי", שאמור להכניס אוטומציה לתהליך ולייעל אותו, אך זה דורש כוח עיבוד יקר". מסבירה אולגה. כמו כן, אולגה ממשיכה ומציינת את הגישה שלהם ב-Toloka: "אנחנו מאמינים בגישה היברדית שמשלבת כמה גישות במקביל (תיוג אוטומטי, מיקור המונים ועוד) כדי לקבל תוצאה אופטימלית".
מה שמדהים לגלות הוא כיצד שילוב הגישות מתאפשר ומה הדרך בה Toloka פועלת בשטח. "תחשוב על זה כמו פירמידה: בשכבה הבסיסית יש לנו מספר מצומצם של מומחים שקובעים את הבנצ'מארק ולאחר מכן רשת המתייגים שלנו יודעת להיכנס לתמונה ולעשות את התיוג בסקייל. ומעל כל זה, מנצחים ה-CSAs (Crowd Solutions Architects שלנו שיודעים להעניק ליווי מתמשך לפרויקט כולו. ומידי פעם גם אנחנו נעזרים בתיוג אוטומטי שיכול לעזור בתיוג של מאגרי מידע גדולים".
אולגה אף הרחיבה והסבירה על ההבדל שלהם אל מול "חוות המתייגים" שנפוצות בדרך כלל מדינות בהן השכר נמוך וקל להשיג כוח אדם זול. "ישנן חברות שנוקטות גישה אחרת לתיוג ומעדיפות תיוג ידני במדינות בהן כוח העבודה זול. הבעיה בכך, מעבר לתנאי העבודה הירודים, היא שקשה מאוד לעשות סקייל טוב כי אין להם את הפייפלין הקבוע והמתאים לתחזק פעילות שכזו. זה בעצם הבידול של Toloka, שיכול להציע תהליך תיוג מאורגן, סקיילבלי, שקוף ועם יסודות נכונים כדי לאפשר תיוג מהיר ואיכותי".
שימוש ב-ML
כפי שציינו, לצד המתייגים האנושיים, חלק מהיתרון של Toloka הוא השימוש בתיוג אוטומטי שהוא מבוסס על טכנולוגיות שפותחו פנימית בחברה. כלומר, החברה עצמה מפתחת כלים מבוססי ML שיעזרו למתייגים שלה לבצע את העבודה שלהם בצורה קלה ונכונה יותר. אולגה אף הרחיבה כי זו לא המקרה היחיד בו הם בעצמם עושים שימוש נרחב ב-ML.
"אנחנו עושים שימוש ב-ML בכמה דרכים בתוך Toloka, אחד השימושים הנפוצים ביותר הוא מערכת המלצה ייחודית שפיתחנו שמאפשר לעשות שידוך טוב ביותר בין מתייגים ובין חברות שצריכות לתייג דאטה. אנחנו מנתחים הרבה מטאדאטה (מיקום, גיל, מגדר, ניסיון קודם, דירוג המתייג ועוד) וזאת במטרה להבין אילו מתייגים יוכלו להתאים בסבירות גבוהה למשימות תיוג ספציפיות. כלל שהמערכת שלנו גדלה ונחשפת לעוד פרויקטים, ככה היא נעשית מדויקת יותר ויותר ומאפשר לעשות התאמות בצורה מדויקת ומהירה יותר".
מבחינתי זה לא היה מובן מאליו שחברת שירותים תפתח גם טכנולוגיה מתקדמת פנימית וזה באמת הראה עד כמה בעצם Toloka קרובה ללקוחות שלהם מעצם עבודת המחקר שלה עצמה. יכולות טכנולוגיות אלה באות לידי ביטוי גם במודלים מוכנים שהם אימנו (adaptive models) אותם הם מנגישים ללקוחות ובעצם מאפשרים להם להשתמש כבר בפתרונות מוכנים עבור בעיות תיוג מוכרות (למשל ניתוח סנטימנט בטקסט או אפילו זיהוי של תוכן פוגעני ולא הולם). אותם מודלים מאומנים ומתוחזקים על ידי Toloka עצמה והחוקרים שברשותה.
תיוג נכון
כמו שאתם בוודאי מבינים, בחברת Toloka נצבר הרבה ידע לגבי תהליכי תיוג נכונים ולכן ביקשתי מאולגה כמה עצות קונקרטיות לחברות שרוצות לדעת כיצד להשתפר בתהליך זה.
"תיוג נתונים הוא חלק חשוב בתהליך הכולל של ML. ניתן להתייחס אליו כאל משימה הנדסית ומתמטית שניתן לפתור באמצעים טכנולוגיים. כמו כן, אוטומציה היא היבט חשוב של תיוג נתונים, וניתן להשיגה באמצעות שילוב של מאמצים אנושיים ומכונות". בעצם אולגה אומרת, שחברות צריכות להבין שכדאי להן לגבש צורת עבודה היברדית שמשלבת תיוג של בני אדם, אך לצד זאת לדעת לשלב מודלים ייעודיים שיכולו להאיץ את תהליך התיוג ובעצם ליצור סינרגיה בין השני הצדדים.
אולגה אף הרחיבה את התייחסות שלה לנושא הזה ודברה באופן רחב יותר על התחום כולו: "היכולת לעשות סקייל לתיוג היא כמעט תמיד בעיה מרכזית עבור חברות מסיבה זו או אחרת. קיימים מעט פתרונות גמישים באמת ברמה תעשייתית. חברות רבות רוצות שתיוג איכותי יבוצע מהר אך לא תמיד יודעות למי לפנות. אחת הטקטיקות העיקריות להילחם בכך היא באמצעות חינוך, כלומר, לתת לאנשים לדעת מה האפשרויות שלהם.
העברת המסר על חלופות חדשות יותר לתיוג נתונים היא חיונית: לא רק עבורנו ב-Toloka כצד בעניין, אלא גם למען הצעדת כל תשתית ה-ML קדימה בקצב בריא ברחבי העולם".
חיבור לקהילה
חשוב להדגיש כי החיבור של Toloka לאימון מודלים לא עוצר רק במוצר, אלא הם באמת חלק מהקהילה הבינלאומית בתחום. הם פועלים רבות כדי לקדם את עולם ה-ML בעולם ואפילו הופתעתי לגלות שהם גם מציגים את העשייה שלהם בכנסים המובילים בעולם.
"אנחנו באמת ובתמים מאמינים כי הדרך לחזק את תחום ה-ML זה באמצעות תמיכה בחינוך ובמחקר. אנחנו עובדים מאוד צמוד עם האונבריסטאות המובילות בעולם (University of London, Carnegie Mellon, PennState, TU Delft, University of Freiburg, and University of Geneva) במטרה לסייע להם בהכשרת מדעני נותנים תוך מתן דגש רב על חידושים בתחום ה-ML בכללי ובתחום ה-crowd science בפרט" הסבירה אולגה. כמו כן אולגה ציינה כי הם בעצם עומלים רבות על מחקר אקדמי בכל הקשור לבניית מאגרי נתונים ופיצוח הדרך הנכונה לעבוד עם אותם מאגרים.
אולגה אף הדגישה כי הם הציגו את העבודות שלהם בכמה מהכנסים האקדמים החשובים (NeurIPS, HCOMP, ICML, ו-NAACL). עבודות אלו היו בתחומים שונים כאשר עיקר הפוקוס שלהם היה על מיקור המונים וכיצד זה משתלב בתהליך תיוג הדאטה (למשל: crowdsourced pairwise comparisons, benchmark audio transcription datasets, ו-computational quality control in Python).
החזון לישראל
רבים מכם בוודאי לא יודעים, אך ל-Toloka ישנם משרדים בישראל ואולגה אף היא נמצאת כאן לא מעט בשגרה. הם מייחסים חשיבות רבה לפעילות שלהם כאן ומאוד רוצים להעמיק את הקשר עם הקהילה המקומית.
"כפי שציינתי קודם, ישראל היא המיקום האסטרטגי העיקרי שלנו כרגע. אנחנו רוצים להפוך לחלק מבוסס מקהילת ה-ML/AI הישראלית, וזו הסיבה שאנחנו פותחים סניף בתל אביב. אנו מאמינים שישראל היא המקום להיות בו מעל כל המדינות האחרות – היא הפכה בצדק למרכז טכנולוגי מרכזי. אנו תוקעים יתד בישראל ובימים אלה מארגנים שורה של פעילויות. למעשה, אולי כבר שמעת על או השתתפת במפגש של Y-Data המוקדש למאגרי נתונים עבור ML שכללה דוברים מטעמנו. בנוסף, לצד חברות מוכרות כמו Datagen ו-Gong, חלקנו תובנות לגבי Data-centric AI" הסבירה אולגה.
כמו כן, ציינה אולגה כי יש להם לא מעט תוכניות לעתיד שכבר בפעולה: "כל חודש אנחנו מארגנים מיטאפים עם שותפים לכל אורך שרשרת ה-ML – מפגשים לא פורמליים להחלפת רעיונות ומומחיות, כל אחד יכול להירשם ולהצטרף. המטרה הסופית שלנו היא לשלב את טולוקה לתוך האקוסיסטם הישראלי המקומי, כך שיחד נוכל לשרת את כל אלו שצריכים לתייג נתונים ברחבי העולם. באופן טבעי, אנחנו מאוד נרגשים ושמחים להצטרף לאחד מהמקומות המבטיחים והמתקדמים בעולם בתחום הבינה המלאכותית ונשמח לתרום את חלקנו".
לסיכום, נראה ש-Toloka מאוד מחוברת לעולם הבעיה אותו פותר המוצר שלהם וניכר כי הם מקדישים מאמצים רבים כדי לשפר אותו בכמה חזיתות. אני מאוד הופתעתי לטובה מרמת הקשר שלהם לאקדמיה והיכולת שלהם לפרסם מאמרים בתחום העיסוק שלהם – מאוד לא טריוואלי לחברות מוצר מסוג זה. החברה כעת מעלה הילוך בשוק הישראלי ואף רוצה להיות חלק מהקהילה בארץ ולתרום את הידע שצברה במרוצת השנים.