הכתבה בשיתוף Toloka
קשה שלא להבחין בגידול המשמעותי של צוותי המחקר בתחום ה-ML בשנים האחרונות. צוותים אלו עושים שימוש רחב בדאטה שיש בארגון כדי לפתח מודלים שייסיעו בצמיחה ובגדילה של אותו ארגון. אלמנט מאוד משמעותי בעבודה עם דאטה הוא הצורך לתייג אותו ולהכין אותו כשורה לאימון המודל. כפועל יוצא מכך, תהליך ארגון ותיוג הדאטה בארגונים השונים מקבל חשיבות רבה בתקופה האחרונה. חברות מבינות את הצורך בלהעניק מקום של כבוד לשלב הזה בכל תהליך אימון המודלים – מה שלא תמיד היה נהוג בעבר.
כדי ללמוד על הנושא הזה יותר ולהבין כיצד חברות ניגשות לסוגיה הזו, החלטנו לקיים ראיון עם אולגה מגורסקאיה (Olga Megorskaya), המנכ"לית של חברת Toloka AI – אחת מחברות תיוג הדאטה הצומחות בתחום. בראיון גם נכיר גם את הגישה של Toloka לכל תהליך תיוג הדאטה ואפילו נראה איך העשייה שלהם שזורה בלא מעט פיתוחים, גם בתחום ה-ML, ואיך הם מצליחים לעבוד צמוד גם עם התעשייה וגם עם האקדמיה.
אז עבור מי שלא מכיר, Toloka בעצם פועלת בשני מישורים: הראשון, הוא פיתוח מערכת שלמה המאפשרת לבצע את כל פעולות התיוג והכנת הדאטה במקום אחד. Toloka פיתחה מערכת שמאפשרת תיוג בסקייל גדול מאוד ועם כלים נוספים להערכת איכות הדאטה.
המישור השני, והמעניין לא פחות, הוא הרשת הענפה של מתייגים הפרושים בכל העולם שיודעים לתת מענה לצרכי תיוג שונים ומגוונים. Toloka מציינת כי יש ברשותה מילוני מתייגים רשומים, כאשר כ-200 אלף מתוכם פעילים ברמה החודשית. השילוב בין מערכת תיוג משומנת היטב וגישה למאות אלפי אנשים בכל רגע נתון, מאפשר להם לקחת פרויקטים בקנה מידה גדל אבל גם לקבל תמונה מאוד מעניינת על השוק בארץ ובעולם.