close menu

סיכום מאמר: Segment Anything

כבר תקופה ארוכה שאני חושב לעצמי "למה אין עדיין מודל Few-Shot לתמונות?"..

מסתבר שאני לא היחיד שחשב על זה: בדיוק באותו האופן שמודלי השפה הגדולים העלימו לחלוטין חלק גדול מהבעיות הפתוחות בעיבוד השפה הטבעית: מגיעה תורה של הראיה הממוחשבת.

דעתי: אני חושב שהראיה ההמוחשבת הולכת לאותו המקום אליו הגיע תחום עיבוד בשפה הטבעית: מודלי בסיס גדולים שניתן להפעיל במשימות חדשות על ידי מספר דוגמאות מתוייגות זעיר.

בין מודל זה הוא "ה-GPT-3" של התחום ובין אם לא: זה רק עניין של זמן.

———-

ראיה ממוחשבת – הסוף קרוב.

מטא מציגים את פרוייקט Segment Anything: מודל ענק לראיה ממוחשבת, המודל מאומן על כל משימות הראיה הממוחשבת במקביל כשהדאטהסט הוא הגדול ביותר והאיכותי ביותר שאי פעם נאסף.

דאטהסט הראיה הממוחשת הגדול בעולם: מיליארד עצמים שונים ב11 מיליון תמונות – משוחרר גם הוא לשימוש הציבור.

———-

מולטי מודאליות

הסוד הוא מולטי-מודאליות: המודל מאומן במקביל גם על התמונה, טקסט המתאר אובייקט בתמונה, מפת סגמנטציה המצביעה על האובייקט בתמונה וBounding Box ה"מצביע" באופן כללי על האובייקט בתמונה.

כל אלו מאפשרים למודל להכליל אל העולם האמיתי גם בהפעלה לא מדוייקת: ניתן "לצבוע בערך" עם העכבר את האובייקט ולהוסיף טקסט "חולצה אדומה" והמודל בעצמו יצביע מיד באופן חד רק על החולצה האדומה.

כלומר: המודל אומן כך שניתן להפעילו במציאות ללא אימון מחדש גם על מחלקות חדשות שמעולם לא אומן עליהן מראש גם בתמונות וגם בוידאו.

כמו שמודלי השפה עושים בטקסט.

עוד בנושא: