סיכום מאמר: Segment Anything

ים פלג, 10/04/2023

קטגוריה: כללי

הדגמה: https://segment-anything.com/demo
בלוג: https://ai.facebook.com/…/segment-anything-foundation…/
מאמר: https://ai.facebook.com/…/publications/segment-anything/
קוד: https://github.com/facebookresearch/segment-anything
דאטהסט: SA-1B , 11 million image, 1 billion masks https://ai.facebook.com/datasets/segment-anything/

כבר תקופה ארוכה שאני חושב לעצמי "למה אין עדיין מודל Few-Shot לתמונות?"..

מסתבר שאני לא היחיד שחשב על זה: בדיוק באותו האופן שמודלי השפה הגדולים העלימו לחלוטין חלק גדול מהבעיות הפתוחות בעיבוד השפה הטבעית: מגיעה תורה של הראיה הממוחשבת.

דעתי: אני חושב שהראיה ההמוחשבת הולכת לאותו המקום אליו הגיע תחום עיבוד בשפה הטבעית: מודלי בסיס גדולים שניתן להפעיל במשימות חדשות על ידי מספר דוגמאות מתוייגות זעיר.

בין מודל זה הוא "ה-GPT-3" של התחום ובין אם לא: זה רק עניין של זמן.

———-

ראיה ממוחשבת – הסוף קרוב.

מטא מציגים את פרוייקט Segment Anything: מודל ענק לראיה ממוחשבת, המודל מאומן על כל משימות הראיה הממוחשבת במקביל כשהדאטהסט הוא הגדול ביותר והאיכותי ביותר שאי פעם נאסף.

דאטהסט הראיה הממוחשת הגדול בעולם: מיליארד עצמים שונים ב11 מיליון תמונות – משוחרר גם הוא לשימוש הציבור.

———-

מולטי מודאליות

הסוד הוא מולטי-מודאליות: המודל מאומן במקביל גם על התמונה, טקסט המתאר אובייקט בתמונה, מפת סגמנטציה המצביעה על האובייקט בתמונה וBounding Box ה"מצביע" באופן כללי על האובייקט בתמונה.

כל אלו מאפשרים למודל להכליל אל העולם האמיתי גם בהפעלה לא מדוייקת: ניתן "לצבוע בערך" עם העכבר את האובייקט ולהוסיף טקסט "חולצה אדומה" והמודל בעצמו יצביע מיד באופן חד רק על החולצה האדומה.

כלומר: המודל אומן כך שניתן להפעילו במציאות ללא אימון מחדש גם על מחלקות חדשות שמעולם לא אומן עליהן מראש גם בתמונות וגם בוידאו.

כמו שמודלי השפה עושים בטקסט.

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

Deep Learning

סיכום מאמר: Segment Anything

ראיה ממוחשבת – הסוף קרוב.

מולטי מודאליות

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

איך בונים את ה-AI Hacker האולטימטיבי? ראיון בלעדי עם עופרי זיו מחברת Tenzai

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next