יש לנו SOTA חדש בראיה ממוחשבת – MAXVIT
לא מזמן קיבלנו מגוגל את הארכיטקטורה החדשה: MaxVit שהיא שילוב בין טרנספורמר תמונות (Vit) לרשת קונבולוציה.
מודלי MaxViT
משפחת המודלים "MaxViT" היא משפחה של מודלי סיווג תמונות הבנוים גם מרשת קונבולוציה וגם מטרנספורמרים ומשיגים ביצועים טובים יותר בכל המדדים הן בין עם מבחינת ביצועי ההכללה ובין אם עבור FLOPs.
-
המאמר לא רק מציג ביצועים יוצאי דופן על ImageNet הוא עושה זאת ללא אימון מקדים על דאטהסטים ענקיים.
-
ומורכבות המודל לינאריץ בגודל בהתמונה (עיצוב אטנשן מיוחד).
בלוק אטנשן
עיצוב האטנשן מכיל בתוכו גם יחידות הלומודת קשרים מקומיים וגם יחידות הלומדות קשרים מרחבים כללים.
החלק הכי טוב הוא שהוא "כמעט" רשת קונבולציה אז אפשר להשתמש בו לכל ארכיטקטורת זיהוי אובייקטים, סגמנטציה סמנטית וכו'
גם מעניין:"שימוש בMBConv לפני האטנשן מציע יתרון נוסף: ניתן להתיחס לקונבולוציות העומק (DepthwiseConv) כPositionak Encoding מה שהופך את המודל לחסר Positional Encoding מפורש.
אם לא נקבל מאמר SOTA חדש כבר היום, אז לשנת 2022 – זה מודל הראיה הממחשבת החזק ביותר שיש לנו.