יש לנו SOTA חדש בראיה ממוחשבת – MAXVIT

ים פלג, 12/02/2023

קטגוריה: כללי

מאמר: https://arxiv.org/abs/2204.01697

לא מזמן קיבלנו מגוגל את הארכיטקטורה החדשה: MaxVit שהיא שילוב בין טרנספורמר תמונות (Vit) לרשת קונבולוציה.

מודלי MaxViT

משפחת המודלים "MaxViT" היא משפחה של מודלי סיווג תמונות הבנוים גם מרשת קונבולוציה וגם מטרנספורמרים ומשיגים ביצועים טובים יותר בכל המדדים הן בין עם מבחינת ביצועי ההכללה ובין אם עבור FLOPs.

המאמר לא רק מציג ביצועים יוצאי דופן על ImageNet הוא עושה זאת ללא אימון מקדים על דאטהסטים ענקיים.
ומורכבות המודל לינאריץ בגודל בהתמונה (עיצוב אטנשן מיוחד).

בלוק אטנשן

עיצוב האטנשן מכיל בתוכו גם יחידות הלומודת קשרים מקומיים וגם יחידות הלומדות קשרים מרחבים כללים.

החלק הכי טוב הוא שהוא "כמעט" רשת קונבולציה אז אפשר להשתמש בו לכל ארכיטקטורת זיהוי אובייקטים, סגמנטציה סמנטית וכו'

גם מעניין:"שימוש בMBConv לפני האטנשן מציע יתרון נוסף: ניתן להתיחס לקונבולוציות העומק (DepthwiseConv) כPositionak Encoding מה שהופך את המודל לחסר Positional Encoding מפורש.

אם לא נקבל מאמר SOTA חדש כבר היום, אז לשנת 2022 – זה מודל הראיה הממחשבת החזק ביותר שיש לנו.

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

Deep Learning

יש לנו SOTA חדש בראיה ממוחשבת – MAXVIT

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

איך בונים את ה-AI Hacker האולטימטיבי? ראיון בלעדי עם עופרי זיו מחברת Tenzai

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next