close menu

סיכום מאמר: Word-As-Image for Semantic Typography

סיכום מאמר ממש (ממש) מגניב!

אמ;לק: יצירת תמונות ש"אפשר לקרוא".

נסו בעצמכם: https://huggingface.co/…/SemanticTypography/Word-As-Image

איכשהו, המאמר הכי מגניב השנה (שגם נכתב על ידי אנשים מהקבוצה!), עבר מתחת לרדאר!

צריך לתקן את זה.

Word-As-Image for Semantic Typography

אונ' תל אביב, רייכמן, גולדסמית' (לונדון).

סיכום:

במשפט אחד: יצירת תמונה "שאפשר לקרוא".

התמונה המצורפת מדברת בעד עצמה..

קלט:

  1. תמונה של טקסט.
  2. "מה לצייר?" (טקסט נוסף)

פלט:

  1. ה"ציור" בתוך הטקסט (כשעדיין אפשר לקרוא את המילה הכתובה)

איך זה עובד?

אז אתם בטח חושבים לעצמכם:

"רעיון מגניב! אבל זה לא בעיה! בטח אפשר פשוט לאמן את Stable Diffusion לעשות את זה!"

שיהיה לכם בהצלחה עם זה.

זו ממש כן בעיה.

רק מלהסתכל על התמונות במאמר אפשר לראות שזו בעיה קשה חבל על הזמן.

מודלים ליצירת תמונה מטקסט "מהקופסה" לא ישמרו על משמעות האותיות סתם ככה, אימון מודלים מוכנים מראש למשימה כזו יהרוס את הידע השמור בהם וככל הנראה "פשוט יהפוך" את האותיות לציור [בלי קשר לכמה קריא הטקסט].

מודלים ליצירת תמונות רגישים בזמן האימון ולא שומרים גם על שום דבר אחר מהידע שיש בתוכם כשמאמנים למשימה חדשה. בגלל זה כל האימונים על "תמונות שלכם" תמיד מסובכים ועם כל מיני טריקים מסורבלים. דוגמאות: לוסים מיוחדים (DreamBooth), טוקנים חדשים (Textual Inversion), אדפטרים (LoRA), רשת נוספת (ControlNet) (Hypernet).

פרטים טכנים:

לא אכנס ליותר מידי פרטים קטנים כי המאמר עצמו מפוצץ בהמון טריקים מתוחכמים. ניכר שנעשתה הרבה עבודה וככל הנראה גם לאורך זמן רב.

אני ממליץ לכל מי שסובל מבעיות "הרס מידע באימון Fine-Tuning של מודלים מאומנים מראש" לקרוא אותו לעומק.

ממש בקצרה, המודלים במאמר לומדים "לעקם" יצוג וקטורי של האותיות. כדי לגרום להם לעשות זאת יש במאמר כל מיני טריקים מתוחכמים שכוללים בין יתר:

  • לוסים מיוחדים השומרים על סטייל האותיות ועל קריאות הטקסט.
  • עבודה עם עקומות בזייה ויצוגים וקטורים של האותיות הכתובות.
  • סדרת מודלים (חלקם קפואים) הבנויים אחד על השני כדי "להזיז" את "יצוג עקמומיות האותיות" לכיוון "יצוג הציור המבוקש" תוך כדי שמירה על המבנה הכללי של האותיות.
עוד בנושא: