שוחרר מודל INSTRUCT PIX2PIX לשימוש חופשי!
אמ;לק: ערכו תמונות על פי הוראות טקסט בלבד.
דוגמאות: "החלף את החמניות לורדים", "הוסף זיקוקים בשמיים"..
על המאמר:
המאמר עצמו שוחרר כבר לפני כמה חודשים אך מודל תומך HuggingFace שוחרר רק לפני כמה שעות
במאמר זה הכותבים מציעים שיטה לעריכת תמונות מהוראות טקסט בשפה חופשית: בהינתן תמונת קלט והוראה כתובה שעל המודל לבצע, המודל מבצע את ההוראה ועורך את התמונה על פי הטקסט.
על מנת לאמן את המודל, הכותבים אספו נתונים על ידי יצירת זוגות תמונות עם Stable Diffusion כשבין שתי התמונות הבדלים קטנים. הם עשו זאת על ידי שימוש מאסיבי בGPT-3 לצורך הכנסת "שינוים קטנים" לטקסטים אותם העבירו לStable Diffusion.
לדוגמה:
תמונה ראשונה: "מגדל אייפל בלילה"
תמונה שניה: "מגדל אייפל בלילה כשיש זיקוקים בשמיים"
וכך הרשת אומנה מקצה לקצה על התמונות והוראות הטקסט ומכיוון שהמודל עצמו למד "רק את ההבדלים" הוא מכליל מצוין גם לתמונות שאינן נוצרו על ידי Stable DIffusion – אלו המגיעות מהעולם האמיתי.
איך נוצרה "אותה התמונה" משני הטקסטים? על מנת שהמודל ייצר את אותה התמונה רק עם הבדלים קטנים עבור שני הטקסטים, הכותבים השתמשו בPrompt-to-Prompt על שיטה זו אתם יכולים לקרוא כאן: https://arxiv.org/abs/2208.01626.
המודל עורך תמונות במהירות – תוך שניות ותוצאות העריכה משכנעות ומגוונות מאד.
לדעתי מאמר זה מציג כלי שימושי במיוחד. והוא מעניין הרבה מעבר ל"עוד טריק מגניב עם Stable Diffusion". עריכת תמונות זריזה באמצעות טקסט היא יכולת שימושית במיוחד כמעט לכל מי שאי פעם מוצא עצמו עורך תמונות. עכשיו יכולת זו נגישה לכולנו! תהנו!