שוחרר מודל INSTRUCT PIX2PIX לשימוש חופשי!

ים פלג, 13/02/2023

קטגוריה: כללי

אמ;לק: ערכו תמונות על פי הוראות טקסט בלבד.

דוגמאות: "החלף את החמניות לורדים", "הוסף זיקוקים בשמיים"..

מודל: https://huggingface.co/timbrooks/instruct-pix2pix
מאמר: https://arxiv.org/abs/2211.09800
קוד מלא: https://github.com/timothybrooks/instruct-pix2pix

על המאמר:

המאמר עצמו שוחרר כבר לפני כמה חודשים אך מודל תומך HuggingFace שוחרר רק לפני כמה שעות

במאמר זה הכותבים מציעים שיטה לעריכת תמונות מהוראות טקסט בשפה חופשית: בהינתן תמונת קלט והוראה כתובה שעל המודל לבצע, המודל מבצע את ההוראה ועורך את התמונה על פי הטקסט.

על מנת לאמן את המודל, הכותבים אספו נתונים על ידי יצירת זוגות תמונות עם Stable Diffusion כשבין שתי התמונות הבדלים קטנים. הם עשו זאת על ידי שימוש מאסיבי בGPT-3 לצורך הכנסת "שינוים קטנים" לטקסטים אותם העבירו לStable Diffusion.

לדוגמה:

תמונה ראשונה: "מגדל אייפל בלילה"

תמונה שניה: "מגדל אייפל בלילה כשיש זיקוקים בשמיים"

וכך הרשת אומנה מקצה לקצה על התמונות והוראות הטקסט ומכיוון שהמודל עצמו למד "רק את ההבדלים" הוא מכליל מצוין גם לתמונות שאינן נוצרו על ידי Stable DIffusion – אלו המגיעות מהעולם האמיתי.

איך נוצרה "אותה התמונה" משני הטקסטים? על מנת שהמודל ייצר את אותה התמונה רק עם הבדלים קטנים עבור שני הטקסטים, הכותבים השתמשו בPrompt-to-Prompt על שיטה זו אתם יכולים לקרוא כאן: https://arxiv.org/abs/2208.01626.

המודל עורך תמונות במהירות – תוך שניות ותוצאות העריכה משכנעות ומגוונות מאד.

לדעתי מאמר זה מציג כלי שימושי במיוחד. והוא מעניין הרבה מעבר ל"עוד טריק מגניב עם Stable Diffusion". עריכת תמונות זריזה באמצעות טקסט היא יכולת שימושית במיוחד כמעט לכל מי שאי פעם מוצא עצמו עורך תמונות. עכשיו יכולת זו נגישה לכולנו! תהנו!

הפוסט נכתב על ידי

ים פלג

עוד בנושא:

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

Deep Learning

שוחרר מודל INSTRUCT PIX2PIX לשימוש חופשי!

Agentic AI at Scale: ראיון בלעדי עם בנג'מין מייר מחברת NiCE (Cognigy)

איך בונים את ה-AI Hacker האולטימטיבי? ראיון בלעדי עם עופרי זיו מחברת Tenzai

סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next