close menu

מאמר: Multimodal Chain-of-Thought Reasoning in Language Models

מאמר: https://arxiv.org/pdf/2302.00923.pdf

קוד: https://github.com/amazon-science/mm-cot

אמ;לק: שיפור לChain-Of-Thought גורם לשיפור ענקי בביצועים – השיפור נמדד כמותית: המודל פחות "מחרטט" לאורך המשפט.

קליקבייט חבל על הזמן מגיע אלינו מהמאמר החדש של אמאזון, בו הם עוקפים את GPT-3.5 (גודל: 175 מיליארד פרמטרים) עם מודל בגודל מיליארד פרמטרים.

הם באמת עוקפים את GPT-3.5, רק שהמודל שלהם מולטי-מודאלי ורואה גם תמונות. מה שכמובן לא הפריע בכלל למאמר להתפרסם כ"עוקפים את GPT-3.5".

המאמר:

מאמר חדש מאמאזון התפרסם בימים האחרונים מכיוון שעקף את תוצאות GPT-3.5 באמצעות מודל קטנטן (יחסית).

אין סיבה להתלהב יותר מידי, לא מדובר במודל שפה רגיל – המודל הוא מודל שאלות ותשובות על תמונות (שזה מגניב בפני עצמו).

הטריק:

הטריק העיקרי במאמר הוא שיפור לChain Of Thought Prompting הגורם למודל להמציא פחות עובדות בהסברים שלפני התשובה. ולכן מוביל את התשובה להיות איכותית הרבה יותר.

הרעיון בChain Of Thought Prompting: התגלה כי יש משפטים ספציפיים שגורמים למודלי שפה "להתחרפן". למשל המשפט המפורסם "Let's think step by step" גורם למודל "להוציא" כל מה שהוא רק יודע על הבעיה. או המשפט "Let's think from first principles" גורם למודל לעבור לאורך זמן את כל רצף האירועים שהוא מכיר ורלוונטי עד עכשיו ברגע זה. אז מסתבר שאם קודם נותנים למודל להוציא את כל המידע שהוא מכיר. ואז שואלים את המודל "ולכן התשובה היא:" מתקבלת תשובה איכותית הרבה יותר. השיטה Chain Of Thought Prompting בונה אפילו עוד יותר על הטריק ונותנת למודל לייצר הסברים עוד בזמן האימון (עליהם גם יתאמן). כך המודל לומד תמיד קודם לכתוב כל מה שהוא יודע על הבעיה ורק לאחר מכן לענות עליה. וכך תמיד מתקבל שיפור משמעותי בביצועים בזמן הפעלת המודל.

עוד מעניין במאמר:

המאמר עצמו מעניין במיוחד שכן הוא בין ביחידים שנכנס לעומק ומבצע מחקר כמותי לגבי "כמות החרטוטים" שמודלי שפה ממציאים:

  • כמה חרטוטים נוצרים ביחס לגודל המודל?
  • כמה חרטוטים נוצרים ביחס לאיכות האימון?
  • באיזה פרומפטים אפשר להשתמש כדי למזער את כמות החרטוטים?
  • הם גם דנים בבעיות שגורמים חרטוטים אלו ומבצעים השוואה מדויקת במיוחד להבדלים בהמשך המשפט
  • הם מראים ששילוב "ראש נוסף" המקבל מידע מתמונה משפר מאוד את ביצועי המודל וממזער את כמות החרטוטים משמעותית.

אפשר גם לאמר שזה עובד בטקסט: אפשר להסתכל על מודלי מקודד->מפענח (T5) כמודלי שפה עם "ראש נוסף" שמקודד חלק ספציפי בטקסט ומחלץ ממנו פיצ'רים. מודלים אלו ידועים כחזקים יותר מספרית ממודלי שפה קאזלים (כמו GPT).

 

עוד בנושא: