close menu

המודל הפתוח הקרוב ביותר לCHATGPT (שוב..)

הכירו את Vicuna

עוד מודל פתוח "הכי קרוב לChatGPT", המרשים ביותר כרגע.

על המודל הפתוח הקרוב ביותר לCHATGPT (שוב..)

הכירו את Vicuna

עוד מודל פתוח "הכי קרוב לChatGPT", המרשים ביותר כרגע.

חוקרים מאונ' ברקלי, CMU, סטנפורד וסאן דיאגו מציגים את Vicuna-13B, מודל צ'אט בקוד פתוח שאומן על שיחות משתמשים בChatGPT.

המודל נבדק באמצעות GPT-4. הרעיון הוא להשתמש בGPT-4 כשופט המקבל פלטי שני מודלים המתחרים ראש בראש ומחליט מי מהם המוצלח ביותר באותה המשימה. באותם המבחנים המודל הנוכחי עקף את את כל המתחרים והגיע לתוצאה של כ"90% מChatGPT" המקורי.

עלות אימון המודל Vicuna-13B היא כ$300 בלבד וקוד האימון והאינפרנס המהיר זמינים לציבור.

לא לא. תיקון: עלות האימון היא כ – $8,000,300. כשארבעה מיליון דולרים הושקעו באימון הראשוני של LLaMA על ידי פייסבוק וארבעה מיליון דולרים [1] נוספים הושקעו באימון ChatGPT לאיסוף הדאטה. ואז 300$ הושקעו באימון המודל הנוכחי.

הוא טוב? כמה הוא טוב?

ההתקדמות המהירה מודלי שפה גדולים חוללה מהפכה בתחום הצ'אט-בוטים שמפגינים היום יכולות חסרות תקדים (כפי שכולנו רואים ב-ChatGPT של OpenAI). למרות ביצועים מרשימים אלו, פרטים טכניים רבים על אימון מודלים אלו נותרו סודיים.

לצערנו, הרבה שחקנים מנסים לנצל את המצב לטובתם ולצייר עצמם כ"מנהיגי הקוד הפתוח": בימים האחרונים התפתח מירוץ חימוש בו גופים רבים מתחרים בניהם על הכתר ומשחררים מודלים "חצי אפויים" תוך כדי שהם משחררים לתקשורת הודעות בומבסטיות וחסרות בסיס.

לדוגמה: חברת Cerebras שחררה לפני כיומיים סדרת מודלים משמעותית גרועה יותר ממודלים פתוחים שזמנים כבר מלפני כשנתיים. בגרף הביצועים שלהם עצמם ניתן לראות את GPT-J, עוקף בפער לא קטן מודל הכפול ממנו בגודלו ששוחרר במסגרת אירוע זה. עובדה זו כמובן לא הפריעה למבול הכתבות שהיללו את חברת Cerebras על תרומתה הרבה לקוד הפתוח. מעולם לא ראיתי כל כך הרבה אתרי חדשות משחררים את אותה הכתבה ביחד בתזמון כל כך מושלם.

אז לאחר שמודלים רבים שוחררו, חלקם מוצלחים יותר וחלקם פחות. נשאלת השאלה, האם המודל הנוכחי טוב?

תשובה: כן.

הכותבים מציגים דוגמאות לתגובות מאלפקה מול המודל החדש. ניתן לראות שלאחר אימון המודל על גבי 70,000 שיחות מChatGPT המודל מסוגל לייצר תשובות מפורטות ומובנות במיוחד, איכותיות הרבה יותר בהשוואה לאלפקה כשבמקרים רבים איכות המודל לא נופלת מ-ChatGPT המקורי.

מדידת איכות המודל: הערכת מודלי שפה משימה לא פשוטה. עם שחרור GPT-4 הנוכחי, נראה כי יכולות מודלי השפה הגיעו לרמה מתקדמת עד כדי כך שניתן פשוט "לשאול" את GPT-4 את דעתו ובכך לייצר מדד כמותי לאיכות המודל המאומן.

פרטים מעניינים מהאימון

המודל Vicuna אומן על בסיס מודל הבסיס LLaMA באמצעות דאטהסט של כ-70,000 שיחות שנאספו מChatGPT.

כדי להבטיח איכות נתונים, הכותבים ממירים את קוד ה-HTML ל-markdown ומסננים דוגמאות לא הולמות או באיכות נמוכה. בנוסף, הכותבים מחלקים שיחות ארוכות למקטעים קטנים יותר על מנת שיכנסו לאורך הרצף המקסימלי של המודל.

זו טעות.

כמו כן, על מת למזער את עלות אימון המודל, הכותבים שילבו Gradient Checkpointing וFlash Attention על מנת להקטין את צריכת זכרון המודל הכולל.

שימושי: קוד לMonkey Patching שהופך אטנשן לFlash Attention אצלם בתוך הקוד.

לוס מתוך הקוד: הכותבים מחשבים את הלוס של המודל עם Mask כך שהמודל עצמו לומד רק מחלקי השיחות המכילות את פלט המודל ולא מכלל השיחה כולה.

גם זו טעות.

לבסוף החוקרים משתמשים בSkyPilot על מנת לאמן את המודל כולו על Spot Instances ובכך לחסוך משמעותית בעלויות האימון תוך כדי שמירת Checkpoinים לאורך האימון ושחזור האימון מחדש במכונה החדשה שהופכת לזמינה. פתרון זה מקצץ את עלויות האימון של מודל 7 מיליארד הפרמטרים מ-$500 ל$140 ואת מודל 13 מיליארד הפרמטרים מ1000$ ל300$.

לסיכום

אמנם רעיון השימוש בGPT-4 כמדד לאיכות המודל מקורי אך אני מנחש שכמו כל פלט ממודל שפה, גם הפלט מGPT-4 לצורך מדד ציון למודלי שפה אחרים יהיה רועש ויכיל "המצאות" של המודל.

ביצועי המודל המאומן מרשימים במיוחד (הטובים ביותר שראיתי). כמו כן, מלבד המרת מודל מאומן מראש לשימוש בFlash Attention – בכל שאר פרטי האימון נראה כי נעשו מספר טעויות משמעותיות.

ככל הנראה ניתן לאמן מודל זה לביצועים מרשימים אפילו הרבה יותר מהביצועים הנוכחיים.

למודל זה כנראה פוטנציאל עצום בלחיצת כפתור.

זה לא מפתיע: מודל הבסיס "למה 13B" חזק מGPT-3 ואיכות השיחות מChatGPT גבוהה במיוחד. לא מפתיע שתוצאת האימון גם היא: מודל איכותי במיוחד..

רפרנסים:

[1] – על פי עלויות GPT-3.

  • חוקרים מאונ' ברקלי, CMU, סטנפורד וסאן דיאגו מציגים את Vicuna-13B, מודל צ'אט בקוד פתוח שאומן על שיחות משתמשים בChatGPT.
  • המודל נבדק באמצעות GPT-4. הרעיון הוא להשתמש בGPT-4 כשופט המקבל פלטי שני מודלים המתחרים ראש בראש ומחליט מי מהם המוצלח ביותר באותה המשימה. באותם המבחנים המודל הנוכחי עקף את את כל המתחרים והגיע לתוצאה של כ"90% מChatGPT" המקורי.
  • עלות אימון המודל Vicuna-13B היא כ$300 בלבד וקוד האימון והאינפרנס המהיר זמינים לציבור.

לא לא. תיקון: עלות האימון היא כ – $8,000,300. כשארבעה מיליון דולרים הושקעו באימון הראשוני של LLaMA על ידי פייסבוק וארבעה מיליון דולרים [1] נוספים הושקעו באימון ChatGPT לאיסוף הדאטה. ואז 300$ הושקעו באימון המודל הנוכחי.

הוא טוב? כמה הוא טוב?

ההתקדמות המהירה מודלי שפה גדולים חוללה מהפכה בתחום הצ'אט-בוטים שמפגינים היום יכולות חסרות תקדים (כפי שכולנו רואים ב-ChatGPT של OpenAI). למרות ביצועים מרשימים אלו, פרטים טכניים רבים על אימון מודלים אלו נותרו סודיים.

לצערנו, הרבה שחקנים מנסים לנצל את המצב לטובתם ולצייר עצמם כ"מנהיגי הקוד הפתוח": בימים האחרונים התפתח מירוץ חימוש בו גופים רבים מתחרים בניהם על הכתר ומשחררים מודלים "חצי אפויים" תוך כדי שהם משחררים לתקשורת הודעות בומבסטיות וחסרות בסיס.

לדוגמה: חברת Cerebras שחררה לפני כיומיים סדרת מודלים משמעותית גרועה יותר ממודלים פתוחים שזמנים כבר מלפני כשנתיים. בגרף הביצועים שלהם עצמם ניתן לראות את GPT-J, עוקף בפער לא קטן מודל הכפול ממנו בגודלו ששוחרר במסגרת אירוע זה. עובדה זו כמובן לא הפריעה למבול הכתבות שהיללו את חברת Cerebras על תרומתה הרבה לקוד הפתוח. מעולם לא ראיתי כל כך הרבה אתרי חדשות משחררים את אותה הכתבה ביחד בתזמון כל כך מושלם.

אז לאחר שמודלים רבים שוחררו, חלקם מוצלחים יותר וחלקם פחות. נשאלת השאלה, האם המודל הנוכחי טוב?

תשובה: כן.

  • הכותבים מציגים דוגמאות לתגובות מאלפקה מול המודל החדש. ניתן לראות שלאחר אימון המודל על גבי 70,000 שיחות מChatGPT המודל מסוגל לייצר תשובות מפורטות ומובנות במיוחד, איכותיות הרבה יותר בהשוואה לאלפקה כשבמקרים רבים איכות המודל לא נופלת מ-ChatGPT המקורי.
  • מדידת איכות המודל: הערכת מודלי שפה משימה לא פשוטה. עם שחרור GPT-4 הנוכחי, נראה כי יכולות מודלי השפה הגיעו לרמה מתקדמת עד כדי כך שניתן פשוט "לשאול" את GPT-4 את דעתו ובכך לייצר מדד כמותי לאיכות המודל המאומן.

פרטים מעניינים מהאימון

המודל Vicuna אומן על בסיס מודל הבסיס LLaMA באמצעות דאטהסט של כ-70,000 שיחות שנאספו מChatGPT.

  • כדי להבטיח איכות נתונים, הכותבים ממירים את קוד ה-HTML ל-markdown ומסננים דוגמאות לא הולמות או באיכות נמוכה. בנוסף, הכותבים מחלקים שיחות ארוכות למקטעים קטנים יותר על מנת שיכנסו לאורך הרצף המקסימלי של המודל.

זו טעות.

  • כמו כן, על מת למזער את עלות אימון המודל, הכותבים שילבו Gradient Checkpointing וFlash Attention על מנת להקטין את צריכת זכרון המודל הכולל.

שימושי: קוד לMonkey Patching שהופך אטנשן לFlash Attention אצלם בתוך הקוד.

  • לוס מתוך הקוד: הכותבים מחשבים את הלוס של המודל עם Mask כך שהמודל עצמו לומד רק מחלקי השיחות המכילות את פלט המודל ולא מכלל השיחה כולה.

גם זו טעות.

  • לבסוף החוקרים משתמשים בSkyPilot על מנת לאמן את המודל כולו על Spot Instances ובכך לחסוך משמעותית בעלויות האימון תוך כדי שמירת Checkpoinים לאורך האימון ושחזור האימון מחדש במכונה החדשה שהופכת לזמינה. פתרון זה מקצץ את עלויות האימון של מודל 7 מיליארד הפרמטרים מ-$500 ל$140 ואת מודל 13 מיליארד הפרמטרים מ1000$ ל300$.

לסיכום

אמנם רעיון השימוש בGPT-4 כמדד לאיכות המודל מקורי אך אני מנחש שכמו כל פלט ממודל שפה, גם הפלט מGPT-4 לצורך מדד ציון למודלי שפה אחרים יהיה רועש ויכיל "המצאות" של המודל.

ביצועי המודל המאומן מרשימים במיוחד (הטובים ביותר שראיתי). כמו כן, מלבד המרת מודל מאומן מראש לשימוש בFlash Attention – בכל שאר פרטי האימון נראה כי נעשו מספר טעויות משמעותיות.

ככל הנראה ניתן לאמן מודל זה לביצועים מרשימים אפילו הרבה יותר מהביצועים הנוכחיים.

למודל זה כנראה פוטנציאל עצום בלחיצת כפתור.

זה לא מפתיע: מודל הבסיס "למה 13B" חזק מGPT-3 ואיכות השיחות מChatGPT גבוהה במיוחד. לא מפתיע שתוצאת האימון גם היא: מודל איכותי במיוחד..

רפרנסים:

[1] – על פי עלויות GPT-3.

עוד בנושא: