close menu

GPT-4

ג'י. פי. טי. 4.

בזמן שתמונת שני עיגולים – "הפרמטרים של GPT-4" מתפשטת מהר יותר מוירוס הקורונה..

ו"איך לעשות כסף עם ChatGPT" הופך לעסק המוביל והרווחי בעולם..

פתאום OpenAI הגיחו משום מקום ופשוט עשו את זה.

הם שחררו את GPT-4.

ה-GPT-4 – עם גזיליון פרמטרים עמוסים ב A-G-I!

.פרטים טכניים

המודל מלווה במאמר מפורט במיוחד ומלא בתובנות על כל תהליך המחקר והפיתוח של המודל.

סיכמתי לכם את כל הפרטים שנחשפו במאמר ברשימה הבאה:

ועכשיו, נעבור לכל המידע שאנו יודעים על המודל חוץ מהמאמר:

מולטי-מודאליות

המודל מולטי-מודאלי: יכול לקבל תמונה וגם טקסט ויכול למשל לענות לשאלות על גבי תוכן התמונה.

הוא מרשים מאוד. אי אפשר לקחת את זה מהם.

המודל מסוגל לדוגמה לענות על שאלות על סמך מאמרים אקדמים כשהוא מקבל אותם כת-מ-ו-נ-ה בלבד. [התשובה כטקסט]

בעסקי המודלים אנחנו קוראים לזה "רמז ענק לאיך שאימנו את המודל".

כמו כן במהלך ההדגמה אתמול, המודל אף יצר דף אינטרנט (אפילו עם Javascript עובד) מבוסס על ציור גרוע עם עט של ממשק משתמש מבוקש!

בעסקי המודלים אנחנו קוראים לזה..

כפי שכולנו יודעים כיום ממודלי ראיה ממוחשבת, מודלים מולטי-מודאלים טובים משמעותית ממודלים חד מודאליים, אימון גם על טקסט וגם על תמונה משפר מאוד את ביצועי המודל מכיוון שיש מידע בעל ערך הן בטקסט והן בתמונה. אימון על שניהם משפר את שניהם [גם בנפרד].

איך הוא על טקסט?

אחרי ששיחקתי עם המודל כל הלילה, התשובות פחות או יותר זהות עם ChatGPT בשימוש יום יומי. פשוט כי ChatGPT כבר כל כך טוב.

ברצינות רגע, ברוב המקרים: איך אפשר בכלל לענות "יותר טוב" ממה שChatGPT כבר עונה?

אבל!

ויש אבל גדול!

ככל שהמשימה נעשית קשה יותר ויותר, ההבדלים בין המודלים מתבהרים:

  • המודל החדש: GPT-4 יכול לעבור כמעט כל מבחן סטנדרטי רשמי של ממשלת ארה"ב. עריכת דין, רפואה, ראיית חשבון.. אפילו להתקבל לסטנפורד!

  • הוא גם אומן במספר שפות (ללא עברית) ומראה ביצועים יפים מאוד בכל אחת מהן.

בעברית הוא משמעותית יותר טוב מChatGPT. אבל עדיין לא מושלם.

  • במדדים אקדמים סטנדרטיים, המודל מנצח את כולם בהכל. מתעלה על אלוף העולם הנוכחי FLAN-PaLM בכל מדד.

כנות: כן אבל אנחנו כבר יודעים שבGPT-3 ה"מדידה" של המדדים היתה.. "מעניי.. חדשנית! היא היתה חדשנית!

בנוסף..

יש מדד אחד מיוחד שתפס את תשומת הלב של רבים

המדד: Hindsight Neglect – מבחן ספציפי בו מודלים גדולים יותר: גרועים יותר. כולם מלבד GPT-4. שמקבל בו 100%. (!!)

במדד זה, לפעמים המודל מתבקש לשכוח עובדה ידועה, למשל "נגדיר את פי להיות -4. [כמו שגם ככה מהנדסים עושים בכל מקרה] ואז מתבקש המודל לפתור שאלות מתמטיות עם פי החדש. מסתבר, שככל שמודלים הולכים וגדלים הם נוטים לקבל ציון גרוע יותר במבחן כזה.

איך הם עשו את זה? אני מנחש שהם פשוט יצרו נתונים סינתטיים מותאים במיוחד כך שהמודל יבין טוב יותר את סוגי הבעיות האלה.

הוראות מיוחדות לשינוי "אישיות" המודל

נכון ChatGPT חופר?

ובכן, המודל הזה אומן במיוחד כך ש"האישיות" שלו תהיה ניתנת לשליטה, אפשר לאמר לו מראש לענות באופן ספציפי יותר באמצעות "פקודות מערכת" – אותן הפקודות ששולטות במודל מאחורי הקלעים והוכנסו לAPI של ChatGPT.

וזה מוביל אותנו ל..

קונספירציה אושרה: GPT-4 == סידני!

אושר: בינג היה GPT-4 כל הזמן. קונספירציה אושרה.

אימון על טקסטים ארוכים

המודל תומך בעד 32,000 טוקנים שהם בסביבות 50 עמודים בשפה אנושית.

לדעתי, אורך הקלט הוא אחד ההיבטים הקריטיים ביותר של כל התחום: אם הייתה לכם גישה למודל באורך עצום, היתם יכולים פשוט "להדביק" ספר שלם בפרומפט או אפילו מסד נתונים שלם ולשאול אותו שאלות.

איך הם עשו את זה?

בניגוד למה שהרבה מאמינים, טרנספורמרים דווקא עובדים ממש סבבה אם מאמנים אותם על רצפים ארוכים. אני עושה את זה כל יום.

אז בהתחשב בעובדה של-GPT-3 יש את אותה ארכיטקטורה כמו ל-GPT-2 מלבד שאין לו את אותה ארכיטקטורה ובמקום זאת הוא Sparse Transformer..

שגם שודרג לאטנשן רלטיבי בשלב מסוים..

..אנו יכולים להניח שהוא יכול להתמודד עם טקסטים ארוכים מצוין. הם כנראה פשוט אימנו על טקסטים ארוכים בלי לעשות יותר מידי שינויים.

מניסיון, אני יכול לומר לכם שאימון על ספר שלם או באופן כללי על טקסט ארוך מאוד משפר באופן דרמטי את המודל גם בטקסטים הקצרים כי הוא יכול להבין תלויות ארוכות יותר שמיוצגות רק בספרים מלאים.

אז אני מניח שהם כנראה פשוט אימנו את המודל גם על מספר רב של טקסטים ארוכים.

איך זה ש-GPT-4 יודע כל כך הרבה?

אמנם אנחנו לא יודעים הרבה על נתוני האימון שלו, אבל יש כמה עובדות על האימון שאנחנו דווקא כן יודעים.

לא מהמאמר.

קודם כל, אנו יודעים שהם הוסיפו כמה "דוגמאות שיחה סינתטיות" לדאטהסט (על פי תיעוד ChatGPT) – בני אדם שמדמים את שני צידי השיחה ומראים למודל כיצד שיחה נכונה צריכה להתקיים.

בנוסף, אנו יודעים ממאמרי עבר שלOpenAI יש מאגר גדול של "בקשות" מאנשים אמיתיים ושבקשות אלו שונות מהותית מהדאטהסטים האקדמים הפתוחים (כמו FLAN).

יש לנו דוגמאות לכאלה בקשות במאגר הזה: https://github.com/…/tree/main/automatic-eval-samples

כמו כן, אנו יודעים שאנשים רבים בעלי ידע ספציפי בתחומים רחבים הועסקו על ידי OpenAI בתפקידי QA למודל עצמו. כימאים ומתמטיקאים למשל היו עובדים בשיתוף פעולה הדוק עם המודל כדי ללמד אותו כאשר הוא טעה. צוותים אלה של מומחי תחום ככל הנראה "חישלו" את המודל בתחומי העניין שלהם.

אני מנחש שהתחומים הספציפיים בהם המודל עבר "השגחה" מסוג זה דומים במידה מסוימת לתחומים בהם המודל עובר את מבחני הרישוי הסטנדרטיים.

המודל החדש הרבה יותר טוב עם עובדות

הוא מחרטט "לינקים" וטקסטים יחודיים אחרים משמעותית פחות מGPT-3.

גם ל-GPT-4, כמו קודמיו, יש נטייה "לחרטט" או לייצר תוכן לא נכון, תוכן זה עלול להזיק כי בני האדם מסתמכים לפעמים יתר על המידה על מודלים מסוג זה. נושא זה הופך ליותר ויותר רלוונטי ככל שמודלים הופכים להיות יותר אנושיים ומשתלבים בחיי היום יום של אנשים. כדי למדוד את חומרת בעיה זו בGPT-4, החוקרים בנו סט הערכות אוטומטיות והערכות אנושיות המבוססות על נתונים מהעולם האמיתי. המודל עבר אופטימיזציה על מנת להפחית חרטוטים אלו בין היתר גם על ידי שימוש בנתונים שנאספו ממודלים קודמים כמו ChatGPT.

אוקי. אבל איך הם באמת עשו את זה?

מודלים נוטים "לחרטט" בעיקר בתחומים שהם לא מבינים מספיק טוב ולכן לדעתי, הם פשוט אימנו את המודל זמן רב יותר על נתונים מדויקים יותר. וברגע שהם נתקלו בכמה "חירטוטים" הם פשוט הוסיפו את הנתונים הנכונים שהם רוצים שהמודל ידע לאימון.

עוד מעניין: לפי OpenAI רוב ה"ידע" של המודל מגיע מאימון הPretraining ולא מהRLHF. הRLHF רק מלמד את המודל למלא הוראות בשפה אנושית ולא את הידע הנדרש הנוסף. לטענתם, אימון יתר עם RLHF אפילו פוגע בביצועי המודל.

מאשר. רואה אותו הדבר באימונים שלי.

עוד ניחוש: טוקנים מיוחדים

אני חושד ש-OpenAI השתמשו בגישה חדשה: הוספת טוקנים מיוחדים לטקסטים המקיפים חלקים מעניינים בטקסט. למשל טקסטים ייחודיים שאסור לטעות בהם כמו קישורים, שמות או תאריכים. טוקנים אלו אלו לא רק עוזרים למודל בהכללה אלא גם מספקים אינדיקציה במהלך הרצת המודל ונותנים אפשרות לשנות פרמטרים באמצע יצירת הטקסט.

אין לי מידע נוסף על נקודה זו, אני רק יודע שזה באמת עוזר לביצועים מהניסיון שלי ושהם השתמשו בטוקנים מיוחדים בChatGPT.

ממש קל למצוא את החלקים האלה אוטומטית. חפשו: salient spans.

כוח עיבוד

מספר ה-GPUs בו השתמשו באימון GPT-4 לא ידוע, אך כמה הערכות מצביעות על כך שמספר זה יכול להיות יותר מ-15,000.

במאי 2020, מיקרוסופט הודיעה שבנתה קלאסטר עם 10,000 GPUs עבור OpenAI, על פי ההערכות זו המכונה עליה אומן GPT-3 (מקור: https://news.microsoft.com/source/features/ai/ openai-azure-supercomputer/).

עם שחרורו של GPT-3.5 בסוף 2022 ו-ChatGPT, המבוסס על GPT-3.5, בנובמבר 2022, סביר להניח שמספר ה-GPU גדל מאז.

לפי מורגן סטנלי, ההערכה הייתה ש-GPT-4 סיים את האימונים באוגוסט האחרון.

מה שמתיישב במדויק עם התאריך אותו פרסמה אתמול OpenAI לסיום אימון GPT-4.

מורגן סטנלי גם העריכו ש-GPT-5 מתאמן ברגעים אלו ממש על 25,000 GPUs, כאשר רוב ה-GPUs הללו שימשו גם עבור GPT-4.

(מקור: https://www.reddit.com/r/MachineLearning/comments/ tdytxf/d_gpt5_trained_on_25000_gpus/)

חיזוי הלוס לפני האימון

חלק מעניין במאמר הוא היכולת של OpenAI לחזות את הלוס של המודל על סמך כוח החישוב המושקע במודל. לוס של מודלי ענק כמו GPT-4 הוא המדד העיקרי במדידת מודלים אלו ובהנתן שאימון מודל מסוג זה עלותו מיליוני דולרים, כדאי לדעת מראש האם המודל יצא "טוב".

על ידי פיתוח תשתית אימונים ושיטות אופטימיזציה סקיילאביליות לאימוני מודלים, החוקרים יכלו להעריך במדויק את הלוס הסופי של המודל ואת היכולות העתידיות של המודל על סמך תוצאות אימון מודלים קטנים. במקרה של GPT-4, הצוות הצליח לחזות בהצלחה את הלוס הסופי של המודל ואת שיעור התוצאה של המודל בדאטהסט HumanEval.

עוד מעניין: בביטוי נוסחת החישוב לתחזית הלוס יש רכיב קבוע שלא ניתן לצמצם. את הלוס מנסים רק "לקרב" לקבוע זה עד כמה שאפשר. אנשים באינטרנט כבר מיהרו לקרוא לרכיב זה "אינטיליגנציה בלתי ניתנת לצמצום" ושמודל שיגיע ללוס זה הוא "AGI".

דגשים במאמר

עוד נושא מעניין שחשוב לשים אליו לב: החלקים אותם המאמר כן בחר להדגיש.

  • תשתית אימון במרכז. אימון מודלים בסדרי גודל כאלה על כמות עצומה של דאטה משימה לא קלה בכלל. המאמר מדגיש כמה פעמים את התשתיות (וגם בין היחידים שבכלל מדברים על הנושא במאמר אקדמי).

  • כמות האנשים שמתעסקים עם דאטה. במאמר שלושה עמודי קרדיטים המפרטים לגבי כל אחד מהכותבים אחד אחד במה תרם. קל לראות שרובם המוחלט של האנשים התעסקו עם הדאטה. שימו לב גם לחלוקת התפקידים, היא מתארת יפה את כל השלבים שעברו על מנת לנקות את הדאטה. צוותים שלמים שהתעסקו בLeak של הדאטה לולידציה. דאטה איכותי הוא "הסוד".

  • עשרות אנשים על "אופטימיזציה לתהליך האימון" ו"אימון RLHF" (למרות שהוא כבר קיים כמה שנים). אפשר רק לנחש כמה "טריקים" הכניסו אותם האנשים למודל על מנת שיגיע לתוצאות כמו שאנו רואים.

איך זה שהם היחידים שיכולים לעשות את זה?!

אשמח לשאול אתכם שאלה, האם ניסיתם פעם איזה מודל פתוח בממשק של Huggingface שהרשים אתכם?

גם אני לא.

האמת: אם תנסו להשתמש ב-huggingface trainer כדי לאמן מודל GPT (למשל GPT-2), זה פשוט לא יעבוד. הם יוצאים "בסדר".. בערך.. וזהו. הסיבה לכך היא שנדרשת אופטימיזציה אדירה לתהליך אימון המודל על מנת שהמודל יגיע לתוצאה מרשימה באמת. בלי קשר לנתונים עליהם הוא מאומן או גודל המודל.

בתמונה: לGPT-5 יהיו גזיליון + 1 פרמטרים!

עוד בנושא: