close menu

נקודת האל-חזור של מודלי השפה הגדולים

מי רוצה להריץ את למה (65 מיליארד!) על סתם מחשב נייד? שיגיד אני!

סתם, אל תגיבו "אני". יש לינק בהמשך. אנחנו לא כמו השקרנים בקבוצות האחרות.

רגע ה"Stable Diffusion"

רגע הפצת המודל הפתוח ליצירת תמונות Stable Diffusion באוגוסט האחרון נחשב כנקודת אל-חזור בתחום. מנקודה זו התחום כולו התפוצץ ומאז ועד עכשיו אנו צופים בקצב התקדמות שמעולם לא ראינו.

למה זה קורה? מה מיוחד ברגע הזה?

פשוט: הרבה יותר אנשים מתעסקים בתחום.

המודל היה כל כך פשוט וקטן שאנשים יכלו ליצור תמונות מטקסט במחשב הביתי שלהם בלי יותר מידי מאמץ.

אבל אפילו יותר חשוב: מפתחים וחוקרים פרטיים יכלו להתעסק עם המודל ולנסות לשפר אותו.

פיצוץ יצירתיות

הפיצוץ ביצירתיות כתוצאה משתחרור המודל נמשך עד רגע זה ממש. וממש לאחרונה (שבועיים, שלושה?) נראה שControlNet דחפה את איכות Stable Diffusion הפתוח הרבה מעבר לפתרונות בתשלום: Midjourney או DALL-E.

אז נכון. מידג'רני בגרסה 5 כבר זמינה לנבחרים מהקהילה וכנל גם DALL-E החדש בגרסתו המשופרת. גם הפתרונות הסגורים מתקדמים… … .. ובכל זאת קצב התקדמות הקוד הפתוח האיץ למהירות שמעולם לא ראינו. דעתי האישית: גם אם (וזה רק "אם") הפתרונות הסגורים יהיו טובים יותר מהפתוחים. בסוף זה רק עניין של זמן. קצב התקדמות הקוד הפתוח פשוט הרבה יותר מהיר כרגע. [כשאני אומר "הקוד הפתוח": האנשים מהאקדמיה שמשחררים קוד צמוד למאמרים שלהם גם הם חלק מהקוד הפתוח]

אוגוסט האחרון מרגיש שהתחיל את כל העניין הציבורי בבינה מלאכותית שChatGPT רק דחף עוד יותר מסוף נובמבר. (כן.. זה כל כך קרוב).

הפיצוץ במודלי שפה

מודלי שפה גדולים עוברים עכשיו "נקודת Stable Diffusion" משלהם ולא רחוק היום שאנשים יוכלו להריץ ChatGPT פרטי במחשב הנייד שלהם.

אנשים כבר יכולים להריץ מודלים חזקים יותר מGPT-3 על מחשב נייד. (כן. מחשב נייד. בלי GPUs על "מחשב נייד" מפלצתי. מחשב נייד רגיל.)

העולם הולך להשתגע. צחוקים.

למה

באופן מפתיע (וחשוד) מודלי שפה גדולים כמו GPT-3 משום מה צריכים להיות הרבה יותר גדולים ויקרים מאשר מודלים ליצירת תמונה על מנת לספק תוצאות טובות.

איך יכול להיות שסתם כתיבת טקסט משימה כל כך הרבה יותר קשה מיצירת כל האומנות האנושית משחר האנושות? לא ברור. [1]

מחיר אימון GPT-3 הוא 4.6 מיליון דולר. מחיר אימון למה: 4 מיליון דולר [2]. מחיר אימון FLAN-UL2 של גוגל: 27 מיליון דולר. [3]

בשל המחיר האסטרונומי המודלים הטובים ביותר אומנו ברובם על ידי ארגונים פרטיים כמו OpenAI, ונשמרו בשליטתם – נגישים רק דרך ממשקי API או ממשקי המשתמש שלהם אך מעולם לא שוחררו לציבור כך שאף אחד לא יכל להריצם על מחשבו האישי.

המודלים הללו גדולים. גם אם הייתם יכולים לשים את ידכם על GPT-3, ככל הנראה לא היתם יכולים להריץ על מכונה פרטית ללא עבודה הנדסית כבדה – המודלים האלו דורשים בדרך כלל מספר GPUs עם זכרון רב

למשל A100 שכל אחד מהם נמכר במחיר של $8,000.

כולם כל הזמן יותר טובים מGPT-3

אבל רוב המודלים "דבילים" במציאות..

בוקר טוב, להלן האמת הכואבת: אף אחד לא התקרב לGPT-3.

היו לי ויכוחים מפה ועד הודעה חדשה על הנקודה הזו עם חוקרים מכמה ארגונים שונים, כולם טוענים שבמדדים מסויימים המודלים שלהם טובים יותר מGPT-3: הלוס, הROUGE אפילו תוצאה במבחנים אמריקאים בשפה טבעית.

איכשהו, GPT-3 פשוט "מרגיש" יותר חכם. הוא "מבין" מה אתם רוצים ממנו יותר טוב.

מה אני מודד כדי לשפר את המודלים שלי? ניסיתי כבר את כל המטריקות בעולם. בסוף אני סתם מודד כמו דביל Categorical Accuracy על הargmax של הטוקנים ולוקח רק קפיצות שיפורים משמעותיות למודלים שלי ומאמן בלי Seed עם מספק חזרות כדי שיהיה לי יותר מבאס ביום יום אבל לפחות לא אשקר לעצמי.

יאללה בסדר! כולם יותר טובים מGPT-3!

במהלך השנים האחרונות שוחררו מאות מודלי שפה פתוחים, אף אחד מהם לא תפס כי אף אחד מהם לא הגיע לאיזון טוב בין:

  • קלות הפעלה על החומרה "שלי".

שלי = האדם הממוצע בבית שרוצה להריץ מודל סתם לצחוקים.

  • גדול מספיק כדי להיות "לא טמבל" – שווה ערך ל-GPT-3 מבחינת היכולות.

כן. מצטער. אנחנו רגישים מאוד לטמטום של מודלים כי הוא לא אנושי. עבור אנשים לא מהתחום: מודלים "סבבה מינוס" מתחילים מGPT-3 הראשון.

  • קוד פתוח.

קל גמיש ומינימליסטי מספיק כדי שיהיה אפשר להתעסק איתם באמת.

כל זה השתנה בשבוע שעבר עם הדלפת משקולות למה (LLaMA) מפייסבוק.

הדלפת המשקולות

המודל LLaMA הוא שם קוד לאוסף מודלי שפה בגדלים ההולכים וגדלים מ 7 מיליארד פרמטרים עד 65 מיליארד פרמטרים. המודלים אומנו על טריליוני (!!) טוקנים ומראים מעל כל צל של ספק שדאטה הוא כל מה שנדרש על מנת לאמן מודלים איכותיים יותר. כמה שיותר דאטה כמה שיותר איכותי.

המודלים אומנו באמצעות דאטהסטים פתוחים בלבד מבלי להזדקק לדאטהסטים פרטיים ובלתי נגישים. המודל בגודל 13 מיליארד הפרמטרים מתעלה על GPT-3 בגודל 175 מיליארד הפרמטרים כמעט בהכל. והמודל בגודל 65 מיליארד הפרמטרים משתווה למודלים החזקים ביותר שאי פעם אומנו (PaLM בגודל חצי טריליון פרמטרים של גוגל).

קוד "פתוח"

חשוב לציין פרט קטן, המודל לא ב-א-מ-ת שוחרר באופן "פתוח" לחלוטין. על מנת לקבל גישה למודל נדרש להסכים לכמה תנאים נוקשים בטופס אינטרנטי ואז רק לנבחרים נינתנה הגישה למודל המאומן. אותם אנשים נבחרו אישית מתוקף היותם אחראיים ובוגרים מספיק "לא לעשות שטויות "לא סבבה" עם המודל".

ואז אחד מה"אחראיים" העלה את המודל לטורנט. 

וגם הוסיף Pull request לקוד הרישמי של המודל בו הוא מציע במקום הטופס להוריד את המודל מהטורנט שכן זו היא דרך "יעילה" יותר להפיץ את משקולות המודל המאומן.

פרס סייברפאנק על שם קיאנו ריבס מוענק השנה ל..

משקולות המודל שוחררו לחופשי ולא ניתן לעצור אותן עכשיו. הן בטבע עכשיו, נהנות מהחופש! עזבו אותן בשקט!

השד יצא מהבקבוק

עזבו שטויות, אלפי האקרים בכל העולם כבר מתחילים לגרום לכולם להבין איך החיים הולכים להראות כשלכל העולם יש GPT-3 בבית.

על מנת להצטרף למסיבה, להלן קוד פתוח מומלץ:

  • הרצת המודל:

נכון לרגע זה, כבר ניתן להריץ את המודל הגדול ביותר אפילו על M2 MacBook Pro. כן 65 מיליארד פרמטרים. הרבה יותר מפלצתי מGPT-3 וחזק כמו PaLM (חצי מיליארד) על לפטופ.

קוד: https://github.com/ggerganov/llama.cpp

  • אימון המודל:

אם אתם מעוניינים לאמן, יותר ממוזמנים להשתמש בקוד שלי, איתו תוכלו לאמן כל אחד מהמודלים כשאת המודל הקטן ביותר תוכלו לאמן אפילו על 3090 בייתי. ואת המודל בגודל 13 מיליארד הפרמטרים (שעוקף את GPT-3) תוכלו לאמן בint-8 על 3090.

קוד: https://github.com/ypeleg/llama

אישית חשבתי שיעברו עוד כמה שנים עד שבאמת נוכל להריץ מודל חזק כמו GPT-3 על חומרה פשוטה אבל מסתבר שגם אני טעיתי ולא הערכתי נכון עד התחום מתקדם מהר.

בתמונה: למה 65 מיליארד – רץ על לפטופ. (מהירות אמיתית)

רפרנסים:

[1] – דעתי האישית: כי לא אימנו את מודלי השפה הקטנים על מספיק דאטה. לא צריך מודלי שפה כל כך גדולים. צריך יותר דאטה. רואים את זה ב-ב-י-ר-ו-ר בגרפים שבמאמר LLaMA. אימון כל המודלים נעצר באמצע, הם בUnderfitting כבד. אין כרגע אף סימן להאטה בשיפור הביצועים לאורך האימון.

[2] – בגוגל קלאוד A100 עולה כ$3.93 לשעה.. כפול 2048 מעבדים במקביל.. כפול שלושה שבועות.. -> עלות אימון המודל כארבעה מיליון דולר.

[3] – בגוגל קלאוד TPU v4 עולה כ$3.22 לשעה.. כפול 1200 שעות.. כפול 6144 מעבדים במקביל.. (סשן אימון ראשון) + 336 שעות.. כפול 3072 מעבדים במקביל.. -> עלות אימון PaLM (גוגל) כ27 מיליון דולר.

 

עוד בנושא: