close menu

סיכום כל המאמרים שיצאו מאנטרופיק מאז הקמתה

 גוגל השקיעה 300 מיליון דולר באנטרופיק.

במי? מה?

מקימי החברה הם בין הכותבים הראשיים של ה-מאמר של GPT-3.

והרבה אחרים מOpenAI. חפשו את השמות.

אנטרופיק (Anthropic) היא חברת סטארטאפ שהוקמה על ידי עריקי OpenAI, הסיפור לא רק נשמע דרמטי – על פי מספר מקורות, מקים החברה דריו אמודאי..

לשעבר Vice President of Research בOpenAI

הקים את החברה מכיוון שאינו היה מרוצה מהכיוון אליו OpenAI צועדת.
אליו הצטרפו עוד כמה מכותבי מאמר GPT-3 בניהם גם תום בראון שהוביל את ההנדסה של הפרוייקט כולו.
עברו שנתיים. איפה הם היו עד עכשיו?
אישית את אנטרופיק גיליתי לפני כשנה משום שחלקם פעילים ובתקשורת עם ElutherAI ואפילו העבירו כמה הרצאות בזום והשתתפו בפגישות וידאו על נושאים הקשורים למחקר המתמשך בחברה, מחקר זה מעניין במיוחד שכן הם בין היחידים העוסקים בהנדסה לאחור של מה טרנספורמרים לומדים.
עד השבועיים האחרונים לא לגמרי היה ברור מה מטרת החברה אך בשבועיים האחרונים החלו להחשף שיחות עם הצ'אטבוט הפותח על ידי החברה – Claude: מתחרה ישיר לChatGPT.

מי הם,מה הם עושים? ומי מממן אותם?
יש כאן עניין..
חלק מהמחקר שלהם..
מעניין..
מאד.. מעניין..
.
.
סגנון הכתיבה של המאמרים שלהם קשה להבנה מכיוון שהם כותבים בפורמט לא סטנדרטי, השפה קצת גרנדיוזית ובכללי הם נוטים להימנע משיטות סטנדרטיות כמו השוואה מול שיטות אחרות או ציטוט וקרדיט למאמרים אחרים.
החברה עצמה מזוהה מאד עם תנועת האלטרואיזם האפקטיבי (Effective Altruism), השפה בה כתובים מאמרי החברה [והנושאים שבחלקם הם עוסקים] יכולה לגרום לאנשים מתוך התחום להרים גבה.
פורומים בנושאי אלטרואיזם אפקטיבי בהקשרי AI לפעמים מתדרדרים לדיונים קיצוניים על AGI וקץ האנושות. לא ארחיב יותר על אלטרואיזם אפקטיבי לכשעצמו ואני מודע לכך שדיונים אלו אינם מיצגים את כלל המשתייכים לתחום.
גיוס כספים
השתייכות החברה לתנועה זו ככל הנראה השפיעה רבות על סבב ההשקעה הקודם של החברה בו Alameda Research הובילה עם השקעה של חצי מיליארד דולרים בחברה (ובנוסף להשקעת גוגל – שוויה מוערך בכחמישה מיליארד דולרים כרגע). השקעה זו הושפעה ככל הנראה מהשתייכות מנכל Alameda Research לשעבר סאם בנקמן פריד לתנועת האלטרואיזם האפקטיבי איתה הוא מזוהה מאד.
כחלק מהחקירה המתנהלת כרגע נגד בורסת הקריפטו השניה בגדולה בעולם FTX וחברת ההשקעות הנלווית אליה Alameda Research בשל העלמותם של שמונה מיליארד דולרים מכספי לקוחותיהם, עלו טענות כי סכומי כסף אדירים מכספי הלקוחות הושקעו במיזמים המזוהים עם תנועת האלטרואיזם האפקטיבי, בניהם חברת אנטרופיק. בשלב זה עדיין לא ברור מה יעלה בגורל השליטה בחברה.

אך אולי נקבל פרטים נוספים באירוע אותו מקיימת גוגל בעוד ארבעה ימים..

על העניין המופחת במאמרי החברה
הבחירה להימנע מביקורת עמיתים והסנטימנט הכללי של מחקרי החברה המכיל גם דיונים "פחות מדעיים" ככל הנראה תרמו לאופן בו אנשים תופסים את העבודה המחקרית הנעשתה בחברה וכן הגבילה את תפוצתה. עם כל זאת, אני חושב שהעבודה שלהם בנושאים מסויימים (בדגש על RLHF) איכותית מאד ומספקת דרך טובה לשיפור מודלי שפה גדולים תוך הפחתת עלות הזמן האנושי הנדרש.

את שניים ממאמרי החברה סיכמתי בעבר במטרה לעלותם לקבוצה [בתוספת שחזור ניסויים משל עצמי]. אך ספציפית את אותו הפוסט מערכת סינון הספאם האוטומטי של פייסבוק חסמה ולא ניתן לשתפו אתכם. זאת גם לאחר מספר שינויים ועריכות, ניסיתי.

אז לאחר כל הפרשיות ודרמה, בואו נקבל את השחקנית החדשה בתחום בסיכום כל מאמרי החברה במקום אחד:

רגע לפני: רקע כללי על בעית הAlignment

אמ;לק: כשמודלים מחזירים לנו את "מה שהם חושבים שרצינו" אבל זה לא "בדיוק בדיוק מה שרצינו".

דוגמה פשוטה: באימון מודל שפה לפתירת תרגילי חשבון פשוטים – המודל לומד גם לטעות "בכוונה" מכיוון שאנשים "גם טועים" ומטרת המודל היא "לעשות כמו שאנשים עושים". אנחנו מניחים הרבה מאד דברים אנושיים כשאנחנו מדברים כמו למשל שאנו מצפים לתשובה הנכונה. בעיה זו נקראת בעית הAlignment ותחום מחקר זה הוא בין תחומי המחקר העיקריים באטנרופיק.
אין ברירה, חיביים להזכיר: בהתחשב בסנטימט חלק מהמאמרים, חשוב באותה הנשימה להזכיר כי ישנם הרואים בתחום מחקר זה דמיון רב לדרך בה מוצגת בינה מלאכותית בסרטים ובתרבות: סכנה ממשית.
במובן זה או אחר, תחום עניין זה מככב במשך שנים רבות במדיה הרחבה ומיוצג במקרים רבים כמסוכן במיוחד, עד כדי אסון המתרחש כשבני האדם מאבדים שליטה על הבינה המלאכותית.
השפה בה כתובים המאמרים בהחלט רומזת לכך בחלקה ובכל זאת ללא קשר לעבודות עצמן ערך מדעי רב וחלקים מהן איכותיים במיוחד.
סקירה זו עוסקת אך ורק בצד המדעי והטכני של מאמרים אלו ומנסה להשאיר את עניין הדעה והפרשנות לגבי עתיד הבינה המלאכותית והסכנות בה בצד לצורך הדיון.
שיטות כיום להתמודדות עם בעיות Alignment
הדרך המקובלת כיום לאימון מודלי שפה גדולים כוללת שני שלבים עיקריים, תחילה המודל מאומן להשלמת טקסט באופן כללי. ולאחר מכן המודל "מיושר" על מנת לפתור את המטרה לשמה אומן המודל מלכתחילה.
לדוגמה: נניח ונרצה לאמן מודל שאלות ותשובות על מנת לענות על שאלות בנושא תכנות (למשל על ידי אימון שאלות ותשובות מStack Overflow) נאמן ראשית את המודל בכל פעם על שאלה וכל התשובות הניתנו לאותה השאלה ולאחר מכן "ניישר" את המודל לכיוון השאלה עם הניקוד הגבוה ביותר באתר (הכי הרבה Upvotes).

אבל יםםםםםםםם, למה שלא פשוט נאמן מראש רק על השאלות עם הכי הרבה Upvotes וזהו? זה יחסוך שלב קשה באימון! | תשובה: כי זה לא עובד טוב. ניסיתי. המודל לומד משמעותית איכותי יותר מאימון כל התשובות לכל שאלה. [אינטואיציה על כך בסקירת אחד המאמרים בהמשך]

על מנת "ליישר" המודל לתשובה הנכונה ביותר נשתמש באחת משתי שיטות עיקריות:
  1. יצירת מספר תשובות מהמודל ואימון רגיל של השאלה והתשובה "הכי נכונה" לדעתנו. (נקרא במאמר OpenAI כFeedME)
2. שימוש בלמידת חיזוק (R-einforcement L-earning from H-uman F-eedback – RLHF) – ניצור כמה תשובות עם המודל ונאמן את המודל באמצעות אלגוריתם RL מוכר לכיוון התשובה אותה אנו מעדיפים ביותר (הנפוץ ביותר: PPO – בעיקר בשל היותו סקיילאבילי מאד).
  • באמצעות שיטה מס' 1 אומן GPT-3 גרסה 002 (הנקרא בסלנג "InstructGPT") ובאמצעות שיטה מס' (ככל הנראה, לפי המידע המדויק ביותר שיש בידינו כרגע) אומנו GPT-3 גרסה 003 וגם ChatGPT.

מהניסיון שלי: לי אישית יש ניסיון עם שתי השיטות, השיטה הראשונה עובדת מצוין ויציבה מאד. השיטה השניה קשה יותר לייצוב (ככל הנראה חסרים "פרטים" ו"טריקים" במאמרים ששוחררו העוזרים לאימון) אך בסופו של דבר מובילה את המודל להתנהגות שונה במיוחד מהשיטה הראשונה.

אימון מודל עזר
בנוסף: על מנת להקל על בני האדם המסכנים עליהם מוטלת משימת תיוג הדאטה עבור אימון המודל, נאמן בדרך כלל "מודל קטן" שתפקידו יהיה ללמוד "מה בני האדם היו אומרים?" על כל דוגמה בקלט ונשתמש בו על מנת להקטין את כמות התיוגים שעל בני האדם לבצע על מנת לאמן את המודל הגדול.

עוד מניסיון: כל השיטות רגישות מאד (מאד) לאיכות מודל העזר הקטן (ולכמות הדוגמאות עליהן הוא אומן), אם אתם מתכננים להשתמש בשיטות אלו השקיעו בו במיוחד.

סיכום כל מאמרי Anthropic

מודלי שפה המאומנים להיות "עוזרים אישיים" כמדד לAlignment

אמ;לק: המאמר הראשון של החברה לגבי Alignment, דן בבייסליין המתאים לחקר הבעיה.

מאמר: A General Language Assistant as a Laboratory for Alignment
מהיכולות המדהימות של מודלי שפה גדולים נראה כי אימון של מודלים אלו להיות "עוזרים אישיים" אפשרי ויכול לשמש כמבחן ומדד לAlignment מול סט ערכים אנושיים הרצוי מעוזר אישי: "עד כמה הוא באמת עוזר", "כנות", "חוסר נזק" (helpful, honest, harmless – מתנצל על התרגום. אני ממש מנסה..). הכותבים מוצאים שככל שמגידילים את גודל המודל, מדדים אלו הולכים ומשתפרים גם הם ואף מעבר לכך: המודל עצמו משתפר במשימות אחרות (שאינן בהכרח קשורות לסט ערכים זה) יותר ויותר ככל שמודל גדול יותר מאומן לערכים אלו.
לאחר מכן, הכותבים משווים כמה שיטות שונות לRLHF, בניהן למידת חיקוי, למידה מסיגנל בינארי (טוב\לא טוב) או למידה מדירוג כמה אפשרויות ומגלים שדירוג כמה אפשרויות היא האופציה שמובילה לביצועים הטובים ביותר בפער

כך גם אומן ChatGPT על פי מאמרי OpenAI. אני מאד אוהב שהם הלכו לבדוק כמה חלופות, גם אם גילו בסוף שזו הדרך הטובה ביותר – עובדה זו מרמזת על כך שניסוים אלו ככל הנראה גם בוצעו בOpenAI אך מעולם לא תועדו בפומבי מכיוון ש"לא הצליחו". או בשפה מאד פשוטה: תמיד נסו בעצמכם עוד דרכים שונות ומשונות גם אם "לא ככה עושים את זה" או "לא ככה כתבו במאמר" כי מאמרים באופן כללי מוטים לכיוון "מה שהצליח" אבל במקרים רבים דווקא "מה שלא הצליח" רעיון מצוין שיכול לעבוד במצבים אחרים.

המאמר ממשיך לחקור את התנהגות הביצועים עבור מספר יעדי אימון שונים (הרלוונטים לAlignment) כתלות בגודל המודל ולבסוף גם מבצעים ניסוי אימון מקדים למודל 'מודל ההעדפות' במטרה לשפר את יעילותו ביחס לכמות הדאטה.
אימון עוזר אישי מועיל ולא מזיק עם RLHF

אמ;לק: מאמר הדן בשיטות אימון מודל שפה להיות "עוזר אישי" תוך המנעות מתופעות לא רצויות

מאמר: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
הכותבים אימנו מודל שפה להיות עוזר אישי (כמו ChatGPT) כך שיהיה מועיל יותר ופחות מזיק יותר על ידי RLHF.
במאמר הכותבים הגדירו מדד עזרה ומדד "חוסר נזק" וגילו שאופטימיזציה למדדים אלו משפרת גם את ביצועי המודל במשימות אחרות כמעט בכל המדדים ואפילו עוזרר בהכללת ביצועי מודלים לכתיבת קוד.
לטענתם זהו סימן חיובי מכיוון שגם במידה ואימון להיות "מועיל" אינו נכלל בין מטרות האימון המקוריות, אימון מסוג זה ("מועיל" ו"לא מזיק") תורם לביצועי המודל במשימות והמיומניונות האחרות שלצורכן אומן המודל.
על מנת לעודד מחקר מסוג זה הכותבים מפרסמים את נתוני השוואת המודלים מהמאמר ובהם תוכלו להשתמש גם אתם כדי לאמן את מודל "ההעדפות" שלכם ואת העוזרים ה"מועילים" שלכם כך שיעברו אימון RLHF.

כמו שאמרתי קודם, שפה המאמרים.. "מעניינת"

במאמר, הכותבים ממשיכים לדון כיצד "מועילות" ו"חוסר נזק" יכולים להיות לפעמים להיות מנוגדים, כאשר ניתן "לפתות" מודלים "מועילים" להתנהג בצורה מזיקה.

למשל כמו שמישהו כאן [בלי לנקוב בשמות] ביקש מChatGPT מדריך ליצור פצצות אבל "בצחוק"

הכותבים גם בוחנים תוכנית אימונים "און ליין" שבה מעדכנים מדי שבוע את מודלי ההעדפה וה"ערכים" של המודל בהתבסס על משוב אנושי ומראים כי הדבר מוביל לשיפור מהיר ויעיל יותר.
עם זאת, למרות שהכותבים מראים שRLHF מוביל לשיפורי בטיחות וסנטימנט, אימוני RLHF אינם מסירים או משפרים לחלוטין הטיות בסיסיות במודלי שפה גדולים.
המחקר כולו התבצע על מודלים בגודל 50 מיליארד פרמטרים אך מניסוים נוספים שנעשו נראה כי טכניקות אלו מכלילות היטב גם למודלים קטנים יותר.
חיזוי והפתעה במודלים גנרטיביים גדולים (מאמר פחות טכני – עורר דיון מעניין מאד עם מתווי מדיניות)

אמ;לק: לאימון מודלי שפה גדולים ישנו רכיב הניתן לחיזוי (שיפור ביצועים ביחס לגודל) ורכיב שאינו ניתן לחיזוי ולו השפעות רבות על החברה האנושית

מאמר: Predictability and Surprise in Large Generative Models
אימון מודל שפה גדול על דאטה גדול, כללי ורחב למטרה כללית (דוגמאות: GPT-3, Megatron-Turing NLG, Gopher) גורם למודל השפה גם ליכולות שאינן ניתנות לחיזוי ולהן השפעה רחבה על החברה כשמודלים אלו נפרסים ומופעלים באופן נרחב. במאמר זה, הכותבים מדגישים המאפיין (הנוגד לאינטואיציה) של מסוג זה ודנים בהשלכות על מדיניות הפעלת מודלים אלו. כלומר, למודלים הללו יש שילוב יכולות פרדוקסלי של שיפור ביצועים על התפלגות מוכרת (שניתן לראות בScaling Laws), ויכולות בלתי צפויות. הכותבים טוענים שיכולת החיזוי של יכולות מודלים אלו ברמת דיוק גבוהה גורמת לפיתוח המואץ המתרחש כרגע (הרבה גופים נכנסו אל השוק, חוקרים ומאמנים מודלי שפה גדולים) אך שהיכולות המפתיעות שאינן ניתנות לחיזוי מקשות על הערכת את ההשלכות ארוכות הטווח של פריסת המודל. במאמר הכותבים עוברים על דוגמאות בהן שילוב זה יכול להוביל להתנהגות מזיקה והרסנית חברתית עם דוגמאות ותצפיות בעולם האמיתי.
מאמר זה שוחרר חודש לפני שחרור ChatGPT אך הוא רלוונטי היום יותר מתמיד ומצטרף לביקורת ההולכת וגוברת בנושא שחרור המודל לקהל הרחב והבלאגן הנגרם למערכת החינוך

וחסימת משתמשים העושים בו שימוש בStack Overflow, ודחית מאמרים המכילים טקסטים ממנו, וחסימת האתר ברשתות בתי ספר רבות בעולם, והרשימה עוד ארוכה..

הכותבים גם מבצעים שני ניסויים חדשים כדי להמחיש את הנקודה לגבי נזקים אלו. יתר על כן, הכותבים מנתחים כיצד מאפיינים אלו באים לידי ביטוי ומציעים שיטות לפריסה נכונה של מודלים אלו והאתגרים היכולים להפריע לפריסה זו. המאמר מסתיים ברשימת פעולות אפשריות שקהילת הבינה המלאכותית עשויה לנקוט כדי להגדיל את הסיכוי שלמודלים אלו תהיה השפעה מועילה.
מודלי שפה (בעיקר) יודעים "מה הם יודעים"

אמ;לק: אפשר לחזות בקלות וגם פשוט לשאול את המודל האם הוא מחרטט ולקבל דיוק גבוה במיוחד.

מאמר: Language Models (Mostly) Know What They Know
במאמר זה, הכותבים מראים שמודלי שפה מסוגלים להעריך האם מה שהם אומרים הוא נכון עובדתית ולחזות מראש אם יהיו מסוגלים לענות על שאלות בצורה נכונה.
הכותבים מלמדים מודל נפרד שתפקידו לחזות האם הצהרות המודל הגדול נכונות ומה ההסתברות שהמודל הגדול יודע את התשובה הנכונה לשאלה. במסגרת הניסוים, נבדקו טריוויה, השלמת סיפורים, חשבון פשוט, בעיות מילוליות במתמטיקה ותרגילי תכנות בפיתון.
המחקר מראה כי ההסתברויות אותן מנבא המודל לשאלה "האם התשובה נכונה?" מכוילות היטב על משימות רבות ובאמצעות שימוש בפרומט נכון, ניתן פשוט לשאול את המודל "האם מה שאמרת עכשיו נכון או לא?".
מעבר לכך, המאמר ממשיך ומשפר את השיטה על ידי שימוש בFewshot
  • ניתנות למודל מספר שאלות ותשובות ולכל אחת מהן גם מצוין האם תשובה זו נכונה ובכך שיטה זו מאפשרת "סיעור מוחות" לפני החזרת התשובה מהמודל.
תהליך האימון פשוט ביותר: הכותבים יוצרים דגימות באמצעות מודל השפה, מציינים את דיוק אותן הדגימות ובכך מאמנים את רכיב "האמת" במודל. במסגרת הניסוים, המודל נראה מגיב כראוי לרמזים נכונים הניתנים לו בטקסט וגם לרמזים לא נכונים ולא רלוונטיים בפתרון בעיות במתמטיקה.
שינוי ארכיטקטורת מודל על מנת לעודד למידת יצוגים הניתנים להסבר אנושי

אמ;לק: על ידי שינויים קלים בארכיטקטורת המודל ניתן לעודד את היצוג הנלמד להיות קל לפרשנות אנושית בלי לפגוע בביצועים.

מאמר: Softmax Linear Units
במאמר זה הכותבים מחליפים את פונ' האקטיבציה במודל שפה גדול לפונ' אחרת (SoLu – או Softmax Linear Unit) שמטרתה היא לעודד את המודל ללמוד יצוגים הניתנים לפרשנות אנושית קלה [ללא פגיעה בביצועי המודל המאומן], מאמר זה הוא הראשון הבוחן שינוי בארכיטקטורת המודל לצורך הסבר פשוט יותר של היצוג הנלמד במודל. אקטיבציה זו דוחפת נוירונים ספציפיים בשכבות הMLP במודל ללמוד יצוגים הניתנים לפרשות פשוטה, לדוגמה, נוירון הנדלק רק עבור טקסטים בפורמט base64 אם המודל "מנחש" שהטוקן הבא גם הוא ב-base64 (כלומר, אנו נמצאים כרגע באמצע כתיבת טקסט בפורמט זה).
במודלים גדולים, אקטיבציה זו חושפת מבנה מעניין:
  • נראה כי שכבות המוקדמות במודל מרכיבות מילים ארוכות המורכבות מכמה טוקנים שונים או מילים המגיעות משפות שונות.
  • אך בשכבות מאוחרות, מתקיימת התופעה הארוכה ונראה שנוירונים לומדים "להרכיב" את "החלק הבא" במילים ארוכות בזמן הכתיבה.
  • בשכבות הביניים, נלמדים נוירונים מופשטים יותר, למשל, נצפה נוירון הנראה כמייצג מספרים אך רק כאשר מדובר בספירת אנשים.
המאמר מציג פתרון שבהחלט עדיין אינו "מושלם" אך הוא פותח דלת למאמרי המשך המציגים שינוי בארכיטקטורת הרשת לטובת למידת יצוגים הקלים יותר לפרשנות אנושית.

בנוסף למאמר החוקרים משחררים גם דיון מוקלט וידאו לא פורמלי בו הם מתייעצים בזמן המחקר בפרוייקט. מעניין ומומלץ.

הנדסה לאחור: למה טרנספורמרים עובדים?
(מעניין במיוחד! מומלץ!)

אמ;לק: בזוג מאמרים אלו נמצא כי מודלי שפה בכל הגדלים עוברים מעבר-פאזה חד וקיצוני בזמן האימון ובשלב זה נלמדות יכולות הFew shot learning המפורסמות של המודל, יכולות אלו הן המאפשרות את כל משחקי הPrompt Engineering שכולנו מכירים.

(כמו שכתבתי, שחזרתי בעצמי חלק מהניסוים במאמרים אלו ובדקתי אישית סדרת מודלים בגדלים ההולכים וגדלים ממיליוני פרמטרים בודדים ועד ל20 מיליארד פרמטרים. מעבר הפאזה משתחזר.)

זוג מאמרים:
מאמר: In-context Learning and Induction Heads
מאמר: A Mathematical Framework for Transformer Circuits
רק כדי לוודא שכולנו מדברים את אותה השפה: נכון הקטע הזה של GPT שנותנים לו כמה דוגמאות מוכנות אחת אחרי השניה ולבסוף את המשימה?
דוגמה:
"""
תרגם את המשפט לאימוג'י:
"אני מאחר לעבודה":
"בטמן": 
"בחזרה לעתיד": 
"מה כדאי לאכול היום?": """
יכולת זו (ביצוע משימה על פי דוגמאות מתויגת) נקראת In-Context Learning ומאפשרת ביצוע משימה על פי מספר בודד קטן (Few shot learning) של דוגמאות מתויגות. יכולת זו נצפתה לפני כמה שנים כנרכשת על ידי מודלי שפה גדולים ללא צורך באימון ממוקד על דאטה מסגנון זה.

יכולת זו גם כמובן מועצמת באימון מודלי שפה בכל הגדלים כאשר בזמן אימון המודל חלק מדוגמאות הנתונים מנוסחים בצורה זו, טכניקה זו נמצאת בשימוש נרחב כיום מכיוון שהיא מאפשרת למודל הכללה למשימות חדשות שמעולם לא ראה במהלך האימון. והיא נכללת בהרבה דאטהסטים מוכנים לאימון מודלי שפה באינטרנט.

בחזרה למאמר:
במאמר זה הכותבים מגלים כי מתקיים מעבר-פאזה קיצוני בזמן אימון מודלי שפה, מעבר-פאזה זה מתרחש בשלב מוקדם באימון ונראה כמו שינוי חד בלוס. שינוי זה בלוס מסמן את רכישת יכולות הIn Context Learning על ידי המודל (!!), יכולות אלו נמדדות במאמר כהבדל בלוס בין הטוקנים בתחילת הרצף לטוקנים בסוף הרצף.
בכותבים מזהים דפוס מיוחד הנלמד בראשי האטנשן בתוך המודל (אותו הם מכנים "ראשי אינדוקציה") ולראשים אלו יכולת "העתקת טקסט" מתוך הקלט הניתן למודל.
למשל, באופן מופשט נצפו ראשים הנראה שלומדים משפטי תנאי (ifים) פשוטים מהצורה "A B -> C" כלומר, לצורך הדוגמה:
דוגמה: "אם ראית <מילה מסוימת>, לך אל <המופע האחרון של מילה זו בקלט> -> החזר את <המילה הבאה המופיעה אחריה>".
המאמר מציג שש טענות לכך שראשי האינדוקציה עשויים להיות המקור העיקרי ליכולות למידת ההקשר במודלי שפה גדולים:

הכותבים ציינו בפגישת זום בוידאו עם ElutherAI כמה מבוססת כל אחת מטענות אלו בשלב זה ועד כמה יש לקחת כל אחת מהן בערבון מוגבל. כל טענות אלו ככל הנראה עדיין נמצאות בבדיקה ומחקר תמידי.

  • טענה 1: מודלי שפה גדולים עוברים "מעבר פאזה" בשלב מוקדם באימון, במהלכו נוצרים ראשי אינדוקציה ובו זמנית נרכשת יכולת למידת ההקשר של המודל.
  • טענה 2: כאשר משנים את ארכיטקטורת המודל באופן המשתנה את יכולת יצירת ראשי אינדוקציה אלו (גם לטובה וגם לרעה) ביצועי יכולת למידת ההקשר משתנים בהתאם.
  • טענה 3: כאשר "דופקים" ישירות את ראשי האינדוקציה בזמן הטסט, יכולת למידת ההקשר נפגעת במיוחד (עד כדי כך שנעלמת לחלוטין) אך יכולות אחרות אותן למד המודל נפגעות פחות.
  • טענה 4: למרות שנראה כי ראשי האינדוקציה לומדים העתקת רצפים, נראה באופן אמפירי שאותם ראשים גם לוכדים יכולות מתוחכמות ומורכבות יותר ללמידת הקשר, יכולות אלו מובילות להתנהגויות מופשטות ביותר.
  • טענה 5: עבור מודלים קטנים מאד (שכבה בודדת, שתי שכבות), ניתן להסביר במדויק כיצד ראשי אינדוקציה עובדים, וניתן להראות שהם תורמים ללמידת הקשר.
  • טענה 6: על מנת לבדוק טענות אלו אומנו מודלים במבנה מיוחד המאפשר לכידה ופרשנות של ראשי אינדוקציה ויכולותיהם. לכן, בשל העלות הרבה של אימון מודלי שפה גדולים לא אומן מודל במבנה זה בתצורת ענק ולכן טענות אלו אינן נבדקו במודלי ענק. ובכל זאת, נראה כי במודלים קטנים תצפיות וטענות אלו מקיימים וישנה האפשרות שגם במודלי שפה גדולים תצפיות אלו מתרחשות.

דגש: שיניתי קצת את הניסוח המקורי של חלק מטענות אלו על מנת לצמצם חלק "מהפרשנות" ולהצמד לעובדות ותצפיות כמו שנכתב בתחילת הפוסט. קוראים המעוניינים בטענות המקוריות כמו שהן מובאות במאמר מוזמנים לקרוא את המאמר כולו, הוא מעניין מאד וכתוב מצוין לדעתי.

מה זה אוברפיטינג? על סופרפוזיציה ושינון הדאטה

אמ;לק: המאמר חוקר לעומק את ההבדלים ביצוג הנלמד במודלים הלומדים לשנן דוגמאות (אוברפיטינג) למודלים הלומדים להכליל.

מאמר 1: Superposition, Memorization, and Double Descent
מאמר 2: Toy Models of Superposition
למרות שבעיות אוברפיטינג הן בעיות נפוצות במיוחד בתחום, ההבנה של בעיות אלו במודלי ענק יחסית רדודה. במאמר זה הכותבים מבצעים סדרה של ניסוים בהם הם בודקים מה מתרחש בתוך המודל כאשר המודל מכליל בצורה טובה אל מול מודל הלמד "לשנן" את המידע.
הם מראים שמודלים עמוקים מפזרים את הדוגמאות על מספר נוירונים גדול ובכך מצליחים "לשנן" דוגמאות כאשר הם נכנסים לאוברפיטינג, הם ממשיכים ולומדים כיצד מוטמעות הדוגמאות במרחב הנסתר.
עבור דאטהסטים קטנים, מפזרים המודלים את הדוגמאות עצמן בשלמותן בין הנוירונים ובכך משננים יותר דוגמאות מכמות הנוירונים במודל (נבדק במודלים קטנים) ועבור דאטהסטים גדולים מפזרים המודלים את ה"התכונות" של הדוגמאות על מספר מודלים ובכך לומדים להכליל.
מודלים עמוקים נראה כי נאבקים במעבר בין אסטרטגיות אלו והתופעה גורמת לעליה חדה בלוס הולידציה, עליה זו מתרחשת גם בדאטהסטים גדולים כאשר מגדילים את גודל המודל ומתאפשרת לו היכולת לשנן יותר מידע.
סיכום רחב בדרך
שימוש במודל שפה על מנת למדוד ביצועי מודל שפה

אמ;לק: במאמר זה הכותבים משתמשים במודל שפה על מנת ליצור שאלות למבחן מודלי שפה אחרים תוך הקטנת המאמץ האנושי מביצוע מבחן זה

מאמר: Discovering Language Model Behaviors with Model-Written Evaluations
אימון מודלי שפה על פי הכוונה אנושית יקר במיוחד בשעות אדם ובדיקת איכות מודלים אלו קשה במיוחד לביצוע. במאמר זה הכותבים השתמשו במודל שפה גדול על מנת לייצר כמות רבה של מבחנים ושאלות כן\לא על מנת לבחון ביצועי מודלי שפה ושאלות אלו בחלקן לא סטנדרטיות ובחנו את מודל השפה הנבחן בביצוע משימות מיוחדות שאינן נבדקו קודם לכן. המאמר דן באיזון העדין בין מאמץ אנושי לאוטומציה באמצעות מודל במטרה להקטין עד כמה שניתן את המאמץ האנושי הנדרש. בנוסף, במאמר זה נעשה שימוש במודלי שפה לצורך סינון מידע וסינון התנהגויות רעות ואינן רצויותץ וכן פותחה סדרת שלבים ליצרה וסינון על מנת להרחיב דאטהסטים מתוייגים אנושית באופן בטוח ואיכותי.
שימוש במערכת לומדת על מנת לפקח על מערכת לומדת (מאמר פחות טכני)
מאמר: Measuring Progress on Scalable Oversight for Large Language Models
במאמר זה מראים הכותבים כיצד בני אדם יכולים להשתמש במערכות לומדות על מנת לפקח בצורה טובה יותר על מערכות לומדות אחרות ומראים כיצד מודל שפה משפר הביצועי בני אדם במשימה זו.
מאמר זה מנסה להבטיח שמערכות לומדות יישארו בטוחות "גם כשהן מתחילות לעבור את היכולת האנושית" ומסיבה זו נצטרך לפתח טכניקות לפיקוח הניתנות להרחבה מבלי שנוכל להניח שהמפקח על אותן המערכות מבין את המשימה טוב יותר מהמערכת עצמה שאומנה לבצעה.
צוות אדום למודלי שפה גדולים

אמ;לק: בכל שלב צוות אנושי מנסה "לעבוד על המודל" ואז מאמנים את המודל לא ליפול לאותם הטריקים. בתהליך זה נוצר מודל איכותי ועמיד במיוחד "לטריקים".

מאמר: Red Teaming Language Models to Reduce Harms – Methods, Scaling Behaviors, and Lessons Learned
במאמר זה הכותבים בודקים טכניקות לשיפור בטיחות מודלי שפה גדולים ומגלים ש-RL על פי הכוונה אנושית מקנה את המיטב מתוך כל השיטות שנבדקו. בנוסף: הכותבים גם משחררים את הנתונים בהם השתמשו במאמר על מנת שאחרים יוכלו להשתמש בהם לצורך בנית מודלים בטוחים יותר.
הם עושים זאת על ידי שימוש בצוות אדום אנושי המנסה בכל שלב "לשבור" את המודל ולגרום לו לבצע פעולות אסורות שאינן מותרות ונחשבות מסוכנות. בשלב הבא, מאומן המודל על אותן הדוגמאות האסורות שנאספו במטרה לאמנו לא "ליפול" לאותם הטריקים בשנית. ובכך שלב אחרי שלב מתקבל מודל איכותי יותר ויותר.

מזכיר: הדאטה שנאסף שוחרר ונמצא ברשת! מכיל כ40,000 דוגמאות מתויגות.

הכותבים מגיעים לכך שהתקפות נגד מודל שאומן בצורה זו עדיין מצליחות "לעבוד" על המודל ב-15% מהמקרים, אך בהשוואה ל-43% מהמקרים במודל הבייסליין.
במאמר הכותבים מפרטים נזקים מגוונים כגון שידול לשפה פוגענית ושידול פלטים לא אתיים מזיקים וגם שידול לעידוד אלימות.
למידה מדוגמאות כפולות והקשר לScaling Laws

אמ;לק: שכפול מזערי בנתוני האימון פוגע באופן חמור ולא פרופורציונלי בביצועי מודלי שפה ככל הנראה מכיוון שצורך פרמטרים מהמודל עבור "שינון" על חשבון יכולות הכללה אחרות

מאמר: Scaling Laws and Interpretability of Learning from Repeated Data
לצורך אימון מודלי שפה בדרך כלל מבוצעת הסרת כפילויות מסט נתוני האימון כחלק מתהליך ניקוי הדאטה, תהליך זה חשוב במיוחד שכן מודלים אלו מאומנים בדרך כלל על סט נתונים ענק שגודלו הרב מקשה על השליטה בו.

למשל: עשרות עמודי דאטה רצופים של "\" שהרסו את אחד ממודלי השפה הגדולים המפורסמים היום ברגע שנכנסו אל המודל באימון.

אך תהליך הסרת כפילויות זה אינו מושלם ובטעות מודלי שפה נחשפים לנתונים החוזרים על עצמם, לפעמים ברמת המשפט, הפסקה , או ברמת המסמך עצמו. כמצופה, נתונים כפולים פוגעים ביכולת הכללת המודל וחלק מהעבודות שעסקו בנושא דיווחו על כך מספרית. במאמר זה הכותבים מנסים להבין את השפעת הנתונים החוזרים באופן שיטתי ומדיד. לשם כך, הם מאמנים משפחת מודלים על דאטה איכותי ונקי במיוחד אך שחלק קטן ממנו שוכפל וחוזר על עצמו פעמים רבות. אנו מגלים תופעה חזקה של ירידה משמעותית בביצועי המודל עד כדי כך שמודל בגודל 800M פרמטרים נפגע וביצועיו ירדו לרמתו של מודל הקטן ממנו בחצי על סט הולידציה. פגיעה חמורה זון התקבלה משכפול מזערי של 0.1% מהנתונים 100 פעמים כשכל הנתונים האחרים נשארו כבדאטהסט המקורי. במאמר הכותבים חושדים כי שכפול זה מוביל לצריכת חלק גדול מפרמטרי המודל לצורך השינון ולכן ביצועי המודל נפגעים בצורה משמעותית ולא פרופורציונלית זו.
אימון מודלי שפה מול שאלות אדברסריאליות

אמ;לק: הכותבים מראים שמודלי שפה יכולים ללמוד סט ערכים פשוטים באמצעות שפה חופשית על ידי שימוש בשיפור עצמי, ולאחר מכן הם משתמשים בשיטה זו על מנת לאמן מודל "עוזר" ו"לא מזיק".

מאמר: Constitutional AI: Harmlessness from AI Feedback
לעתים קרובות, למודלי שפה המאומנים להיות "לא מזיקים" יש נטייה להפוך גם לחסרי תועלת.
לא לנקוב בשמות אבל "כמודל שפה גדול שאומן על ידי OpenAI אין לי את היכולת ל.."
השיטה במאמר זה נראה כי גורמת למודלי השפה המאומנים לפיה ליפול פחות אל בעיה זו ובאמצעותה הכותבים אימנו מודלי שפה להשתפר במענה על שאלות אדברסריאליות מבלי להתעקש ולהתאמת תוך כדי שהם מספקים מעט מאוד מידע למודל.
בקצרה, הטריק הוא השימוש במודל לצורך "ניסוח מחדש" של תגובות ל"שאלות קשות" כך שיתאים יותר לסט חוקים קבוע אותו קבעו מראש לאותו המודל. כלומר באמצעות Prompt Engineering חכם הכותבים משתמשים במודל עצמו על מנת לנסח מחדש דוגמאות תגובה "לשאלות קשות" כך שיספקו את סט החוקים ולאחר מכן מאמנים את אותו המודל על אותן דוגמאות מתוייגות. (זה מגניב!)
רפרנס:
[1] – אלטרואיזם אפקטיבי היא תנועה פילוסופית וחברתית שדוגלת ב"שימוש בראיות ובהיגיון כדי להבין כיצד להועיל לאחרים ככל האפשר, ולנקוט פעולה על בסיס זה".
עוד בנושא: