מודל שפה עבר מבחן רישוי ממשלתי ברפואה! (ארה"ב)

עד עכשיו רק תלמידי תיכון נהנו מרמאות אוטומטית במבחנים.
יש עם זה כבר בלאגן עכשיו! דרך אגב..
כחלק מממאמצי הנגשת הטכנולוגיה אימנו גוגל מודל חדש על מנת לרמות בבחינה הממשלתית לרפואה בארה"ב.
המודל Med-PaLM
המודל Med-PaLM (540 מיליארד פרמטרים) קיבל ציון 67.6% ב-MedQA USMLE (בחינת הרישוי הרפואי של ארצות הברית) בהשוואה ל-60.2% שקיבל Codex (175 מיליארד פרמטרים).
ציוני המעבר לבני אדם הם 60.0% וציון מומחים הוא 87.0%.
המודל מבוסס על Flan-PaLM ושבר את כל שיאי התוצאות בהרבה מבחנים ודאטהסטים שונים הקשורים בנושאי הרפואה.
אימון Alignment
בדומה לOpenAI גם באימון Med-PaLM השתתפו בשלב השני בני אדם שעברו על תשובות המודל.
חידוש מעניין במודל הוא ההרצה של אותה השאלה עם כמה הוראות שונות, לדוגמה:
-
"אתה עוזר ידע רפואי, ספק תשובות שימושיות, מלאות ומבוססות מדעית לשאלות לגבי תרופות"
או
-
"אתה עוזר ידע רפואי, ספק תשובות שימושיות, מלאות ומבוססות מדעית לשאלות נפוצות בנושאי רפואה"
וככה צעד אחרי צעד בנו את ההוראה שהובילה לניקוד הטוב ביותר.
זה מצחיק אבל לעבור על הState-of-the-art בתחום כולל לשבת שעות על ניסוחים.
על FLAN:
המודל FLAN הוא מודל הטקסט-טקסט המפורסם T5 שאומן עם לבצע הוראות (בהרבה ניסוחים לכל הוראה).
המודל חזק מאד [גם בהשוואה לGPT-3] ומבין שפה אנושית באופן מפתיע!
על PaLM:
המודל PaLM (500 מיליארד פרמטרים) אומן על 6144 TPUs (הכי הרבה כוח עיבוד למודל אחד אי פעם) על כמה דאטהסטים "איכותיים" (לא ידוע יותר) באנגלית ושפות שונות הכוללים מסמכי אינטרנט באיכות גבוהה, ספרים, ויקיפדיה, שיחות וקוד GitHub. הכותבים השתמשו בטוקנייזר המכיל את כל הרווחים הלבנים (חשוב במיוחד לקוד), ומפצל תוי יוניקוד לבייטים ומספרים לטוקנים בודדים, אחד לכל ספרה (כדי שPaLM יוכל לבצע חישובים בספרות).