המהפכה הלשונית השנייה: עכשיו תורן של המכונות ללמוד לדבר

מאת אורי אליאבייב, 4 בספטמבר 2016

בתקופה האחרונה אנחנו עדים להתעניינות הולכת וגוברת בכל הקשור לתחום ה-Natural Language Processing (עיבוד שפה טבעית). פייסבוק השקיעה רבות במנוע עיבוד שפה בשם Deeptext לו היא מייעדת תפקידים אסטרטגים רבים כמעט בכל חטיבה בחברה, גוגל פתחה לקהל הרחב את Cloud Natural Language API ו-Cloud Speech API המעניקים את יכולות ה-NLP למפתחים באשר הם ואמזון משפרת את היכולות של Amazon Echo והופכת את אלכסה, העוזרת האישית של החברה, לחכמה יותר מרגע לרגע.

בין אם להתאמת פרסומות למשתמש ספציפי, ניהול שיחה קולחת יותר עם בוט או אפילו ניתוח של ביקורות גולשים – הבנת שפה הפכה להיות אחד מהאתגרים המדוברים והמסקרנים ביותר בקרב ענקיות הטכנולוגיה. אם כך נשאלת השאלה, היכן אנחנו נמצאים במסע לעבר הבנת אוטומטית של שפה וטקסט? ועד כמה אנחנו רחוקים מהיום בו מערכות מבוססות בינה מלאכותית באמת יוכלו לשוחח עמנו ברמה אנושית?

בכדי ללמוד על הנושא לעומק ולהבין את האתגרים שעומדים בפני החוקרים בנושא זה, נפגשתי עם רועי אהרוני, סטודנט בשנה הראשונה ללימודי הדוקטורט במדעי המחשב במעבדה לעיבוד שפה בבר אילן בהנחיית ד״ר יואב גולדברג ובעל תואר שני במדעי המחשב מבר אילן עם התמחות בבינה מלאכותית בהנחיית פרופ׳ משה קופל. מלבד זאת אהרוני בוגר תכנית אל״צ (אקדמיה לפני צבא) בה השלים תואר ראשון במדעי המחשב במקביל ללימודי התיכון ולאחר מכן התגייס למרכז הטכנולוגי של יחידה 8200. בצבא שימש שבע שנים בתפקידי מחקר ופיתוח, מתוכן כשלוש שנים ראש צוות בתחום עיבוד השפה. כחלק מכך עסק בחמש שנים האחרונות בתחומים של כריית מידע, עיבוד ואחזור טקסט. לקינוח, לפני שנה וחצי הקים מיטאפ הפונה למומחי עיבוד שפה טבעית בישראל, The Israeli NLP Meetup, המפגיש בין אנשי עיבוד השפה בישראל, הן באקדמיה והן בתעשייה.

אז מה זה באמת NLP ואילו תחומי מחקר כלולים תחת אותה הגדרה? לפני שאנחנו מתקדמים הלאה, אהרוני שופך אור על התחום כולו: "עיבוד שפה טבעית הוא תת תחום של מדעי המחשב שעוסק בחיבור בין שפה אנושית (״טבעית״) לכלים חישוביים, או מחשבים. הרבה פעמים הוא נקרא גם בלשנות חישובית – תת תחום של בלשנות בו משתמשים בכלים חישוביים לצורך מחקר בלשני. העיסוק ב-NLP החל עוד בשנות ה-50: פרופ׳ יהושע בר הילל מהאוניברסיטה העברית היה המדען הראשון שעבד על תרגום ממוכן בצורה ממוקדת כבר ב-1952 כשעבר ל-MIT".

כפי שניתן להבין, NLP חולש על מגוון רחב של נושאים הקשורים באופן ישיר לדרך בה מחשבים מבינים טקסט או מנתחים שפה כלשהי. מה שמסקרן לא פחות, בניגוד אולי לתחומים אחרים, הוא כמות הפעמים בהן בעיות מתחום ה-NLP פוגשות אותנו בחיי היום יום. אם ניסיתם לתרגם משפט ב-Google Translate או ביקשתם מסירי להוסיף לכם תזכורת ליומן, זה קרה הודות ללא מעט חוקרי NLP בחברות השונות.

"תחום עיבוד השפה הוא מאוד רחב וכולל תתי תחומים רבים כמו סיווג טקסט לנושאים, הבניית טקסט (parsing), חילוץ ישויות מטקסט, תרגום אוטומטי, מענה אוטומטי על שאלות, מציאת פראפראזות בצורה אוטומטית וכו׳. למעשה ישנם תתי תחומים של עיבוד שפה שהפכו בפני עצמם לתחומי מחקר ענפים, כמו אחזור טקסט (Information Retrieval) וזיהוי דיבור." פירט אהרוני והוסיף: "היום תחום עיבוד השפה רלוונטי במיוחד עם עידן התפוצצות המידע שמספק כמויות אדירות של מידע בשפה טבעית, מידע שניתן לנתח על מנת להסיק מסקנות יקרות ערך בתחומים שונים. לכן, ניתן לראות חברות כמו גוגל, פייסבוק ואמאזון משקיעות המון משאבים בתחום."

לא לחינם עלה שמן של שלושת ענקיות הטכנולוגיה בציטוט האחרון של אהרוני – כולן, ללא יוצא מן הכלל, משקיעות משאבים רבים בתחום. הן כמובן לא לבד, ישנן חברות טכנולוגיה רבות, ביניהן מיקרוסופט ובאידו הסינית, אשר עובדות במרץ על הצגת פתרונות בנושא ה-NLP. תוסיפו לכך את כל חברות הסטארטאפ שפועלות גם הן בתחום ותקבלו עולם שמושך אליו את מיטב המוחות, אשר נהנים מתקציבים של מליארדי דולרים. ניתן לומר בזהירות כי ישנו מירוץ חימוש בקרב חברות רבות סביב נושא ה-NLP שעתיד לחולל שינוי של ממש במספר רב של מוצרים אותן מקדמות החברות הנ"ל.

מחפשים משרה בתחום? היכנסו ללוח המשרות שלנו.

עם זאת, בתור משתמשי קצה, אשר שקופים להשקעה העצומה שנעשית בתחום, לא נראה כי אנחנו על סף פריצת דרך משמעותית. Google Translate אולי מצליח לתרגם מילה בודדת בהצלחה, אך הוא מתחיל לזייף כאשר מדובר על משפט שלם וזאת מבלי לדבר כמובן על מה קורה כאשר מאתגרים אותו עם פסקה שלמה. גם סירי, וחברותיה העוזרות האישיות, לא חפות מתקלות ולמרבה הצער הן לא מסוגלות להבין אותנו באמת כמו שצריך ולבצע משימות מורכבות יותר מסך הפקודות המוגדרות להן.

בעקבות התפקוד הלא מזהיר של חברות הענק בתחום, אני מנסה להבין באמצעות אהרוני מה הם האתגרים העיקריים שניצבים כיום בפני חוקרי NLP ומדוע מדובר על משימה כל כך קשה? "כפי שציינתי קודם, תחום ה-NLP הוא רחב מאוד ויש בו אינספור בעיות לא פתורות. האתגר בעיבוד שפה הוא קשה בעיקר מכיוון ששפה טבעית היא דבר מאוד מגוון, משתנה ורב משמעות – פעמים רבות גם לאדם יהיה קשה להבין את המשמעות של מה שאדם אחר אמר אם אין בידיו מספיק ידע חיצוני על העולם או היכרות עם הז׳רגון הספציפי בו האדם שמולו השתמש באותו רגע. אתגרים ספציפיים שאני אישית רואה כחשובים הם בעיית ה-Domain adaptation שבוחנת כיצד אפשר לגרום למודל שעובד על טקסטים בנושא אחד לעבוד גם על טקסטים בנושא אחר – חשוב במיוחד בתעשייה כשרוצים לגרום למודל לעבוד בתחום ספציפי ובאיכות גבוהה. באופן כללי, אתגרים חשובים נוספים שאני רואה כיום הם: NLP לשפות פחות מיוצגות (בגדול, שפות שאינן אנגלית), משימות NLP מעל רמת המשפט (רוב הזמן במשימות כמו תרגום וניתוח תחבירי לא משתמשים ביותר ממשפט בודד ברגע נתון) וכמובן מחקר שיביא להבנה טובה יותר של מה בדיוק נלמד ע״י רשתות הנוירונים כשמיישמים אותן על משימות עיבוד שפה." 

המכונות שלמדו לדבר

בכדי להבין לעומק את הדרך בה חוקרים מתמודדים עם בעיות מעולם ה-NLP אנו צריכים לחזור אחורה ולהבין כיצד התמודדו עם הבעיה עד כה. מיותר לציין כי טכניקות מבוססות Machine Learning הצליחו להשיג את פריצת הדרך המשמעותית ביותר בשנים האחרונות והן לב ליבם של מרבית הפתרונות הקיימים כיום.

"עד שנות ה-80 הגישה הרווחת לעיבוד שפה הייתה מבוססת חוקים – כלומר על מנת לאפשר למחשב לפתור בעיות בשפה טבעית היו מקודדים חוקים מורכבים שהיו מבוססים על ידע בלשני של מומחים. לקראת סוף שנות ה-80 התחוללה מהפכה בתחום עם הכניסה של שיטות סטטיסטיות שאפשרו להוריד את התלות בחוקים ידניים ע״י שימוש בשיטות מעולם הסטטיסטיקה והלמידה החישובית (Machine Learning). השיטות הסטטיסטיות הוכיחו את עצמן כמדויקות יותר מהשיטות מבוססות החוקים במשימות רבות, כמו למשל במשימת התרגום הממוכן שנחשבת למשימה מורכבת במיוחד בעיבוד שפה. מהפכה זו הביאה למצב בו קהילת ה-NLP וקהילת הלמידה החישובית הולכות ״יד ביד״, עד כדי כך שפעמים רבות ניתן לראות מאמרי NLP בכנסי ה-Machine Learning הגדולים כמו NIPS, ICML וכו׳." הסביר אהרוני.

את קפיצת המדרגה האחרונה בתחום ה-NLP, כמו במגוון תחומים אחרים, אנו חבים לפריצות הדרך שהתגלו בשנים האחרונות המצליחות לרתום רשתות נוירונים מלאכותיות לפתירת בעיות מורכבות. אהרוני מדגיש לא פעם כי כניסת Deep Learning לתחום הצליחה להשיג שיפור ניכר בתוצאות וכיום מדובר על טכניקת העבודה המובילה בצוותים העוסקים במחקר NLP.

"ההצלחות האחרונות של שיטות ה-Deep learning, או רשתות הנוירונים כפי שהיו מוכרות עוד משנות ה-80, לא פסחו על עולם ה-NLP והן מביאות שיפורים משמעותיים במשימות עיבוד שפה רבות. בין היתר שוב בולטת משימת התרגום הממוכן, בה שיטות הלמידה העמוקה הביאו לתוצאות פורצות דרך בשנתיים האחרונות ש״גברו״ על השיטות המסורתיות יותר. גם במעבדה שלנו קשה למצוא היום מחקר שלא משלב טכניקות מעולם רשתות הנוירונים – למשל לאחרונה פורסם מנתח תחבירי (BIST Parser) שהוא ה-State of the art כיום בתחום, או מערכת המזהה קשרים סמנטיים בין מילים בצורה אוטומטית (HypeNet) אף היא ברמת State of the art, ושניהם משתמשים בצורה יצירתית בטכניקות של רשתות נוירונים."

"בעיני התרומה המשמעותית ביותר של מהפכת הלמידה העמוקה לתחום עיבוד השפה היא השימוש ברשתות נוירונים הרקורסיביות (RNN's) שמאפשרות לייצג רצפים של סמלים בדידים (מילים, אותיות וכו׳) באורך משתנה, בצורה המאפשרת לתפוס הקשר רב יותר מאשר זה שאפשרו שיטות קודמות לעיבוד רצפים, כמו למשל HMM. מאחר ואחת הבעיות הגדולות בעיבוד שפה טבעית היא בעיית רב-המשמעות (ambiguity), חשובה מאוד היכולת להשתמש בכמה שיותר מידע קונטקסטואלי ברמת האות, המילה, המשפט או המסמך כשפותרים בעיה כלשהי, ועצם היכולת להשתמש במידע עשיר על ההקשר מביאה לשיפורים משמעותיים במשימות עיבוד שפה רבות. לדוגמא, כבר היום משתמשים ב-RNN's, או ספציפית ב-LSTM's שהם וריאציה של RNN's, על מנת לבצע תיקון שגיאות אוטומטי במנגנון ה-autocorrect ב-iPhone, או באפליקציית המייל Inbox של גוגל על מנת להציע למשתמש מענה אוטומטי למיילים ששולחים אליו."

יש אלגוריתמים שמדברים עברית

תחום ה-NLP מסקרן ומושך לא רק את החברות הגדולות, אלא גם את גופי המחקר והאוניברסיטאות השונות. בישראל נעשית עבודה מרשימה וגדולה בהיקפה בשאיפה לפתור בעיות מגוונת בתחום. אחת הדוגמאות המצוינות לכך היא המעבדה לעיבוד שפה טבעית בבר אילן בה אהרוני לומד.

"המעבדה לעיבוד שפה טבעית בבר אילן נמצאת במחלקה למדעי המחשב, ומובילים אותה פרופ׳ עידו דגן וד״ר יואב גולדברג. במעבדה עובדים דוקטורנטים, פוסט דוקטורנטים, מסטרנטים ועובדי מחקר שעוסקים בתחומים שונים של עיבוד שפה – החל מתחומי "Low level" כמו ניתוח תחבירי (Parsing) ועד תחומי "High level" כמו הסקה סמנטית (Textual entailment) וייצוג של ידע. המעבדה בבר אילן היא המעבדה הגדולה ביותר בישראל לעיבוד שפה טבעית, וחברי המעבדה מפרסמים את העבודות שלהם בכנסים הגדולים בעולם בתחום כמו ACL, EMNLP, NAACL. לדוגמא, בכנס ACL האחרון שהוא הגדול מסוגו, נכחנו מעל 10 מחברי המעבדה, שם הצגנו את המחקרים שלנו."

חשוב לציין שבישראל ישנן מעבדות נוספות בהן עוסקים בעיבוד שפה: באוניברסיטת חיפה, באוניברסיטה העברית, בטכניון, בבן גוריון ובתל אביב. לצד זאת, הקהילה האקדמית בישראל בתחום עיבוד השפה נפגשת פעם בשנה במסגרת כנס ISCOL – Israeli Computational Lingustics. בעוד שמרבית המחקרים מתבצעים כמובן על השפה האנגלית, תתפלאו לדעת שישנם חוקרים בארץ ששוקדים גם על פתרונות לרווחת דוברי העברית שבנינו – מה שמצריך לא פעם השקעה רבה יותר בכדי למצוא מידע מתויג ומשאבים איכותיים לאימון המערכות.

"לגבי משאבי NLP לעברית, בולט מרכז "MILA" בטכניון שמרכז משאבי עיבוד שפה לעברית מזה שנים רבות, וכמו כן פרויקט עיבוד השפה מהמעבדה לעיבוד שפה טבעית באונ׳ בן גוריון שם פיתחו כלים רבים לעיבוד עברית כמו מנתח תחבירי ומורפולוגי. פרויקט נוסף שהוקם לאחרונה ע״י פרופ׳ משה קופל הוא מרכז DICTA לניתוח טקסט (The Israeli Center for Text Analysis) שם עובדים על בניית כלים חישוביים לניתוח טקסטים עבריים מתקופת התנ״ך ועד היום, המאפשרים לחוקרים ממדעי הרוח לבצע את מחקריהם בצורה שלא התאפשרה עד היום. עם זאת, עדיין יש עבודה רבה לעשות על מנת להגיע לאותה איכות במשימות השונות כפי שניתן למצוא עבור אנגלית. הסיבה לכך נעוצה בהיעדר טקסטים מתויגים בעברית, שהם משאב יקר שדורש זמן רב על מנת לייצרו, וגם עקב המורכבות של עברית בתור שפה עשירה מורפולוגית.

יש עם מי לדבר?

לאורך הכתבה כולה הבנו את החשיבות של NLP ואת האתגרים הקיימים בתחום, אך בכולנו מדגדגות השאלות האלמותיות: מתי נוכל להגיע לרגע המיוחל בו נוכל לתקשר עם מחשבים בצורה שוטפת? מתי נוכל לשוחח עם בינה מלאכותית אמיתית שתבין אותנו באופן מלא? אהרוני מסביר לנו כי לא מדובר על שינוי שנמצא מעבר לפינה.

"אני חושב שאנחנו עדיין רחוקים מאוד מ״הבנה מוחלטת״ של שפה טבעית, בעיקר מאחר ששפה היא דבר מורכב מאוד ורב משמעי שתלוי בהמון ידע על העולם החיצוני שקשה לייצג בצורה ״כללית״. אמנם בשנים האחרונות ראינו התקדמויות יפות בתחומים כמו זיהוי דיבור ותרגום ממוכן ואנו אכן משתמשים בטכנולוגיות אלה בצורה יומיומית, אך עדיין יש הבדל גדול בין המורכבות של תרגום משפט בצורה אוטומטית לבין ניהול שיחה אינטליגנטית מלאה עם מכונה. אני מאמין שעם הזמן נראה יותר ויותר שימוש בטכנולוגיות שפה בחיי היום יום ושנתקשר עם מחשבים בצורה יותר ויותר טבעית, אך ״בינה מלאכותית כללית״ עדיין רחוקה מאיתנו. מעבר לזה, לדעתי עדיף להשקיע דווקא ב״בינה מלאכותית ספציפית״ לפתרון בעיות מוגדרות היטב, כי שם טמון פוטנציאל רב להצלחה כבר היום. למשל, הייתי שמח מאוד לראות יותר שימוש בטכנולוגיות שפה בתחומים כמו רפואה וחינוך, שם השפה היא כלי מרכזי בתהליך וניתן להשתמש בטכנולוגיה על מנת לייעל אותו."

NLP הוא אחד מהתחומים הבוערים והמסקרנים ביותר שהאנושות מתמודדת עמו. ברגע שנצליח לגרום למכונות להבין את המורכבות של השפה האנושית, הן תחלנה לבצע משימות מורכבות שכיום מוגדרות כמדע בדיוני. עקומות הלמידה של שירותים ומוצרים שלמים יישברו לחלוטין, פערים לשוניים בין בני אדם יטושטשו באופן מלא והמכונות יוכלו להיות חלק אינטגרלי, כמעט בלתי נפרד, מהחיים שלנו. לטוב או לרע.

רוצים עוד מאיפה שזה הגיע? הצטרפו לניוזלטר שלנו דרך הקישור הבא.