שיחה עם גיא טמיר מאינטל: להביא את ה-AI לקצה, ולשלוט בו
כחלק מהעבודה על הכנס GenML שלנו, קיימתי שיחה מרתקת עם גיא טמיר, מומחה AI באינטל, בה נחשפתי לחזון החברה בתחום הבינה המלאכותית ולגישה הייחודית שלהם להנגשת טכנולוגיות AI לקהל הרחב. גיא שיתף אותי בתובנות מעניינות על הדגש שאינטל שמה על הרצת מודלים לוקלית ועל גמישות בבחירת החומרה.
חומרה מגוונת
"בעינינו," אמר גיא, "העתיד של AI נמצא בקצה, במכשירים עצמם. אנחנו רוצים להראות שאפשר להריץ מודלים חזקים ויעילים בלי להיות תלויים בענן. אנחנו רוצים לתת למשתמשים את הכוח לבחור איך ומאיפה הם מריצים את המודלים שלהם, ולשלוט באופן מלא בנתונים שלהם."
גיא הסביר שאינטל רואה בחומרה מגוונת, כמו CPU, GPU ו-NPU, נכס אסטרטגי. "אנחנו לא אומרים 'GPU או כלום'," הדגיש. "יש משימות שמתאימות יותר ל-CPU, יש כאלה שמתאימות ל-GPU, ויש כאלה שמתאימות באופן מושלם ל-NPU. אנחנו רוצים לאפשר מעבר חלק בין סוגי החומרה, בהתאם לצורך. זה נותן גמישות אדירה ומאפשר אופטימיזציה אמיתית."
הוא הרחיב על החשיבות של ה-NPU: "הטכנולוגיה הזו של Neural Processing Unit מותאמת במיוחד לעבודה עם מודלי AI. היא יעילה אנרגטית בצורה מדהימה, ויכולה לספק כוח חישוב משמעותי במכשירי קצה. אנחנו מאמינים ש-NPU יהפוך לרכיב חיוני בכל מכשיר עתידי, ויאפשר הרצה של יישומי AI מורכבים בלי להתפשר על חיי סוללה או ביצועים."
מה שהיה מעניין מאוד בשיחה הוא ההבנה של אינטל שלא תמיד צריך כוח חישוב חזק לבצע משימה מסוימת. לפעמים כן נצטרך את הGPU החזקים בשעות העומס, אבל במידה והמצב נרגע, למה לשלם כל כך הרבה על חומרה שלא חייבים אותה לתפקוד שוטף?
זה היה נרטיב חשוב מאוד שחזר על עצמו בשיחה ובעצם מהווה קול הכרחי להבנת המהלך של אינטל. בעולם שבו אנחנו רוצים את המודלים תמיד איתנו, רצים כל הזמן, רואים מה שאנחנו עושים או שומעים אותנו – לא נוכל להחזיק GPU רץ באופן קבוע. זה לא נכון לא מבחינת עלויות ולא מבחינת צריכת חשמל. זה מה שמוביל אותנו לדיון המעמיק יותר על ריצה לוקלית של מודלי AI.
רצים לוקלית
גיא הדגיש שאינטל אינה מנסה להמציא את הגלגל, אלא לרתום את כוח החישוב הקיים במכשירים שלנו לטובת משימות AI. "יש לנו CPU, GPU, NPU – כל אלה רכיבי חומרה חזקים שניתן לנצל בצורה אופטימלית להרצת מודלי AI. אנחנו מתמקדים באופטימיזציה של תוכנה קיימת, כמו PyTorch ו-TensorFlow, כדי שתרוץ ביעילות מירבית על גבי הפלטפורמות שלנו. אנחנו תורמים המון לקוד פתוח, כדי לוודא שהכל יעבוד חלק."
היכולת להריץ מודלים לוקאלית, ללא תלות בחיבור אינטרנט או שרתים מרוחקים, היא קריטית אם רוצים לספק יכולות AI לכל משתמש בכל מכשיר קצה. זה נותן לך שליטה מלאה על הנתונים שלך," הסביר גיא. "אתה לא צריך לשלוח מידע רגיש לענן, ואתה לא מוגבל על ידי latency או עלויות של שירותי ענן. זה משמעותי במיוחד עבור יישומים כמו בריאות, פיננסים וביטחון."
גיא הסביר ש-OpenVINO, כלי קוד פתוח של אינטל, הוא המפתח להרצת AI לוקאלית. "OpenVINO נותן לך גמישות מדהימה," אמר. "אתה יכול לקחת מודל קיים, להמיר אותו לפורמט של OpenVINO, והוא ירוץ על מגוון חומרה. יותר מזה, הוא מאפשר לך לבחור אילו חלקים של המודל ירוצו על איזה רכיב חומרה. למשל, אתה יכול להריץ את החלקים הכבדים יותר של המודל על ה-GPU, ואת החלקים הקלים יותר על ה-CPU, או אפילו על ה-NPU, כדי לחסוך באנרגיה."
ועל אף השיח על הרצה לוקלית, גיא הסביר שגם בסוגיית הענן יש ערך מעניין למעבדים של אינטל. כי גם שם, בדיוק כמו בחומרה פיזית, לא תמיד צריך את כוח החישוב הכי חזק לכל משימה – בטח שלא באינפרנס. לכן, יהיה נכון לעשות את ההקצאה של המשאבים בצורה דינמית ונכונה. במיוחד אם אפשר לכתוב קוד פעם אחת ולהריץ (כן, את אותו הקוד) גם על CPU גם על GPU או חומרות אחרות.
אנחנו ערים לשיח רב מאוד בתקופה האחרונה על עלויות של הנגשה של מודלי AI ועד כמה חברות הענק בעצם מסבסדת את העלות הזו. תעשייה כולה מבינה שזה לא יכול להמשיך בצורה כזו ושצריך לדבר בצורה רצינית על העלויות של החישוב וגם מה קורה לאחר מכן כשרוצים להריץ את המודל ולהנגיש אותו ללקוחות.
זה דיון שעלה גם סביב המודל o3 החדש של OpenAI ונראה שלא יהיה מנוס מלמצוא קונסטלציות ייחודיות בהן אפשר לעשות שילוב של מספר סוגי חומרה כדי לעמוד בביקוש הרב, אך עדין לא לשרוף המון כסף בדרך.
חוויה מעשית בסדנה ב-GenML
בסדנה שהעביר גיא בכנס GenML, המשתתפים זכו לחוות את החזון הזה של אינטל מקרוב. אינטל סיפקה לכל משתתף לפטופ המצויד ב-CPU, GPU ו-NPU של אינטל. "רצינו שהם יעברו תהליך שלם, מקצה לקצה," הסביר גיא. "שהם ילמדו איך עובדים עם מודלים, איך ממירים אותם, איך מריצים אותם על חומרה שונה ואיך מודדים ביצועים. הם בנו אפליקציות, התנסו, וראו במו עיניהם איך הטכנולוגיה שלנו עובדת."
המשתתפים התנסו בהרצת מודלים של Stable Diffusion, text-to-image, music generation ועוד. הם למדו כיצד להשתמש ב-OpenVINO כדי לחלק את עומס העבודה בין רכיבי החומרה, וכיצד לבצע אופטימיזציה של latency ושל throughput. "המטרה הייתה להראות איך אפשר להריץ מודלים מורכבים, שבעבר דרשו משאבים עצומים, על גבי לפטופים סטנדרטיים," אמר גיא.
מה שבאמת היה מעניין לראות זה איך אפשר להריץ גם את המודלים המתקדמים (הכבדים) בצורה לוקלית. גיא ציין שאחד המודלים היה בגודל של 14 מליארד פרמטרים – לא מודל טריוואלי להריץ על מחשב רגיל. חשוב כמובן לציין שלא מדובר על הזמני התגובה שאנחנו מכירים, ועדיין עבור לא מעט מהיישומים מדובר על זמנים סבירים (פחות מדקה לג'ינרוט תמונה איכותית). ככל שהמעבדים ישתפרו ונראה עוד שיפורים בNPU הזמנים האלה יתקצרו משמעותית.
השיחה עם גיא והסדנה ב-GenML הותירו בי רושם עמוק. אנחנו רואים דגש רב על הרצה של מודלים בחומרת קצה ונראה שאינטל מבינה שזה קרב שהיא יכולה לשלוט בו. המעבדים שלה כיום וגם שבבי ה-NPU יכולים להיות הפתרון הפשוט ומהיר להרצת מודלים כבדים ובאופן זה להפוך כל מחשב סטנדרטי לכזה שיכול להריץ מודלי AI לוקלית.
גיא טמיר הוא אוונגליסט טכנולוגיות באינטל. מוזמנים למצוא אותו ב LinkedIn או בערוץ ה YouTube שלו.