סדרת ראיונות: עתיד ה-AI על פי כנס Google Cloud Next

לפני זמן קצר נשלחתי על ידי גוגל לסקר את כנס Google Cloud Next, ומעבר לכל ההכרזות הנוצצות על הבמה המרכזית, היה לי את הכבוד לראיין שלוש דמויות מפתח משעותיות מאוד בגוגל קלאוד.
כל הראיונות זמינים להאזנה ביוטיוב, בספוטיפי, באפל מיוזיק ובהאזנה כללית.
עבורי, אלו לא היו רק ראיונות, אלא הזדמנות להבין איך אופרצית ה-AI העצומה של גוגל עובדת כשפורטים אותה לחומרה, לקוד ובעיקר לאסטרטגיה הנדסית. חזרתי עם כמה תובנות טכניות שבאמת גרמו לי לעצור רגע ולחשוב. הנה מה שלמדתי מהם:
1. ביל ג'יה (Bill Jia): האיש שהופך מחקר למוצר בקנה מידה עצום
ביל גי'ה, הוא VP Engineering ב- Google Cloud. הוא מוביל את קבוצת ה-CoreML בגוגל. התפקיד שלו הוא להיות ה"גשר": לקחת את המחקר התיאורטי המבריק של Google DeepMind ולהפוך אותו למודלים יציבים שצריכים לשרת מיליארדי אנשים ב-Search או ב-YouTube מבלי לקרוס.
מה שריתק אותי בשיחה איתו היה הדיון על Good-put. בעולם הדאטה אנחנו רגילים לדבר על Throughput (כוח מחשוב), אבל כשאתה מאמן מודלים על קלאסטרים של 100,000 מעבדי TPU ומעלה, תקלות חומרה הן לא שאלה של "אם" אלא של "מתי". ביל הסביר שהם מודדים כמה זמן המערכת באמת התקדמה ולא בזבזה על "Rewinds" (חזרה ל-Checkpoint קודם בגלל קריסה). כשהוא סיפר שהיעד שלהם הוא 95% זמן עבודה נטו, זה נשמע לי בהתחלה כמעט בלתי אפשרי במערכת בסדר גודל כזה.
דיברנו גם על הדינמיקה שבין ה-Pre-training ל-Inference. בפרודקשיין, המתח הוא תמיד בין הדיוק (Accuracy) ליציבות. ביל חידש לי כשהציג את התפיסה שלו לגבי Hybrid AI: העתיד הוא לא רק בענן, אלא בניתוב חכם. המערכת תדע לנתח את השאילתה בזמן אמת ולהחליט אם להריץ אותה On-device (משימות פשוטות או פרטיות) או להקפיץ אותה לענן למשימות מורכבות יותר. ההחלטה הזו עצמה היא מודל AI קטן שלומד את הקשר המשתמש.
עוד נושא שאותי מאוד עניין היה על המתח שבין הדיוק ליציבות. ביל הסביר לי שבעוד שבמחקר שואפים לתוצאות הטובות ביותר בבנצ'מרקים, בפועל, ב-Production חייבים לוודא שהמודל לא קורס תחת העומס. מצאתי את עצמי מרותק להסבר שלו על איך גוגל מאזנת בין מודלים "חכמים מדי" לבין מודלים "יעילים מספיק" כדי להגיב תוך מילי-שניות.
אני מאוד ממליץ להאזין לפרק המלא ולשמוע את ההסברים הנרחבים שלו.
מוזמנים להאזין ,כאן.
2. ליאו לאונג (Leo Leung): ארכיטקטורה של סיליקון וזיכרון
אם ביל ג'יה אחראי על המוח, ליאו הוא האיש של הברזלים. ליאו הוא ה-Director of Product Management ב-AI & Computing Infrastructure בגוגל קלאוד ויחד צללנו עמוק לתוך החומרה של גוגל קלאוד. דיברנו על הדור ה-8 של ה-TPU וההפרדה האסטרטגית שגוגל עשתה: ה-v8t שמותאם אופטימלית ל-Training, לעומת ה-v8i שתוכנן ספציפית ל-Inference.
מה שבאמת תפס אותי זה הדגש על ה-SRAM. שבב ה-v8I החדש מגיע עם זיכרון מהיר (SRAM) גדול פי 3 מהדור הקודם. למה זה קריטי? כי בעולם של Agentic AI ושיחות ארוכות, ה-KV Cache (אחסון זמני של מפתחות וערכים מהקונטקסט) הופך לצוואר הבקבוק. הזיכרון המוגדל מאפשר להחזיק יותר קונטקסט "חם" קרוב למעבד, מה שמוריד את ה-Latency לרמות שמאפשרות לסוכנים להגיב כמעט מיידית.
מעבר לצ'יפ הבודד, ליאו תיאר את רשת ה-Virgo – הארכיטקטורה שמאפשרת לחבר 134,000 מעבדי TPU לכדי ישות מחשובית אחת. כל מי שקורא את הטקסטים שלי יודע עד כמה הנושא של Networking חשוב בסיקור שלי. השיחה עם ליאו הייתה בין השיחות המרתקות שהיו לי בנושא חומרה. פרק חובה לכל מי שרוצה להבין לעומק את התמונה המלאה של ה-TPU.
אם מעניין אותכם עולמות השבבים אני ממש ממליץ להאזין לפרק הפלא.
מוזמנים להאזין ,כאן.
3. ג'ון אבל (John Abel): המדע של הערכת סוכנים (Agent Evaluation)
השיחה עם ג'ון, Managing Director , ממשרד ה-CTO הייתה הכי פילוסופית, אבל גם הכי רלוונטית למי שמנסה ליישם AI בארגון. שאלתי אותו את שאלת המיליון דולר: איך יודעים אם הסוכן שבנינו באמת טוב?
ג'ון טען שהערכה (Evaluation) היא היום אתגר הנדסי גדול יותר מעצם הבנייה. הוא הסביר שהבנצ'מרקים הרגילים שלנו כבר לא מספיקים. ה-AI חייב להבין "הקשר" (Context), וזה משהו שקשה מאוד למדל בצורה דטרמיניסטית. מעבר לזה, ג'ון שיתף אותי בכמה טריקים גאונים שעוזרים לו להוציא את המירב מהסוכנים שלו – טריקים שאני לא חשבתי עליהם.
אבל מה שבאמת נחקק אצלי מהשיחה איתו הייתה האזהרה שלו לגבי המומחיות. ג'ון טען שמי שמשתמש ב-AI כדי לקצר דרכים בתחום שהוא לא מומחה בו, בעצם "מרמה את הקריירה שלו". ה-AI הוא מנוף למומחי דומיין; אם אין לך את הידע הבסיסי כדי להבין אם ה-Output שקיבלת הגיוני או מסוכן, אתה הופך להיות העובד הכי חלש בשרשרת. מבחינתו, ה-Agentic AI נועד להסיר את ה"חיכוך" (Friction), את כל הלוגיקה המשעממת והבירוקרטיה, כדי להחזיר אותנו לפתרון בעיות נישה יצירתיות.
לפרק המלא האזינו כאן.
סיכום
הסיור ב-Google Cloud Next הבהיר לי שמהפכת ה-AI עברה מהשלב של "לראות אם זה עובד" לשלב של "איך גורמים לזה לעבוד ביעילות, בסקייל ובאופן אחראי". בסדרת הראיונות הזו הייתה לי הזדמנות באמת חד פעמית לדבר עם האנשים שאחראים לבנות את המערכות שאנחנו משתמשים בהם – ובסקייל. למדתי הרבה מאוד מכל אחד וללא ספק אני עוד אחזור להרבה נקודת שעלו בשיחות האלה.
מי שרוצה לשמוע את השיחות המלאות, עם כל הניואנסים והפרטים הטכניים שלא נכנסו כאן – כל הראיונות עלו כפרקים מיוחדים בפודקאסט שלי, "Hidden Layers". מוזמנים להאזין!
לינק לכל הפרקים, כאן.


