עצים נגד רשתות טבלאיות: ממציא SKLEARN שחרר השוואה כבדה

ים פלג, 12/02/2023

קטגוריה: כללי

למה עצים עדיין מנצחים רשתות טבלאיות?

מאמר מאת: Gael Varoquaux וקבוצתו

אחד מיוצרי Sklearn ומפתח ראשי עד היום

המאמר: Why do tree-based models still outperform deep learning on typical tabular data?

לינק: https://openreview.net/forum?id=Fp7__phQszn

סיכום תוצאות:

בתקציב מחשוב קטן: ה-HistGradientBoosting של Sklearn הכי טוב. עם אופטימיזצית היפרפרמטרים: XGBoost מנצח.
בדאטהסטים גדולים – סיווג: רשתות מנצחות בתקציב מחשוב קטן
בדאטהסטים גדולים – רגרסיה: XGBoost תמיד הכי טוב.

עוד מהמאמר:

המאמר מעניין מאד, הם מבהירים מה מבדיל בין דאטהסטים טבלאיים לדאטה מסוגים אחרים בהם רשתות מנצחות (הטרוגניות העמודות) ובוחרים 45 דאטהסטים פתוחים עליהם הם מריצים חיפושים כבדים.

הם חוקרים את הביצועים הממוצעים כפונקציה של כוח החישוב: כמו שאתם יודעים: עצים מנצחים כרגע וקלים יותר להפעלה בלי יותר מידי התעסקות עם היפרפרמטרים.
זה לא בגלל העמודות הקטגוריאליות: הם בודקים גם על דאטהסטים המכילים רק עמודות רציפות וגם בהם עצים מנצחים.
עצים מנצחים גם כשלוקחים בחשבון את זמן החישוב. לצערי.
בדאטהסטים גדולים הפער קטן. לפחות משהו!
הם חוקרים אילו פיצ'רים בדיוק מסבירים את ההבדל בין עצים לרשתות, לשם כך הם משנים פיצ'רים טבלאיים כדי לצמצם את הפער לטובת הרשתות.
החלקת התוצאה במרחב הפיצ'רים מצמצמת את הפער: רשתות עמוקות לא לומדות טוב דפוסים פחות חלקים ולעצים לא אכפת מכלום כשזה מגיע לנושאים האלה.
רשתות פחות טובות בלהתעלם מעמודות רעש מעצים. אם מעיפים עמודות לא אינפורמטיביות מהדאטה, הפער מצטמצם. (מעניין ושימושי בטירוף!)
בגדול הם ממשיכים לבלגן את הדאטה בכל מיני צורות ובודקים את ההשפעות. מעניין מאד אם אתם חוקרים רשתות טבלאיות.
הכל פתוח: הדאטהסטים, המדדים, הקוד.. הריצו בעצמכם!