עצים נגד רשתות טבלאיות: ממציא SKLEARN שחרר השוואה כבדה
למה עצים עדיין מנצחים רשתות טבלאיות?
מאמר מאת: Gael Varoquaux וקבוצתו
אחד מיוצרי Sklearn ומפתח ראשי עד היום
המאמר: Why do tree-based models still outperform deep learning on typical tabular data?
סיכום תוצאות:
-
בתקציב מחשוב קטן: ה-HistGradientBoosting של Sklearn הכי טוב. עם אופטימיזצית היפרפרמטרים: XGBoost מנצח.
-
בדאטהסטים גדולים – סיווג: רשתות מנצחות בתקציב מחשוב קטן
-
בדאטהסטים גדולים – רגרסיה: XGBoost תמיד הכי טוב.
עוד מהמאמר:
המאמר מעניין מאד, הם מבהירים מה מבדיל בין דאטהסטים טבלאיים לדאטה מסוגים אחרים בהם רשתות מנצחות (הטרוגניות העמודות) ובוחרים 45 דאטהסטים פתוחים עליהם הם מריצים חיפושים כבדים.
-
הם חוקרים את הביצועים הממוצעים כפונקציה של כוח החישוב: כמו שאתם יודעים: עצים מנצחים כרגע וקלים יותר להפעלה בלי יותר מידי התעסקות עם היפרפרמטרים.
-
זה לא בגלל העמודות הקטגוריאליות: הם בודקים גם על דאטהסטים המכילים רק עמודות רציפות וגם בהם עצים מנצחים.
-
עצים מנצחים גם כשלוקחים בחשבון את זמן החישוב. לצערי.
-
בדאטהסטים גדולים הפער קטן. לפחות משהו!
-
הם חוקרים אילו פיצ'רים בדיוק מסבירים את ההבדל בין עצים לרשתות, לשם כך הם משנים פיצ'רים טבלאיים כדי לצמצם את הפער לטובת הרשתות.
החלקת התוצאה במרחב הפיצ'רים מצמצמת את הפער: רשתות עמוקות לא לומדות טוב דפוסים פחות חלקים ולעצים לא אכפת מכלום כשזה מגיע לנושאים האלה. -
רשתות פחות טובות בלהתעלם מעמודות רעש מעצים. אם מעיפים עמודות לא אינפורמטיביות מהדאטה, הפער מצטמצם. (מעניין ושימושי בטירוף!)
-
בגדול הם ממשיכים לבלגן את הדאטה בכל מיני צורות ובודקים את ההשפעות. מעניין מאד אם אתם חוקרים רשתות טבלאיות.
-
הכל פתוח: הדאטהסטים, המדדים, הקוד.. הריצו בעצמכם!