close menu

עצים נגד רשתות טבלאיות: ממציא SKLEARN שחרר השוואה כבדה

למה עצים עדיין מנצחים רשתות טבלאיות?
מאמר מאת: Gael Varoquaux וקבוצתו

אחד מיוצרי Sklearn ומפתח ראשי עד היום

המאמר: Why do tree-based models still outperform deep learning on typical tabular data?
סיכום תוצאות:
  • בתקציב מחשוב קטן: ה-HistGradientBoosting של Sklearn הכי טוב. עם אופטימיזצית היפרפרמטרים: XGBoost מנצח.
  • בדאטהסטים גדולים – סיווג: רשתות מנצחות בתקציב מחשוב קטן
  • בדאטהסטים גדולים – רגרסיה: XGBoost תמיד הכי טוב.

עוד מהמאמר:
המאמר מעניין מאד, הם מבהירים מה מבדיל בין דאטהסטים טבלאיים לדאטה מסוגים אחרים בהם רשתות מנצחות (הטרוגניות העמודות) ובוחרים 45 דאטהסטים פתוחים עליהם הם מריצים חיפושים כבדים.
  • הם חוקרים את הביצועים הממוצעים כפונקציה של כוח החישוב: כמו שאתם יודעים: עצים מנצחים כרגע וקלים יותר להפעלה בלי יותר מידי התעסקות עם היפרפרמטרים.
  • זה לא בגלל העמודות הקטגוריאליות: הם בודקים גם על דאטהסטים המכילים רק עמודות רציפות וגם בהם עצים מנצחים.
  • עצים מנצחים גם כשלוקחים בחשבון את זמן החישוב. לצערי.
  • בדאטהסטים גדולים הפער קטן. לפחות משהו!
  • הם חוקרים אילו פיצ'רים בדיוק מסבירים את ההבדל בין עצים לרשתות, לשם כך הם משנים פיצ'רים טבלאיים כדי לצמצם את הפער לטובת הרשתות.
    החלקת התוצאה במרחב הפיצ'רים מצמצמת את הפער: רשתות עמוקות לא לומדות טוב דפוסים פחות חלקים ולעצים לא אכפת מכלום כשזה מגיע לנושאים האלה.
  • רשתות פחות טובות בלהתעלם מעמודות רעש מעצים. אם מעיפים עמודות לא אינפורמטיביות מהדאטה, הפער מצטמצם. (מעניין ושימושי בטירוף!)
  • בגדול הם ממשיכים לבלגן את הדאטה בכל מיני צורות ובודקים את ההשפעות. מעניין מאד אם אתם חוקרים רשתות טבלאיות.
  • הכל פתוח: הדאטהסטים, המדדים, הקוד.. הריצו בעצמכם!
עוד בנושא: