טכניקות שונות ל-Exploratory Data Analysis (סיכום פוסט)

אורי אליאבייב, 16/06/2019

קטגוריה: Deep Learning, כללי

סיכום זה נכתב על ידי Gal Hever בהתבסס על פוסט זה.

שלב ראשון – חשיבה:

כתבו רשימה עם כל השאלות/השערות המעניינות שעולות לכם/ן על הדאטה.

שלב שני – סטטיסטיקות וויזואליזציות:

בדיקת מאפיינים בסיסיים כגון: nunique value_counts, nrows, max, min, isna().sum() , dtypes.
pandas profiling
אחוזונים
היסטוגרמות
סוגי התפלגות של כל feature
מדדי ספירמן בין משתנים.
מציאת חריגים
בדיקת קורלציות
פרופורציות של קבוצות
scatter plot matrix
Feature importance
בדיקת מקרי קיצון (גבול עליון ותחתון) וגם מקרה רגיל באופן פרטני
הצגת הדאטה בצורה הטבעית וחקירת המבנה
חוקי אסוסיאציות
לכל משתנה לבדוק אם יש לו מדד מרכזי אחד או שהוא mixed
הצגה של קרוס קורלציות

סוגי ויזואליזציות לפי סוג הדאטה:

גאוגרפי:

אם יש אינפורמציה על מיקוד, אפשר להמיר את זה לקווי גובה וקווי רוחב, ואז להציג על גבי מפה. אם יש אלמנט של זמן בנוסף, אפשר להוסיף וידיאו על גבי המפה.

טבלאי לא הומוגני:

בחינת התפלגות של ערכים בעמודה, ועל גבי scatter plot של זוגות של עמודות.

נתונים על משתמשים:

אם יש משתנים כמו משתמשים, כדאי לעשות חיתוכים לפי המשתמש בצורה טבלאית.

סדרות עתידיות:

קיבוץ לפי זמן והצגת גרפים כפונקציה של הזמן.

טקסט:

קריאת דגימות מכל תווית והצגת שכיחויות של מילים נפוצות.

תמונות:

הצגת המאפיינים הנוספים על גבי התמונות. לדוגמה, כל התמונות של החתולים, כל התמונות של הנמרים. מפות הסגמנטציה על גבי התמונות. וכד'.
PCA על תמונות.

במה יכול לתרום?

אם ספירמן בין 2 משתנים קופץ כמשמעותי, לראות אם יש מודל טבעי שמקשר בינהם (לינארי, אקספוננציאלי, לוגריתמי) – לא מודל מורכב, כלל האצבע הוא שאם זה פתרון למד"ח לינארי מסדר נמוך, אז זה כנראה בסדר. כמובן חשוב להפעיל פה הגיון בריא.
לכל משתנה לבדוק אם יש לו מדד מרכזי אחד או שהוא mixed – יכול לסייע בשביל למצוא latent variables בשלב מוקדם.
scatter plot matrix אם אין יותר מדי משתנים, זה נותן תחושה לגבי התפלגויות, קורלציות, אבל גם קשרים מעניינים אחרים בין משתנים שקשה למצוא בצורה אחרת.

שלב שלישי – שימוש במודלים למציאת תובנות נוספות:

הרצת מודל נאיבי/פשוט (בהתאם לסוג הבעיה) שאינו דורש tuning מיוחד או עיבוד מקדים.
רשתות קורלציה בין features
הוצאת מדדי אנטרופיה לכל משתנה.
יצירת דוגמאות מייצגות על ידי k-means ובחינת המרכזים.
deep learning מבלי tuning או מחשבה עמוקה.
בניית עץ החלטה בעומק 1, והסתכלות על החלוקה. חזרה על התהליך כדי להבין איפה נמצאת האינפורמציה בפיצ׳רים.
קלאסטרים רקורסיבים: ביצוע קלסטור על הדאטה ואז הסתכלות על קלסטרים בתוך הקלסטרים. על מנת להבין מבנים גדולים בדאטא שיכולים לקלקל את ההתפלגות של הפיצ׳רים.
ברוטפורס של כל העמודות על כל העמודות ומדידת אינפורמציה וקורלציה נאיבים ואז מיון התוצאות מהמובהקת ביותר לפחות. יכול לסייע בשביל להבין קשרים בין פיצ׳רים. אפשר לחזור על התהליך בשילוב עם הקלאסטרים משלב קודם על מנת לבדוק התפלגויות בתוך הקלאסטים ההיררכיים.

במה יכול לתרום?

רשתות קורלציה בין features יכולות לסייע בהסתכלות על הקשרים בין features ולקבץ אותם לקבוצות מעניינות (להסתכל לפעמים על העמודות ולפעמים על השורות).
מדדי אנטרופיה לכל משתנה – בשביל הדיבוג מאוחר יותר, להבין כמה מודלים מורכבים למדו.
ללמוד עם תכנות גנטי (gplearn) מסווג ואז להסתכל מה הקוד שהוא יצר.

מחברות/בלוגים לדוגמה:

https://nbviewer.jupyter.org/github/JosPolfliet/pandas-profiling/blob/master/examples/meteorites.ipynb?fbclid=IwAR1ozmm0ntxDLQrjKHX9RlpG8twqyZzbBR92IL5ffMsTkp6EJR5q2OnV1_0

https://github.com/meytala/seenopsis?fbclid=IwAR2cQREZeYGZThO45Yw43rr5S8koEHoJRQvieujdHIyC49_d3snxqeX5EP8

https://github.com/shirmeir/notebooks/blob/master/predicting_income_from_census_income_data.ipynb?fbclid=IwAR05K8C1yp-Vy-wBosGjaVE3nu3ZnfW6_rE1tB-WAjnf5eYO0izl8CqszyU

https://towardsdatascience.com/exploring-the-census-income-dataset-using-bubble-plot-cfa1b366313b?fbclid=IwAR1EtNi3mNrR20mZ9A_roakbvIhIKgZF0_Eq9ZlME8Yvc4l0MxWlP8JHogU

https://towardsdatascience.com/visualising-machine-learning-datasets-with-googles-facets-462d923251b3?fbclid=IwAR3FskY0YFBdV9vN96BtELb2XbLlQWcklRvxP7UbL-bAagFwn3HaC3FIgVE

https://github.com/PAIR-code/facets?fbclid=IwAR3OBzb9lUxW21P_A7YS7vd2DKIomDBBaDC4tWPdnKAOpgwSDBNO1d_aIXA

הפוסט נכתב על ידי

אורי אליאבייב

אורי אליאבייב הוא מייסד קהילת MDLI ויועץ בתחום הבינה המלאכותית אשר מסייע לגופים רבים לאמץ אסטרגיית AI. לצד זאת אורי הוא מרצה מנוסה המעביר הרצאות וסדנאות בהן הוא מנגיש את נושא ה-AI לקהל הרחב.

עוד בנושא:

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

כללי

טכניקות שונות ל-Exploratory Data Analysis (סיכום פוסט)

AI Edge: תובנות מעמיקות משיחה עם האראלד קרוגר מ-SiMa.AI על עתיד ה-AI בקצה

סקירה: Jetson Orin Nano – מחשב העל הקטן של אנוודיה

לקראת GTC 2025- אלו ההרצאות שלא תרצו לפספס!