אם אין להם מושג, שישימו עוגות

הקורא יואב (תודה, יואב) שלח לנו את רצף הגרפים הזה שהופץ בטוויטר, ומראה, כרגיל, שימוש מוטעה ומיותר לחלוטין בגרף עוגה, הגרף האהוב על עורכים שרוצים למלא פיקסלים על דף העיתון גם בלי שיהיה להם משמעות כלשהי.

רצף הנתונים הללו מראה את ממוצע השערים למשחק של שחקן כדורגל כלשהו (אני מניח), כשהסיפור שמנסים לספר, ע”פ הטקסט המצורף, הוא שאחרי ירידה בהישגים לאורך כמה עונות, השחקן חוזר imageלעצמו ולממוצע השערים שלו.

נעזוב שניה את העבודה שקשה לקבוע טרנד ע”פ רבע-עד-חמישית ממספר המשחקים המוצע לעונה, ונתמקד בעובדה שגרף עוגה הוא, כמו במקרים רבים, לא הגרף הנכון לסיפור הזה. גרף עוגה נועד להשוות בקלות בין כמה מרכיבים שונים שהם חלק משלם אחד. אבל כאן השוואה היא בין כמה עוגות שונות, מה שמקשה על הקורא להבחין באמת בהבדלים מעבר לרמה הגסה ביותר. אין לי דרך טובה להרגיש בעין עם 2016-2017 גדול מ-2017-2018, למשל. הגרף המתבקש והנוח להשוואה כזו הוא גרף עמודות פשוט, מסובב ב-90 מעלות כדי שילווה את הנתונים המספריים.

לא מסובך, נכון? אז מה גרם לעורך העיתון להחליט דווקא ללכת על עוגות? אני חושב שהגורם הוא הנתון שאותו הוא בא להציג, נתון שנראה, במבט ראשון, כמו נתון חלקי מהסוג שנרצה להציג בעוגה. הנתון הוא היחס בין השערים למשחקים – 8 מתוך 10, 17 מתוך 51, וכו’. “אה, מדובר על נתח מתוך כלל? אז זה גרף עוגה!” נעשה עוגה שה-100% שלה הוא ה-51, נדגיש את ה-17 מתוכו, ויש לנו עוגה!

אבל הנתון הזה, של ה-17/5/ או 19/52, הוא לא באמת נתון אמיתי. ה-17 שערים הם לא חלק מתוך ה-51 משחקים. זה לא שהמשחקים מורכבים משערים. הם פשוט משהו שקורה בתוך משחק. זה לא שונה מלהציג נתון של תאונות דרכים בחודש, נגיד, ולהציג גרף של “ב-10 חודשים מתוך 2017 היו 7 תאונות דרכים, אז נציג גרף עוגה שמלא ב-70%. ומה היה קורה אם השחקן היה מבקיע יותר משער אחד למשחק, בממוצע? איך היו מייצגים את זה בעוגה?

הנתון האמיתי שמדברים עליו הוא שיעור השערים למשחק. הוא יכול להיות פחות מ-1 או יותר מ-1, ואפשר להשוות אותו לשנים אחרות. אבל זהו. כל דבר אחר זה רק משחק עם ציורים.

כמה ון זה יותר מדי ון?

אני אוהב דיאגרמות ון. מי לא אוהב דיאגרמות ון? הנה, דיאגרמת ון, לא?

imageאז אתם יודעים מה? מסתבר שלא. זו לא ממש דיאגרמת ון. דיאגרמת ון, כך מסתבר, היא רק דיאגרמה שמחברת בין כל העיגולים שמשתתפים בה. אז שני העיגולים הלא נוגעים שם למעלה? לא דיאגרמת ון. דיאגרמה שבה יש עיגולים שלא חותכים עם כל העיגולים האחרים? לא דיאגרמת ון. מה אתם יודעים. אני הופתעתי.Venn diagrams vs Euler diagrams example using the card deck

אז מה הם כן, אם הם לא דיאגרמת ון? מסתבר שהם דיאגרמת אוילר (Euler), בעוד דיאגרמות ון באות להראות את כל החיתוכים וההצטלבויות האפשריים בין הקבוצות שמופיעות בתרשים, גם אם הן קבוצות ריקות, כמו הקבוצה של קלפים שחורים שהם גם יהלומים כאן, או של הקלפים השחורים שהם גם קלפים אדומים. או של קלפים שחורים שהם גם קלפים אדומים וגם יהלומים. דיאגרמת אוילר, לעומת זאת, באה להראות רק חיתוכים ויחסים שבאמת קיימים בנתונים שלנו – אם אין חיתוך בין קלפים שחורים ואדומים, אז העיגולים לא יחתכו. אם כל היהלומים הם גם קלפים אדומים, אז הם יהיו מוכלים בתוכם.

יותר מדי ון

אז מה בעצם אני רוצה ממכם, חוץ מלהתקטנן על טקסונומיות מדויקות של אלמנטים אינפוגרפיים? ובכן, כן, אני כאן בשביל להתקטנן על אלמנטים אינפוגרפיים (זוכרים איפה אתם?), אבל מעבר לזה, להגיד לכם שבזכות הגילוי הזה, העברתי הרבה מנאמנותי וחיבתי מדיאגרמות ון לדיאגרמות אוילר – הון של האדם השפוי. למה שפוי? בגלל דיאגרמת הן הזו שרצה לה באינטרנט בימים האחרונים:

עכשיו, זו ללא ספק בדיחה, אם כי אחת מושקעת, אבל שמראה את המגבלות של הפורמט הזה, של דיאגרמות ון. מה שנחמד בדיאגרמה הזו היא שאפשר היה לראות אותה גדלה ומתנפחת מיום ליום. זה התחיל פשוט, עם שלוש קבוצות:

Image result for venn diagram hands in the airכאן הכל עדיין לגמרי קריא. שלוש קבוצות + שלושה חיתוכים בין שתי קבוצות + חיתוך משולש = שבעה פריטים על הדיאגרמה, ואפשר להבין את הבדיחה. אבל האינטרנט, כידוע, לא יכול לתת לבדיחה טובה לשבת, ומהר מאד קיבלנו גרסה של ארבע:

Image result for venn diagram hands in the airכאן זה כבר מתחיל להיות לנו כבד וצפוף, כפי שהשינויים בגודל הפונט מראים. כאן כבר יש לנו 13 קבוצות שונות, ונהיה קשה להבין מי בעצם הוא חיתוך עם מי – I know you’re better than this זה של מטיפים, ושל.. רגע, דיג’ייז, ואז כנראה גם של האמא שמורידה סוודר לילד. אבל רגע, לא חסרים לנו חיתוכים בין שודדי בנק ומטיפים (בלבד) ובין אמהות ותקליטנים? אולי. לא יודע. בלאגן שם בפנים. אבל אז נחזור לגרסה של החמש שראינו קודם:

בכנות? אין לי מושג מה קורה שם ואני לא בטוח שיש לי כח להפריד את החוטים הסבוכים של החיתוכים שם. הבדיחה הבסיסית היא במחומש המרכזי המשותף, ברור. אבל כאן אפשר לראות שהמעצב הרגיש צורך להכניס צבעים בשביל להקל על פענוח התרשים. יש שם… 31 אפשרויות? אני לא בטוח. ללא ספק הרבה יותר מאשר בגרסה של ה-4. והצבעים לא לגמרי עובדים, כי מהר מאד השילובים של צבעי הפסטל הופכים לחום אפור ואין לך מושג ממש מה שייך למה.

דיאגרמת ון, בקיצור, נהיית *ממש* לא אפקטיבית בהעברת מידע אם יש לך יותר מארבע קבוצות. ברגע שהאינפוגרפיקה דורשת יותר מאמץ מאשר הנתונים הגולמיים, פספסנו משהו במטרה שלה. זה נכון שיש דרכים לשפר את הקריאות, וזה נכון שבקונטקסטים הנכונים, אתה יכול לצפות שהקוראים שלך יהיו מנוסים ומתורגלים יותר בפענוח התרשים, כמו למשל בתרימים כאלה של חפיפה של מאפיינים גנטיים בקבוצות אוכלוסיה דומות – הבחירה באליפסות במקום עיגולים, הצבעים החזקים וזוויות מקלים על מציאת ההקשר של כל מספר, אבל זה עדיין מורכב ומסובך.

A Venn diagram illustrating overlap of OTUs for nasopharynx, saliva, dominant hand and feces from healthy Chinese undergraduates. A total of 7916 OTUs were detected. Only thirty-seven OTUs were detected in all four habitats.

אז אני לא אומר לא להשתמש בדיאגרמות ון. ואני בטח ובטח לא אומר להמנע מבדיחות מבוססות דיאגרמות ון. אני רק אומר שלא למהר דווקא להשתמש בהם בשביל להעביר, באמת, מידע אמיתי בלי לחשוב על הסיטואציות שבהן זה מתאים.

ולסיום, כמובן, האינטרנט לא יודע מתי להפסיק.

 

מסרים צולבים

שר החינוך נפתלי בנט פירסם היום בחשבון הטוויטר שלו את הגרף הבא, עם ההאשטג “חינוך_בתנופה”, שבו הוא מתגאה בכך שבשנים האחרונות היתה ירידה במס’ ההולכים ללימודי משפטים, ועליה בלימודי הנדסה ומחשבים. אני לא אכנס לשאלה אם זה דבר טוב או לא, או מה כוללים הלימודים הללו (תארים אקדמאים בלבד? מכללות?) כי זה לא העניין כאן. העניין הוא, כמובן, הגרף, ומצג השווא הברור שהוא מנסה להעביר.

 

על גרפים מצטלבים כבר כתבנו לפני כמה שנים, ועל הבעיה הבסיסית שלהם – שהם מתיימרים להציג נקודה שבה נתון א’ “חצה” את נתון ב’, ולהתייחס אליו כהישג. בגרף הזה, נראה שהרגע הזה היה בין תשע”ה לתשע”ו (לא ברור בדיוק מתי, כמובן, כי לא ברור כמה נקודות-מידע יש, מה הרציפות שלהם, וכו’). מתישהו הצטלבו הגרפים, ויש לנו יותר תלמידי הנדסה מאשר משפטים. מה, לא?

הסוד בהטעיה הוא ששני הגרפים יושבים על אותו מרחב גרפי, אבל על צירים שונים. לומדי משפטים הם על ציר שבין 13,000-21,000, בעוד לומדי ההנדסה (פלוס מחשבים, כן? גם אלה שלא מקבלים תואר מהנדס, אבל נעזוב את ההטעיה הזו בכותרת) נעים על ציר שבין 43,000-51,000. כלומר גם אם הגרף האדום של המשפטים היה על החלק העליון של הגרף לכל אורכו, בעוד המשפטים היה על הקו התחתון, עדיין היה לנו פי שניים סטודנטים להנדסה (ומחשבים, וכו’) מאשר למשפטים. נקודת הפתיחה, שמראה כאילו יש יותר לומדי משפטים מאשר הנדסה (בכשליש(!) מגובה הגרף) היא מטעה, כי מדובר על כ-16,000 במשפטים לעומת כ-43,500 בהנדסה – כמעט פי שלוש.

אז מה באמת הנתונים אומרים? שהיתה לנו ירידה של כ-18% בלומדי משפטים (מ-16 אלף ל-13 אלף, ע”פ הגרף) ועליה של כ-16% בלומדי הנדסה (וכו’) (מ-43,500 ל-50,500, בהערכה גסה בעין).

ובינינו? זה לא מעט. לא יודע מה הגורמים, אבל שינוי של 15-20% תוך 5 שנים נראה לי לא מבוטל. הבעיה היא שזה לא הסיפור שהגרף מספר. הגרף מספר על הצטלבות, מהפך, שינוי העליונות מא’ לב’. זה הסיפור שגרף קווים מצטלב יודע לספר. אם היינו משנים את טווח הצירים להיות אחיד, היינו רואים משהו הרבה פחות דרמטי. אבל הדרמה זה העניין כאן, לא ההשוואה, הרי.

וככה זה היה נראה בגרף פשוט באקסל, בלי צירים נפרדים. הרבה פחות דרמטי, כמובן. וזה כשאני הדגשתי את ההבדלים ככל האפשר ע”י קיצוץ מערכת הצירים (ע”ע).

image