מה הסיפור של עוגה מנופחת

רק עברו כמה ימים מאז שכתבתי פוסט על הסכנות וההטעיות בעוגות תלת מימדיות, והנה התפרסם בבלוג Junk Charts של קייזר פונג (שהוא במידה רבה ההשראה לבלוג הזה) דוגמה קיצונית אפילו יותר:

בגרף הזה, מבית ההשקעות צ'ארלס שוואב, מציג נתונים פשוטים. באמת, באמת פשוטים. הנה הנתונים הללו בעוגה פשוטה:

לא מסובך, נכון? שלושה פלחים, בלי יותר מדי תחכום. אבל מישהו בצ'ארלס שוואב החליט להתחכם, והפך את העוגה לתלת מימדית. אבל בניגוד לעוגה התלת-מימדית מהפוסט הקודם, שם הנפח של העוגה מוסיף משקל אקראי לפלג שבמקרה בקדמת הגרף, כאן מדובר בניפוח של פלחים ביחס ישר לנתון שלהם, מה שאומר שבעצם היחס בין פלחים מוקצן ומועצם – אם 60% הוא קצת פחות מפי 2 מ-35, אז בגרף מנופח כזה, הנפח של הפלח הזה הוא הרבה יותר מפי 2 מהמקום השני.

בחישוב מהיר וגס, בעוגה שטוחה היחס בין 35% ל-60% הוא 1.71. אבל בעוגה מנופחת, אז הפלח הגדול הוא מתוך עוגה שהיא, בסה"כ שלה, גדולה פי 1.71 מהעוגה של המקום השני. כלומר אם אני מחשב נכון (ואתם מוזמנים לתקן אותי), מדובר כאן בפלח כחול שהנפח שלו הוא פי (1.71*1.71, כלומר) 2.94 מהנפח של הפלח הבא בתור (שהוא 35% מתוך עוגה שנפחה הכולל הוא קטן יותר מהעוגה הכחולה). מיחס של קצת יותר מפי 2, הגענו ליחס של כמעט פי 3.

אז אם נחזור למנטרה שלנו – מה הבחירה האינפוגרפית הזו עושה? איזה סיפור היא מעבירה? הסיפור שהיא מעבירה הוא של הקצנת הפערים. בדומה לקיצוץ בסיס מערכת הצירים, זו בחירה (מודעת או שלא) שלוקחת את הנתונים הגולמיים ומספרת סיפור שמקצין את ההבדלים בין הנתונים, בניגוד לסיפור שמטשטש את ההבדלים. האם זה ברור מהגרף שזה מה שהוא עושה? לא, אני לא חושב שזה מוצהר במפורש. וזה מה שהופך את הגרף, במודע או שלא,למניפולטיבי.

אם אין להם מושג, שישימו עוגות

הקורא יואב (תודה, יואב) שלח לנו את רצף הגרפים הזה שהופץ בטוויטר, ומראה, כרגיל, שימוש מוטעה ומיותר לחלוטין בגרף עוגה, הגרף האהוב על עורכים שרוצים למלא פיקסלים על דף העיתון גם בלי שיהיה להם משמעות כלשהי.

רצף הנתונים הללו מראה את ממוצע השערים למשחק של שחקן כדורגל כלשהו (אני מניח), כשהסיפור שמנסים לספר, ע”פ הטקסט המצורף, הוא שאחרי ירידה בהישגים לאורך כמה עונות, השחקן חוזר imageלעצמו ולממוצע השערים שלו.

נעזוב שניה את העבודה שקשה לקבוע טרנד ע”פ רבע-עד-חמישית ממספר המשחקים המוצע לעונה, ונתמקד בעובדה שגרף עוגה הוא, כמו במקרים רבים, לא הגרף הנכון לסיפור הזה. גרף עוגה נועד להשוות בקלות בין כמה מרכיבים שונים שהם חלק משלם אחד. אבל כאן השוואה היא בין כמה עוגות שונות, מה שמקשה על הקורא להבחין באמת בהבדלים מעבר לרמה הגסה ביותר. אין לי דרך טובה להרגיש בעין עם 2016-2017 גדול מ-2017-2018, למשל. הגרף המתבקש והנוח להשוואה כזו הוא גרף עמודות פשוט, מסובב ב-90 מעלות כדי שילווה את הנתונים המספריים.

לא מסובך, נכון? אז מה גרם לעורך העיתון להחליט דווקא ללכת על עוגות? אני חושב שהגורם הוא הנתון שאותו הוא בא להציג, נתון שנראה, במבט ראשון, כמו נתון חלקי מהסוג שנרצה להציג בעוגה. הנתון הוא היחס בין השערים למשחקים – 8 מתוך 10, 17 מתוך 51, וכו’. “אה, מדובר על נתח מתוך כלל? אז זה גרף עוגה!” נעשה עוגה שה-100% שלה הוא ה-51, נדגיש את ה-17 מתוכו, ויש לנו עוגה!

אבל הנתון הזה, של ה-17/5/ או 19/52, הוא לא באמת נתון אמיתי. ה-17 שערים הם לא חלק מתוך ה-51 משחקים. זה לא שהמשחקים מורכבים משערים. הם פשוט משהו שקורה בתוך משחק. זה לא שונה מלהציג נתון של תאונות דרכים בחודש, נגיד, ולהציג גרף של “ב-10 חודשים מתוך 2017 היו 7 תאונות דרכים, אז נציג גרף עוגה שמלא ב-70%. ומה היה קורה אם השחקן היה מבקיע יותר משער אחד למשחק, בממוצע? איך היו מייצגים את זה בעוגה?

הנתון האמיתי שמדברים עליו הוא שיעור השערים למשחק. הוא יכול להיות פחות מ-1 או יותר מ-1, ואפשר להשוות אותו לשנים אחרות. אבל זהו. כל דבר אחר זה רק משחק עם ציורים.

כשמאה הוא לא מאה (אחוז)

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

image

image

בין יחס לעוגה

אחרי כמה שנים ככתב טכנולוגי, ההערכה שלי לאתרי חדשות טכנולוגיה היא לא מהגבוהות שבהן, ובטח שלא כשזה מגיע לשימוש שלהן באינפוגרפיקה. לכן לא הופתעתי לראות – ולהתעצבן – מהגרף הזה, שהגיע מאתר Mashable, בנוגע (משום מה) לחלוקת ההון בארה”ב:

מה אנחנו חושבים שאנחנו רואים כאן? את החלוקה של ההכנסות השנתיות בין העשירון העליון לבין תשעת העשירונים התחתונים, לא? אה, לא, רגע, בין האלפיון העליון ל-999 האלפיונים התחתונים. אה, גם לא? אז מה בעצם יש לנו כאן? ולמה שני הפלחים לא לגמרי מתואמים?

מה שיש לנו, כרגיל, זה גרף שנראה כמו עוגה שמגויס לתפקיד שהוא לא תוכנן אליו. גרף עוגה בא להראות איך סכום כלשהו – 100% כלשהם – מתחלקים בין חלקים שונים. אבל הגרף הזה לא מנסה להראות איך 100% מההכנסות השנתיות בארה”ב מתפלגות. הוא רק בא להראות שקבוצה א’’ (האלפיון העליון) וקבוצה ב’ (תשעת העשירונים התחתונים) מכניסים סכום דומה. לאיפה נעלמו ה-9.9% הנותרים? הם לא רלבנטיים, כי הגרף לא מדבר על ה-100% מההכנסה – רק על השוואה יחסית. וחוס התיאום בין שני הפלחים של העוגה מראים לנו שאין לנו כאן באמת עוגה, אלא רק שני פלחים שמוצמדים זה לזה.

כשהתחלתי לחשוב על זה, ראיתי שזה לא בעצם השוואה שכל כך קל לעשות באופן גראפי פשוט. דרך אחת אפשרית היא לעשות גרף עמודות שמשווה את ההכנסה של האלפיון העליון להכנסה הממוצעת של אלפיון בודד מתוך תשעת העשירונים התחתונים. אבל עם הפערים הללו, קשה להעביר נקודה אינפוגרפית משמעותית. הנה הנסיון שלי של גרף עמודות פשוט באקסל:

image

היחס כאן הוא 1:900, וזה פשוט לא עובר טוב בגרף ברזולוציה נורמלית. ומעבר לזה, ממוצעים תמיד מרדדים את התמונה – מה זה “אלפיון ממוצע מתשע העשירונים התחתונים”? זו מטריקה חסרת משמעות.

צורה אחרת להראות את זה היא הפוכה – להראות את אותו היחס, 1:900, מבחינת כמות האנשים שמרכיבים את הקבוצות הללו – להראות עד כמו 0.1% מהאוכלוסיה, אלפיון בודד, הוא קטן יותר מ-90% מהאוכלוסיה – כלומר להשאיר את ההכנסה כקבוע, ולהתייחס להפרשי גדלים בקבוצה, וזו כבר הסתכלות יותר משמעותית – הסכום לא משנה, רק היחס בין כמות האנשים. ואז ראיתי ש-Mashable בעצם כבר עשו את זה – הגרף שלמעלה, שמשותף ברחבי המדיה החברתית, הוא רק חצי מהגרף שבאתר:

image

וככה זה נראה כשאותו הגרף מייצג את היחס בגודל האוכלוסיה שמחזיקה בהכנסה הזו. לא ספרתי פיקסלים הפעם בשביל לבדוק את חצי העיגול האדום באמת מכיל פי 900 פיקסלים מאשר הירוק, אבל גם אם לא, זה קרוב מספיק ומעביר את הנקודה. והכי חשוב – מראה שלא מדובר כאן בגרף עוגה, אלא פשוט בהצגת יחס גודל בין שני חצאי עיגול.

נו. ולא יכלו למצוא משהו פחות מבלבל?