כשמאה הוא לא מאה (אחוז)

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

image

image

בין יחס לעוגה

אחרי כמה שנים ככתב טכנולוגי, ההערכה שלי לאתרי חדשות טכנולוגיה היא לא מהגבוהות שבהן, ובטח שלא כשזה מגיע לשימוש שלהן באינפוגרפיקה. לכן לא הופתעתי לראות – ולהתעצבן – מהגרף הזה, שהגיע מאתר Mashable, בנוגע (משום מה) לחלוקת ההון בארה”ב:

מה אנחנו חושבים שאנחנו רואים כאן? את החלוקה של ההכנסות השנתיות בין העשירון העליון לבין תשעת העשירונים התחתונים, לא? אה, לא, רגע, בין האלפיון העליון ל-999 האלפיונים התחתונים. אה, גם לא? אז מה בעצם יש לנו כאן? ולמה שני הפלחים לא לגמרי מתואמים?

מה שיש לנו, כרגיל, זה גרף שנראה כמו עוגה שמגויס לתפקיד שהוא לא תוכנן אליו. גרף עוגה בא להראות איך סכום כלשהו – 100% כלשהם – מתחלקים בין חלקים שונים. אבל הגרף הזה לא מנסה להראות איך 100% מההכנסות השנתיות בארה”ב מתפלגות. הוא רק בא להראות שקבוצה א’’ (האלפיון העליון) וקבוצה ב’ (תשעת העשירונים התחתונים) מכניסים סכום דומה. לאיפה נעלמו ה-9.9% הנותרים? הם לא רלבנטיים, כי הגרף לא מדבר על ה-100% מההכנסה – רק על השוואה יחסית. וחוס התיאום בין שני הפלחים של העוגה מראים לנו שאין לנו כאן באמת עוגה, אלא רק שני פלחים שמוצמדים זה לזה.

כשהתחלתי לחשוב על זה, ראיתי שזה לא בעצם השוואה שכל כך קל לעשות באופן גראפי פשוט. דרך אחת אפשרית היא לעשות גרף עמודות שמשווה את ההכנסה של האלפיון העליון להכנסה הממוצעת של אלפיון בודד מתוך תשעת העשירונים התחתונים. אבל עם הפערים הללו, קשה להעביר נקודה אינפוגרפית משמעותית. הנה הנסיון שלי של גרף עמודות פשוט באקסל:

image

היחס כאן הוא 1:900, וזה פשוט לא עובר טוב בגרף ברזולוציה נורמלית. ומעבר לזה, ממוצעים תמיד מרדדים את התמונה – מה זה “אלפיון ממוצע מתשע העשירונים התחתונים”? זו מטריקה חסרת משמעות.

צורה אחרת להראות את זה היא הפוכה – להראות את אותו היחס, 1:900, מבחינת כמות האנשים שמרכיבים את הקבוצות הללו – להראות עד כמו 0.1% מהאוכלוסיה, אלפיון בודד, הוא קטן יותר מ-90% מהאוכלוסיה – כלומר להשאיר את ההכנסה כקבוע, ולהתייחס להפרשי גדלים בקבוצה, וזו כבר הסתכלות יותר משמעותית – הסכום לא משנה, רק היחס בין כמות האנשים. ואז ראיתי ש-Mashable בעצם כבר עשו את זה – הגרף שלמעלה, שמשותף ברחבי המדיה החברתית, הוא רק חצי מהגרף שבאתר:

image

וככה זה נראה כשאותו הגרף מייצג את היחס בגודל האוכלוסיה שמחזיקה בהכנסה הזו. לא ספרתי פיקסלים הפעם בשביל לבדוק את חצי העיגול האדום באמת מכיל פי 900 פיקסלים מאשר הירוק, אבל גם אם לא, זה קרוב מספיק ומעביר את הנקודה. והכי חשוב – מראה שלא מדובר כאן בגרף עוגה, אלא פשוט בהצגת יחס גודל בין שני חצאי עיגול.

נו. ולא יכלו למצוא משהו פחות מבלבל?