לחשוב מחוץ לצירים

כתבתי כאן בעבר כבר על החשיבות בבחירת טווח הערכים בציר המספרים של הגרף שלך. האם הוא מתחיל מ-0 ומגיע עד 100%? ואם הגרף הוא לא באחוזים, לאן הוא מגיע? כמה מעל נקודות המידע הגבוהה ביותר שלך צריך אותו?

אחת ההטיות הנפוצות ביותר שקשורה לבחירת טווח ציר המספרים היא קיצוץ בסיס הציר, כמו שכתבתי כבר כאן וכאן. אבל מעניינת לא פחות הבחירה בטווח המספרים שיכול לגרום לגרף להראות גבוה או נמוך, תלול או שטוח, כמו שרואים כאן. אבל לפני כמה ימים נתקלתי בשימוש שונה לטכניקה, לא קיצוץ בסיס הצירים, אלא דווקא קיצוץ הטווח העליון שלהם כך שיהיה נמוך מנקודות המידע שלו:

מה הגרף הזה אומר לנו בבחירה המוזרה הזו, שציר ה-Y מגיע עד 50%, בעוד שתיים משלוש נקודות המידע הן מעל 50%? יש כאן אולי רצון להדגיש את ההבדל בין 51/53 ובין 36, כי אם הציר היה מגיע עד 55%, נגיד, אז ההבדל בין 51% לבין 36% היה קטן יותר – אבל ההבדל קטן וזניח, לדעתי. פיקסלים בודדים. אבל מה הגרף הזה בכל זאת משדר לנו?

אני חושב שהבחירה לשים את נקודות המידע מעל לגבול העליון של הציר משדר, במובלע, שהנתונים הללו הם גבוהים, אבסולוטית. זו טענה שקשה לטעון בגרף השוואתי, כי הוא יכול רק להגיד לנו מה יותר, מה פחות. אבל הבחירה לתחום את הציר ב-50% נותן לגרף תוקף נורמטיבי מובלע, לדעתי, שמרמז ש-51% ו-53% זה גבוה מאד. זה גבוה מדי. זו לא טענה שבאה מהנתונים, כמובן. והיא לא טענה מפורשת. היא הסאבטקסט שאני מקבל מהבחירה העיצובית, האינפוגרפית הזו. וזה שימוש מעניין, לדעתי, בניואנסים של הכלי – בהנחה שהוא אפקטיבי, כמובן, ומעביר מסר כלשהו, עדין ככל שיהיה, לאנשים שלא משקיעים מזמנם בניתוח-יתר של גרפים.

מה לעשות כשאין לנו סיפור

אינפוגרפיקות, כפי שאמרנו כאן פעמים רבות, הן כלי נהדר לספר סיפור. הן מאפשרות לנו לקחת את חומר הגלם של הנתונים ולייצור ממנו מסר חד ומדויק. או לטשטש אותו, כמובן. האינפוגרפיקות יכולות לעזור לנו להפוך טבלה משעממת למסקנה ברורה. בהנחה, כמובן, שיש לנו מסקנה. בהנחה שיש לנו סיפור שאנחנו רוצים לספר. אם לא, אז כל מה שיש לנו זה… גרף. ואז צריך לחפש גימיק להצדיק את הגרף שלך, גם אם הוא לא ממש תורם משהו לאינפו, רק לגרפיקה.

במקרה דנן, יש לנו מידע מארגון הבריאות העולמי, חלק מהאו”ם, על התפלגות צריכת אלכוהול במדינות שונות. לכל מדינה יש לנו מידע על כמה מהאלכוהול שנצרך בה נצרך בצורת בירה, יין, משקאות חריפים או אחר.

אפשר היה להוציא כל מיני תובנות מהמידע הזה. אפשר היה לראות התפלגות של סוגי משקאות משכרים ע”פ יבשת (זה מידע שכלול ב-dataset המקורי). אפשר היה להוציא Outliers – מדינות שבהן סוג אחד של אלכוהול בולט במיוחד לכאן או לכאן. אפשר היה לעשות כל מיני דברים. אבל במקום זה, השקיעו באתר FlowingData באנימציה אינטראקטיבית שגורמת לשלוליות הנוזל שמייצגות את הגרף לזוז כשהעכבר עובר עליהן.

image

אז מה יש לנו כאן, בעצם? אנחנו רוצים להשוות גודל יחסי של ארבעה נתונים, חלקים מתוך שלם. מסורתית, יש לנו את גרף העוגה המושמץ בשביל זה:

image

אבל לא, זה יהיה קל מדי. במקום זה, הם הלכו על משהו שבמקום להראות גודל יחסי מתוך שלם, מראה רק גודל יחסי, כמו גרף עמודות, שאומנם מאבד את אפקט הסך-הכל, אבל עדיין נותן השוואה יחסית ברורה:

image

במקום זה, יש לנו גרף שנותן לנו השוואה *די* קרובה של הגדלים. אבל בגלל הצורה האמורפית שמתרחבת ומתכווצת כשמתקרבים אליה. האם בתמונה כאן למעלה קל לראות שהבלוב של המשקאות החריפים גדול יותר מזה של הבירה? לא ממש. אנחנו צריכים להסתמך על המספרים בשביל לדעת מה הערך האמיתי – ואם זה המצב, למה בכלל יש לנו אינפוגרפיקה?

סחרחורת עמודות

רוב הדוגמאות שעלו כאן בבלוג סביב גרף עמודות נסובות סביב הטריק הקלאסי של קיצוץ בסיס הצירים, מה שמקצין שונוּת ומכפיל הבדלים. לפעמים גם אפשר להנות מבחירה מפוקפקת של סדר העמודות שנועד גם הוא לטשטש את הסיפור – כולן דוגמאות שכבר היו לנו. ואני שמח שכעיוותים כאלה צצים, יש אנשים טובים שכבר רגישים לנושא ומעמתים את המפרסמים עם זה.

לכן שמחתי כשקיבלתי דוגמא לסוג חדש של הטיה בגרף עמודות. לא עוד קיצוץ בסיס הצירים (טוב, יש גם את זה). לא עוד סדר עמודות לא ברור (האמת? זה גם). לא, כאן יש לנו דוגמא נהדרת לאיך אפקט תלת-מימד לא רק שלא עוזר, הוא אקטיבית מפריע.

הנה גרף שפורסם בעמוד הפייסבוק של המתפ”ש – גוף תיאום פעולות הממשלה בשטחים, המציג תנועת משאיות במעבר כרם שלום (השארתי רק את הגרף – את התמונה המלאה אפשר לראות בקישור)

image

על פי הכותרת, מדובר על נתונים שנאספו בין ה-28.2 ל-03.3, כלומר חמישה ימים, מה שמרמז שהעמודות מייצגות את הימים, וכנראה מסודרות כרונולוגית, אבל באיזה סדר? מימין לשמאל? שמאל לימין? התמונה כולה באנגלית, מה שגורם לי לחשוב שהמוקדם יותר הוא משמאל, אבל טווח התאריכים בכותרת דווקא רשום מימין לשמאל, מה שמבלבל. בהתחלה חשבתי שהמספרים בתחתית הגרף הם השנתות של הציר, אבל הן לא – הן סתם עוד פריט מידע נוסף.

image

אבל סדר העמודות הוא בעיה פחותה יחסית, וגם הקיצוץ המתבקש בבסיס הצירים הוא מהצפויים. הבעיה הראשית היא שהגרף מוצג בהיטל איזומטרי לא ברור, שגם מעוות במעין עדשת עין-דג. הטכניקה קבועה שלי של מדידת פיקסלים ב-Paintbrush נהיית מסובכת כשהקווים כולם אלכסוניים, ולא באותה זווית כולם!

image

העקמומיות הזו של הקווים, העובדה שהעמודות לא מוצגות באופן ישר אחד ליד השניה, אלא שהבסיס של כל אחת נמצא בגובה שונה, בהיטל שונה, בזווית שונה אחד מהשני, מאפס את המטרה הרשמית, הראשית והמפורשת של גרף עמודות, שהיא לאפשר השוואה ויזואלית ואינטואיטיבית של גדלים. במקום זה יש לנו שתי עמודות המבוססות על אותו נתון (749 משאיות) שהפרש הגדלים בין שתי פינות שלהן גדול יותר מאשר ההפרש בין עמודת ה-749 השניה לבין ה-743 שאחריה. וההפרש בין 749 ו-753 מיוצג בכ-20 פיקסלים –פי ארבע מה-5 פיסקלים של ההפרש בין 749 ו-743. וזה, כמובן, בלי שדיברנו על הצניחה הקיצונית ל-714.

וכמו במקרים רבים, לא מדובר כאן על חוסר הקפדה על יצוג הנתונים. מדובר על גרף שנוצר ע”פ נתונים, אולי, אבל שאז ישב מעצב גרפי והיטה כל עמודה בפני עצמה (מה שבכלל לא אפשרי בפונקציית העמודות התלת מימדיות של אקסל, לפחות במהדורת 2007 שמותקנת אצלי) או שהשתמש בפונקציית היטל שמתעלמת מהאספקטים האינפוגרפיים של הציור. יכול להיות שזה נעשה משיקולי אסתטיקה. יכול להיות שמשיקולי “גם ככה זה לא משנה”. בכל מקרה, זה מבהיר שיצור מדויק של המספרים לא היה השיקול הבולט.

כשמאה הוא לא מאה (אחוז)

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

image

image

ה-9.9% החסרים

אחד הנושאים הכי חמים בפוליטיקה העולמית בשנים האחרונות הוא סוגית ה-1% – או במילים אחרות, סוגיית פערי ההכנסה בין השכבות העליונות לשאר האוכלוסיה. הסוגיה הזו היא חשובה, אולי מהחשובות יותר בכלכלה והחברה של ימינו, אבל היא הולידה, לצערי, משפחה של גרפים בעייתיים שמציגים אותה.

הנה גרף שהתפרסם בעיתון ה-Economist לפני כחודשיים, שמציג תמונה היסטורית על פערי הכנסה בחברה האמריקאית:

image

אין לי בעיה עם הפרזנטציה של הגרף (שהיא גם אינטראקטיבית, והגרף הצבעוני למעלה נותן חתך של כל העשירונים באותו עשור), אלא עםם הנתונים שנבחרו להצגה בגרף התחתון: יש כאן בחירה של שני נתונים קיצוניים שלא מכסים את כל טווח הערכים – יש גרף של ה-0.1% העליונים, ושל ה-90% התחתונים. מה קרה ל-9.9% הנותרים? למה הם לא בגרף?

הם לא בגרף, אני מנחש, כי אם הם היו בגרף, הוא לא היה כל-כף יפה וסימטרי. מה היה קורה אם הוא היה מעמת את ה-0.1% עם ה-99.9% הנותרים? אז כנראה שהגרף הכחול, התחתון, היה שומר על פער נאה מעל החום. ומה אם היינו מעמתים את ה-90% עם ה-10% שמעליו? אז כבר מההתחלה החום היה נשאר הרחק מעל הכחול. ולמה 90%? למה לא 80%? אם העלמנו 9.9%, אפשר באותה מידה להעלים 19.9%, לא?

ומה אם הינו מציירים ארבעה קווים על הגרף, כמו ארבעת הצבעים שמעל? שמחלקים באופן מעריכי ל-90%, 9%, 0.9% ו-0.1%? אז היינו מקבלים יותר בלאגן, ואולי יותר תנודתיות , ולא היתה לנו את תנועת המלקחיים היפה הזו שמספרת את הסיפור שרוצים לספר, על אלפיון עליון עשיר שנהיה עשיר עוד יותר, ותשע עשירונים תחתונים שנהיים עניים יותר ויותר. וזה סיפור שלדעתי נכון לספר וחשוב לספר, אבל אולי כדאי, במקום לטפוח לקוראים על הראש ולהגיד “הנה סיפור יפה, לעסתי אותו בשביל שאתם לא תצטרכו”, אפשר היה להציג גם את הנתונים שלא מסתדרים הכי יפה, ולהאמין שהסיפור שלך חזק מספיק גם בלי להעלים נתונים.

ותוספת: הנה גרף נוסף, שקישרתי אליו כאן לא מזמן, עם בדיוק אותה בעיה – 90 + 0.1 ≠ 100

עונת בחירות, עונת הטעיות

עם ההכרזה על פיזור הכנסת והליכה לבחירות, ידעתי שהגיע הזמן להעיר את הבלוג ממרבצו ולהתחיל לפרסם שוב. עם הבחירות באים הסקרים – אפילו שעוד מוקדם לסקרים רציניים – ועם הסקרים מגיעות האינפוגרפיקות המטופשות, מוטות וסתם שגויות.

הקוראים ענבר רובין ואסף שרייבר שלחו לי, כל אחד בנפרד, פוסטים בפייסבוק של בוז’י הרצוג ושל ציפי לבני, כל אחד בנפרד, ובו תמונת מסך מחדשות ערוץ 2 והסקר החדש שלו:

כאן אנחנו, כמובן רואים את מיטב הפספוסים המוכרים לנו – החל מסידור של עמודות שלא בסדר עולה וכלה בעמודה אחת שלגמרי לא פרופורציונאלי למספר שלה – בעוד כל העמודות נעות בסביבות 3.4-3.8 פיקסלים למנדט, ישראל ביתנו מיוצגת בכ-6.6 פיקסלים למנדט.

אבל אני די משוכנע שלא היתה כאן כוונת זדון או הטעיה. לא מצד חדשות ערוץ 2, שם כבר יש גרף מתוקן שבו כל העמודות משחקות באותו מגרש, ולא מצד הרצוג ולבני, שסביר להניח שכ”כ התרגשו מתוצאות הסקר שבכלל לא הסתכלו על שלושת המפלגות בצד שמאל, והתמקדו במאבק של הרשימה המשותפת שלהם מול הליכוד.

אני מקווה לראות בעונת הבחירות הזו הרבה גרפים גרועים, ואני שמח לראות שאנשים קשובים יותר מתמיד. שלחו לי דוגמאות גרועות במיוחד, ואני אשמח לפרסם אותן!

בין יחס לעוגה

אחרי כמה שנים ככתב טכנולוגי, ההערכה שלי לאתרי חדשות טכנולוגיה היא לא מהגבוהות שבהן, ובטח שלא כשזה מגיע לשימוש שלהן באינפוגרפיקה. לכן לא הופתעתי לראות – ולהתעצבן – מהגרף הזה, שהגיע מאתר Mashable, בנוגע (משום מה) לחלוקת ההון בארה”ב:

מה אנחנו חושבים שאנחנו רואים כאן? את החלוקה של ההכנסות השנתיות בין העשירון העליון לבין תשעת העשירונים התחתונים, לא? אה, לא, רגע, בין האלפיון העליון ל-999 האלפיונים התחתונים. אה, גם לא? אז מה בעצם יש לנו כאן? ולמה שני הפלחים לא לגמרי מתואמים?

מה שיש לנו, כרגיל, זה גרף שנראה כמו עוגה שמגויס לתפקיד שהוא לא תוכנן אליו. גרף עוגה בא להראות איך סכום כלשהו – 100% כלשהם – מתחלקים בין חלקים שונים. אבל הגרף הזה לא מנסה להראות איך 100% מההכנסות השנתיות בארה”ב מתפלגות. הוא רק בא להראות שקבוצה א’’ (האלפיון העליון) וקבוצה ב’ (תשעת העשירונים התחתונים) מכניסים סכום דומה. לאיפה נעלמו ה-9.9% הנותרים? הם לא רלבנטיים, כי הגרף לא מדבר על ה-100% מההכנסה – רק על השוואה יחסית. וחוס התיאום בין שני הפלחים של העוגה מראים לנו שאין לנו כאן באמת עוגה, אלא רק שני פלחים שמוצמדים זה לזה.

כשהתחלתי לחשוב על זה, ראיתי שזה לא בעצם השוואה שכל כך קל לעשות באופן גראפי פשוט. דרך אחת אפשרית היא לעשות גרף עמודות שמשווה את ההכנסה של האלפיון העליון להכנסה הממוצעת של אלפיון בודד מתוך תשעת העשירונים התחתונים. אבל עם הפערים הללו, קשה להעביר נקודה אינפוגרפית משמעותית. הנה הנסיון שלי של גרף עמודות פשוט באקסל:

image

היחס כאן הוא 1:900, וזה פשוט לא עובר טוב בגרף ברזולוציה נורמלית. ומעבר לזה, ממוצעים תמיד מרדדים את התמונה – מה זה “אלפיון ממוצע מתשע העשירונים התחתונים”? זו מטריקה חסרת משמעות.

צורה אחרת להראות את זה היא הפוכה – להראות את אותו היחס, 1:900, מבחינת כמות האנשים שמרכיבים את הקבוצות הללו – להראות עד כמו 0.1% מהאוכלוסיה, אלפיון בודד, הוא קטן יותר מ-90% מהאוכלוסיה – כלומר להשאיר את ההכנסה כקבוע, ולהתייחס להפרשי גדלים בקבוצה, וזו כבר הסתכלות יותר משמעותית – הסכום לא משנה, רק היחס בין כמות האנשים. ואז ראיתי ש-Mashable בעצם כבר עשו את זה – הגרף שלמעלה, שמשותף ברחבי המדיה החברתית, הוא רק חצי מהגרף שבאתר:

image

וככה זה נראה כשאותו הגרף מייצג את היחס בגודל האוכלוסיה שמחזיקה בהכנסה הזו. לא ספרתי פיקסלים הפעם בשביל לבדוק את חצי העיגול האדום באמת מכיל פי 900 פיקסלים מאשר הירוק, אבל גם אם לא, זה קרוב מספיק ומעביר את הנקודה. והכי חשוב – מראה שלא מדובר כאן בגרף עוגה, אלא פשוט בהצגת יחס גודל בין שני חצאי עיגול.

נו. ולא יכלו למצוא משהו פחות מבלבל?

הרצאה: שקרים יפים ב-Wize

אני אעיר את הבלוג מתרדמתו (הזמנית!) בשביל קצת פרסום עצמי:

בשבוע הבא, יום ד’ ה-22 לאוקטובר, בשעה 20:00 אני אעביר הרצאה על הטיות והטעיות באינפוגרפיקה, במסגרת ההרצאות של ארגון Wize. פתיחת דלתות ב-19:00.

ההרצאה, שתקרא גם היא “שקרים יפים”, תועבר בפאב הביר גארדן ברח’ ריינס 2 בת”א (כיכר דיזנגוף), ותעבור על דוגמאות לאינפוגרפיקות מטעות, מעוותות או סתם לא ברורות, מהסוג שהבלוג אוהב להביא.

הכניסה היא בחינם, אך יתכן שיגמרו המקומות בשלב כלשהו. בואו, שתו בירה ושמעו אותי מדבר, יהיה כיף!

הפיתוי המתוק של הנתונים: רשימת קריאה

ב-22/4/2014 העברתי, במסגרת סדרת הרצאות “ספקנים בפאב”, הרצאה בשם “הפיתוי המתוק של הנתונים”, אשר התמקדה בהיסטוריה של הנתונים, המספרים והגרפים בחברה שלנו, ואיך הם זכו למעמד המכובד שלהם.

בפוסט הזה אני ארכז את השמות של הספרים, הכותבים והמאמרים שהתבססתי עליהם בהכנת ההרצאה, למי שרוצה קריאת המשך מעמיקה יותר.

  1. Objectivity, מאת לוריין דאסטון ופיטר גליסון, ספר שמדבר על עלייתו של מושג האובייקטיביות והפיכתו לבעל משמעות, ויש שיאמרו מרכזיות, בחברה המערבית המודרנית. ממנו הובאו הדוגמאות של ארתור וורתינגטון וטיפות המים.
  2. The Splash of a Drop, מאת ארתור וורתינגטון. ספרו המקורי של וורתינגטון, שפורסם ב-1895, ומכיל את האיורים והצילומים המקוריים שלו.
  3. Trust in Numbers, מאת תאודור פורטר. ספר המתאר את עלייתם של האובייטיביות והמדדים המספריים.
  4. The Averaged American, מאת שרה אייגו. הספר סוקר איך המתודה הסטטיסטית – איך הרעיון של “האמריקאי הממוצע” כישות בעלת משמעות, ואיך שילוב של צרכים שלטוניים, עלייתה של תקשורת ההמונים ותעשיית הפרסום הפכו את הסקר, ובהשלכה ממנו את המידע הסטטיסטי המרוכז, לגורם מגדיר תרבות.
  5. A History of the Modern Fact, מאת מארי פובי. סקירה מרתקת של התפתחות העובדה המודרנית, כפי שאנחנו מכירים אותה היום, ואיך מספרים קיבלו מעמד המנותק מהפרשנות של המציאות, אלא הם המציאות עצמה.
  6. Leviathan and the Air-pump, מאת סטיבן שייפין וסיימן שפר. הספר מתמקד בהווי החברתי שוביל למהפכה התפיסתיית של רוברט בויל, ממייסדי מדע הכימיה והמתודה המדעית המודרנית, שהפך את הניסוי ותוצאותיו לחותם של אמינות ודיוק.

הרצאה: הפיתוי המתוק של הנתונים

עדכון מנהלתי קצר:  מחר, ה-22/4, אני אעביר הרצאה במסגרת ספקנים בפאב, ב"מקום לשבט", בקומה השניה מעל הבר קיימא, רח' המשביר 22, ת”א. הנה גם קישורים לאירוע בפייסבוק וב-Meetup.

ההרצאה, שכותרתה “הפיתוי המתוק של הנתונים”, תנסה לשאול לא רק איך האינפוגרפיקות משקרות לנו, הנושא המרכזי של הבלוג הזה, אלא גם למה הן כל כך אפקטיביות? מה יש בגרפים ובמספרים שזוכים למקום של כבוד בתור הנשאים הראשיים של האמת והמידע?

על כל זאת ועוד, מחר ב-21:00 בערב. בואו בהמוניכם!

worship-idol-licensed

Image credit: LuMaxArt2D / 123RF Stock Photo