מה הסיפור של עוגה מנופחת

רק עברו כמה ימים מאז שכתבתי פוסט על הסכנות וההטעיות בעוגות תלת מימדיות, והנה התפרסם בבלוג Junk Charts של קייזר פונג (שהוא במידה רבה ההשראה לבלוג הזה) דוגמה קיצונית אפילו יותר:

בגרף הזה, מבית ההשקעות צ'ארלס שוואב, מציג נתונים פשוטים. באמת, באמת פשוטים. הנה הנתונים הללו בעוגה פשוטה:

לא מסובך, נכון? שלושה פלחים, בלי יותר מדי תחכום. אבל מישהו בצ'ארלס שוואב החליט להתחכם, והפך את העוגה לתלת מימדית. אבל בניגוד לעוגה התלת-מימדית מהפוסט הקודם, שם הנפח של העוגה מוסיף משקל אקראי לפלג שבמקרה בקדמת הגרף, כאן מדובר בניפוח של פלחים ביחס ישר לנתון שלהם, מה שאומר שבעצם היחס בין פלחים מוקצן ומועצם – אם 60% הוא קצת פחות מפי 2 מ-35, אז בגרף מנופח כזה, הנפח של הפלח הזה הוא הרבה יותר מפי 2 מהמקום השני.

בחישוב מהיר וגס, בעוגה שטוחה היחס בין 35% ל-60% הוא 1.71. אבל בעוגה מנופחת, אז הפלח הגדול הוא מתוך עוגה שהיא, בסה"כ שלה, גדולה פי 1.71 מהעוגה של המקום השני. כלומר אם אני מחשב נכון (ואתם מוזמנים לתקן אותי), מדובר כאן בפלח כחול שהנפח שלו הוא פי (1.71*1.71, כלומר) 2.94 מהנפח של הפלח הבא בתור (שהוא 35% מתוך עוגה שנפחה הכולל הוא קטן יותר מהעוגה הכחולה). מיחס של קצת יותר מפי 2, הגענו ליחס של כמעט פי 3.

אז אם נחזור למנטרה שלנו – מה הבחירה האינפוגרפית הזו עושה? איזה סיפור היא מעבירה? הסיפור שהיא מעבירה הוא של הקצנת הפערים. בדומה לקיצוץ בסיס מערכת הצירים, זו בחירה (מודעת או שלא) שלוקחת את הנתונים הגולמיים ומספרת סיפור שמקצין את ההבדלים בין הנתונים, בניגוד לסיפור שמטשטש את ההבדלים. האם זה ברור מהגרף שזה מה שהוא עושה? לא, אני לא חושב שזה מוצהר במפורש. וזה מה שהופך את הגרף, במודע או שלא,למניפולטיבי.

לא כל הנוצץ מידע הוא

לפני כמה ימים פרסמה בטוויטר הקומיקאית/מתכנתת קאט מאדוקס את הציוץ המצוין הזה, שמסכם יפה בעיה די נפוצה בעולם האינפוגרפיקה:

למה זה מצחיק אותי? כי יש לצערי יותר מדי אינפוגרפיקות שחוטאות ל-form over function, כלומר שמתמקדות בסגנון גם על חשבון האפקטיביות של האינפוגרפיקה, לפעמים במחיר אובדן כמעט מוחלט של היכולת להבין את הנתונים שמוצגים. עמדתי עכשיו לקשר לכמה דוגמאות ישנות בבלוג שאני מביא תמיד בהרצאות, אבל גיליתי להפתעתי שאלו דוגמאות שלא באמת העלאתי לבלוג בשום שלב, אז הגיע הזמן לתקן את החסר.

העוגה הגדולה מסך חלקיה

בפוסט ישן בבלוג הסטטיסטיקה "נסיכת המדעים", מציג יוסי לוי כמה מהבעיות של pie charts, מהגרפים הפופולריים ביותר, אבל גם הנתונים ביותר למניפולציות. אחת הדוגמאות שם שמטה לי לחלוטין את הלסת כשהבנתי אותה, והבנתי כמה קל להטעות עם גרף עוגה, ובעיקר כמה קל להטעות בטעות עם הכלים הנוחים שיש לנו היום.

יוסי מביא מחקר שהתפרסם בכתב עת מדעי, ומציג התפלגות של סיבות לכשלונן של תרופות בשלב הפיתוח. הסריקה באיכות נמוכה, אז בניתי מחדש באקסל את הגרף כפי שהתפרסם, ואותו אני אוהב להציג לאנשים בלי המספרים המפורשים ולראות מה הם מבינים על היחס בין שתי הסיבות הראשיות – פרמקוקינטיקה ואפקטיביות של התרופה:

ברוב המקרים אנשים יגידו שהערכים שלהם די דומים אחד לשני (חוץ מהמתחכמים שמבינים שאני חותר למשהו). ואז די מופתעים כשאני שולף את המספרים האמיתיים:

הפרש של 11%! פרמקוקינטיקה מובילה במעל 50% מעל האפקטיביות? איך יתכן פער כזה בגרף שלא משקר במכוון (ואני ייצרתי אותו באקסל ישירות מהנתונים, בלי funny business)?

הסוג הוא בעיצוב ה-"נוצץ" (יחסית, כן? זה עדיין אקסל, ועוד אקסל די ישן) וההשלכה התלת-ממדית שהוא נותן לגרף העוגה הזה. הבעיה שלנו היא שה-"עומק" של הגרף, הממד השלישי, הוא לא באמת חלק מחלוקת העוגה. האחוזים מתפלגים רק בשני ממדים, והממד השלישי הוא רק ליופי. אבל העין שלנו עדיין רואה אותו. והצהוב הדקורטיבי של העומק של העוגה מצטרף לנו בעין לקידוד של הנתונים כצבע, ואנחנו רואים בערך אותה כמות טורקיז וצהוב מול העיניים. איך אפשר לראות את זה בפעולה? אקסל מאפשר לך לסובב את העוגה שהוא מצייר, ולשים פלח אחר בחזית. תראו איך זה נראה כשפרמקוקינטיקה, כ-40% מהנתונים, מקבלת גם את קדמת הבמה:

כאן כבר ברור שזו הסיבה המובילה באופן מובהק – מרגיש כאילו יש המון טורקיז. ובאמת יש. ואם ננתח את הגרף הוא גם לא משקר – 40% זה פחות מחצי ודי בבירור הוא מקבל פחות מחצי. 29% זה קצת יותר מרבע ובאמת יש קצת יותר מרבע עוגה בצהוב. אבל האפקט הויזואלי של השוליים מתווסף לנו להערכה האינטואטיבית של הגרפיקה. הנה, ככה אותו הגרף נראה בדו-ממד:

אותם נתונים. אותם צבעים. אותו גרף – אבל בלי הבלבול החזותי שהממד השלישי, העומק, מוסיף לנו. אפשר לראות שהפרמקוקינטיקה גדולה מהאפקטיביות, אבל לא בצורה כ"כ מוחלטת כמו קודם.

אבל תלת-ממד זה נראה יפה יותר, לא? ממלא יותר נפח בעמוד. מתקדם. חדשני. מודרני. אבל מבלבל. מטשטש. מיותר. אבל קל מאד להשתמש בו הישר מתוך אקסל וכלים אחרים, בלי לחשוב בכלל שבבחירה בין 2D ל-3D אנחנו יכולים לשנות את המסר של הגרף שלנו.

דגלים וצבעים בשירות הסיפור

לפעמים אני מרגיש שצריך להזכיר למעצבי אינפוגרפיקות שבחירת הצבעים לגרפים שלהם היא שלב חשוב בבניית האינפוגרפיקה. לא כדאי להסתפק במה שאקסל מייצר לנו, אבל במקביל גם חשוב לא ללכת פשוט על פאלטת צבעים נעימה והרמונית. הצבעים של הגרף הם חלק מהסיפור שהגרף צריך לספר, ולשים צבעים שמתעלמים מזה – או גרוע יותר, שמטשטשים את זה – חטא לאפקט שאפשר לקבל.

קחו למשל את הגרף הזה, של התפלגות אתנית בזרועות של צבא ארה"ב:

Image

מה הבעיה שלי עם הגרף הזה, חוץ מהעובדה שבניסיונו להיות קומפקטי ויעיל הוא יוצא קצת מבלבל (צד ימין של הגרף מדבר על נשים, השמאלי על גברים, וזה לא הכי ברור)? מה שמבלבל הוא הצבעיה שנבחרו להיסטוגרמות, צבעים שדומים, במידה מסוימת, לצבעי העור של הקבוצות האתניות והגזעיות שעליהן הגרף מדבר. אבל הצבעים לא *מותאמים* לאותו צבע עור! השורה הראשונה, בצבע חום כהה, היא של שיעור הלבנים שמשרתים, בעוד השניה, בחום בהיר יותר, מתארת שחורים. אסייתים (באופן כללי) הם החום-כתום השלישי, ואז השורה האחרונה, הבז' הבהיר יותר, מתייחסת לחיילים ממוצא היספני (שיכולים בתורם להיות או לבנים או שחורים, בנוסף, אבל זה פחות רלבנטי).

יכול להיות ערך בהתאמת הצבע לאופי הנתונים. נגיד, אם מדברים על התפלגות של צבעים – הייתם יכולים

לדמיין גרף כזה? – אבל במקרה הזה, של התפלגות אתנית וגזעית, אתה נכנס לשדה מוקשים מיותר לחלוטין. איזה גוון תבחר לייצג לבנים? ואיזה שחורים? ואיזה היספנים, שכאמור יכולים להיות בכל אחת מהאפשרויות הללו? אתה לא תצא מזה, ולכן עדיף לא להכנס – עדיף היה כבר לבחור צבעים ברורים ומופרדים יותר, שלא נכנסים לספקטרום של העור האנושי – ירוקים, כחולים, סגולים – ולהמנע מזה בכלל, במקום לשים צבעים מבלבלים שלא תורמים כלום להבנת הגרף.

איפה דווקא כן יש שימוש טוב בבחירת הצבעים – או במקרה הזה, העיצוב הפנימי – של הגרף? בתרשים הזה של ה-BBC שמשווה בין התמותה מקורונה בבריטניה, לעומת זו של שאר אירופה:

גרף פשוט שמשווה שני נתונים פשוטים, אבל הבחירה להעמיס את כל דגלי אירופה על העמודה הימנית היא בחירה מאד אפקטיבית, לדעתי. היא גורמת להשוואה להיות פחות "נייטרלית" – מספר א' מול מספר ב' – ומדגישה שבצד הימני יש המון, המון, *המון* מדינות. 27 מדינות, שביחד התמותה בהם נמוכה מהמספר השמאלי.

האם זה מניפולטיבי? כמובן. חסר כאן הרבה מידע, נירמול לאוכלוסיה והרבה דברים אחרים. אבל הגרף הזה בא, במפורש, לתת את ההשוואה *הזו*, והשימוש בדגלים כאן תרם הרבה לסיפור שהוא בא לספר.