לא כל הנוצץ מידע הוא

לפני כמה ימים פרסמה בטוויטר הקומיקאית/מתכנתת קאט מאדוקס את הציוץ המצוין הזה, שמסכם יפה בעיה די נפוצה בעולם האינפוגרפיקה:

למה זה מצחיק אותי? כי יש לצערי יותר מדי אינפוגרפיקות שחוטאות ל-form over function, כלומר שמתמקדות בסגנון גם על חשבון האפקטיביות של האינפוגרפיקה, לפעמים במחיר אובדן כמעט מוחלט של היכולת להבין את הנתונים שמוצגים. עמדתי עכשיו לקשר לכמה דוגמאות ישנות בבלוג שאני מביא תמיד בהרצאות, אבל גיליתי להפתעתי שאלו דוגמאות שלא באמת העלאתי לבלוג בשום שלב, אז הגיע הזמן לתקן את החסר.

העוגה הגדולה מסך חלקיה

בפוסט ישן בבלוג הסטטיסטיקה "נסיכת המדעים", מציג יוסי לוי כמה מהבעיות של pie charts, מהגרפים הפופולריים ביותר, אבל גם הנתונים ביותר למניפולציות. אחת הדוגמאות שם שמטה לי לחלוטין את הלסת כשהבנתי אותה, והבנתי כמה קל להטעות עם גרף עוגה, ובעיקר כמה קל להטעות בטעות עם הכלים הנוחים שיש לנו היום.

יוסי מביא מחקר שהתפרסם בכתב עת מדעי, ומציג התפלגות של סיבות לכשלונן של תרופות בשלב הפיתוח. הסריקה באיכות נמוכה, אז בניתי מחדש באקסל את הגרף כפי שהתפרסם, ואותו אני אוהב להציג לאנשים בלי המספרים המפורשים ולראות מה הם מבינים על היחס בין שתי הסיבות הראשיות – פרמקוקינטיקה ואפקטיביות של התרופה:

ברוב המקרים אנשים יגידו שהערכים שלהם די דומים אחד לשני (חוץ מהמתחכמים שמבינים שאני חותר למשהו). ואז די מופתעים כשאני שולף את המספרים האמיתיים:

הפרש של 11%! פרמקוקינטיקה מובילה במעל 50% מעל האפקטיביות? איך יתכן פער כזה בגרף שלא משקר במכוון (ואני ייצרתי אותו באקסל ישירות מהנתונים, בלי funny business)?

הסוג הוא בעיצוב ה-"נוצץ" (יחסית, כן? זה עדיין אקסל, ועוד אקסל די ישן) וההשלכה התלת-ממדית שהוא נותן לגרף העוגה הזה. הבעיה שלנו היא שה-"עומק" של הגרף, הממד השלישי, הוא לא באמת חלק מחלוקת העוגה. האחוזים מתפלגים רק בשני ממדים, והממד השלישי הוא רק ליופי. אבל העין שלנו עדיין רואה אותו. והצהוב הדקורטיבי של העומק של העוגה מצטרף לנו בעין לקידוד של הנתונים כצבע, ואנחנו רואים בערך אותה כמות טורקיז וצהוב מול העיניים. איך אפשר לראות את זה בפעולה? אקסל מאפשר לך לסובב את העוגה שהוא מצייר, ולשים פלח אחר בחזית. תראו איך זה נראה כשפרמקוקינטיקה, כ-40% מהנתונים, מקבלת גם את קדמת הבמה:

כאן כבר ברור שזו הסיבה המובילה באופן מובהק – מרגיש כאילו יש המון טורקיז. ובאמת יש. ואם ננתח את הגרף הוא גם לא משקר – 40% זה פחות מחצי ודי בבירור הוא מקבל פחות מחצי. 29% זה קצת יותר מרבע ובאמת יש קצת יותר מרבע עוגה בצהוב. אבל האפקט הויזואלי של השוליים מתווסף לנו להערכה האינטואטיבית של הגרפיקה. הנה, ככה אותו הגרף נראה בדו-ממד:

אותם נתונים. אותם צבעים. אותו גרף – אבל בלי הבלבול החזותי שהממד השלישי, העומק, מוסיף לנו. אפשר לראות שהפרמקוקינטיקה גדולה מהאפקטיביות, אבל לא בצורה כ"כ מוחלטת כמו קודם.

אבל תלת-ממד זה נראה יפה יותר, לא? ממלא יותר נפח בעמוד. מתקדם. חדשני. מודרני. אבל מבלבל. מטשטש. מיותר. אבל קל מאד להשתמש בו הישר מתוך אקסל וכלים אחרים, בלי לחשוב בכלל שבבחירה בין 2D ל-3D אנחנו יכולים לשנות את המסר של הגרף שלנו.