החצי הקטן של העוגה

בעודי מתארגן על ארוחת ערב לילד קפצה לה איזו התראה בפייסבוק. עשרים דקות אח"כ עוד אחת, וקצת אחרי זה גם הגיע אישית בוואטסאפ, אז הבנתי שני דברים: הראשון הוא שמעריב החליטו להוציא אינפוגרפיקה מוטה באופן בוטה במיוחד, והשני הוא שאני מאד מרוצה מזה שאנשים יודעים לשלוח לי דברים כאלה כשהם רואים אותם:

ההטיה היא ברורה ולא חדשה (גם במאקו כאן, למשל) – הנתח האדום הוא 54%, כלומר יותר מחצי, אבל פלח העוגה הוא בבירור קטן מחצי (נגיד, בערך 48%). טעות שקלה לזיהוי, אבל עדיין גורמת לכך שהמסר הויזואלי המיידי של הגרף הוא "פחות מחצי רוצים", בעוד הנתונים עומדים אחרת. לעמעם את המסר.

לשאלה האם זו הטיה מכוונת או לא קשה לי לענות. בפוסט המקושר על ההטיה של מאקו כתבתי בתגובות באופן מאד נחרץ שמדובר בהטיה מכוונת, כי אף אחד שעבד על זה לא היה יכול לפספס את הטעות הבוטה הזו. אבל מאז אני פחות נחרץ, ומאמין גדול ביכולת של אנשים לעשות את העבודה שלהם ברבע כח (בטח בשעת סגר כשהם כנראה עובדים מהבית) ולפספס משהו כ"כ בסיסי ולתת לזה לצאת. אני מכיר הרבה אנשים ממש מוכשרים ומסורים שעובדים בעיתונות בישראל, ועדיין ההתרשמות שלי, מניסיון שלי ושל אחרים, שרמת המקצועיות הממוצעת לא מאד גבוהה ורק ממשיכה לרדת, וטעויות כאלה (ובוטות הרבה יותר) יכולות בהחלט לרדת לדפוס, כפי שטוען התער של האנלון, כשטיפשות היא הסבר מספק, לא חייבים זדון.

לא כל הנוצץ מידע הוא

לפני כמה ימים פרסמה בטוויטר הקומיקאית/מתכנתת קאט מאדוקס את הציוץ המצוין הזה, שמסכם יפה בעיה די נפוצה בעולם האינפוגרפיקה:

למה זה מצחיק אותי? כי יש לצערי יותר מדי אינפוגרפיקות שחוטאות ל-form over function, כלומר שמתמקדות בסגנון גם על חשבון האפקטיביות של האינפוגרפיקה, לפעמים במחיר אובדן כמעט מוחלט של היכולת להבין את הנתונים שמוצגים. עמדתי עכשיו לקשר לכמה דוגמאות ישנות בבלוג שאני מביא תמיד בהרצאות, אבל גיליתי להפתעתי שאלו דוגמאות שלא באמת העלאתי לבלוג בשום שלב, אז הגיע הזמן לתקן את החסר.

העוגה הגדולה מסך חלקיה

בפוסט ישן בבלוג הסטטיסטיקה "נסיכת המדעים", מציג יוסי לוי כמה מהבעיות של pie charts, מהגרפים הפופולריים ביותר, אבל גם הנתונים ביותר למניפולציות. אחת הדוגמאות שם שמטה לי לחלוטין את הלסת כשהבנתי אותה, והבנתי כמה קל להטעות עם גרף עוגה, ובעיקר כמה קל להטעות בטעות עם הכלים הנוחים שיש לנו היום.

יוסי מביא מחקר שהתפרסם בכתב עת מדעי, ומציג התפלגות של סיבות לכשלונן של תרופות בשלב הפיתוח. הסריקה באיכות נמוכה, אז בניתי מחדש באקסל את הגרף כפי שהתפרסם, ואותו אני אוהב להציג לאנשים בלי המספרים המפורשים ולראות מה הם מבינים על היחס בין שתי הסיבות הראשיות – פרמקוקינטיקה ואפקטיביות של התרופה:

ברוב המקרים אנשים יגידו שהערכים שלהם די דומים אחד לשני (חוץ מהמתחכמים שמבינים שאני חותר למשהו). ואז די מופתעים כשאני שולף את המספרים האמיתיים:

הפרש של 11%! פרמקוקינטיקה מובילה במעל 50% מעל האפקטיביות? איך יתכן פער כזה בגרף שלא משקר במכוון (ואני ייצרתי אותו באקסל ישירות מהנתונים, בלי funny business)?

הסוג הוא בעיצוב ה-"נוצץ" (יחסית, כן? זה עדיין אקסל, ועוד אקסל די ישן) וההשלכה התלת-ממדית שהוא נותן לגרף העוגה הזה. הבעיה שלנו היא שה-"עומק" של הגרף, הממד השלישי, הוא לא באמת חלק מחלוקת העוגה. האחוזים מתפלגים רק בשני ממדים, והממד השלישי הוא רק ליופי. אבל העין שלנו עדיין רואה אותו. והצהוב הדקורטיבי של העומק של העוגה מצטרף לנו בעין לקידוד של הנתונים כצבע, ואנחנו רואים בערך אותה כמות טורקיז וצהוב מול העיניים. איך אפשר לראות את זה בפעולה? אקסל מאפשר לך לסובב את העוגה שהוא מצייר, ולשים פלח אחר בחזית. תראו איך זה נראה כשפרמקוקינטיקה, כ-40% מהנתונים, מקבלת גם את קדמת הבמה:

כאן כבר ברור שזו הסיבה המובילה באופן מובהק – מרגיש כאילו יש המון טורקיז. ובאמת יש. ואם ננתח את הגרף הוא גם לא משקר – 40% זה פחות מחצי ודי בבירור הוא מקבל פחות מחצי. 29% זה קצת יותר מרבע ובאמת יש קצת יותר מרבע עוגה בצהוב. אבל האפקט הויזואלי של השוליים מתווסף לנו להערכה האינטואטיבית של הגרפיקה. הנה, ככה אותו הגרף נראה בדו-ממד:

אותם נתונים. אותם צבעים. אותו גרף – אבל בלי הבלבול החזותי שהממד השלישי, העומק, מוסיף לנו. אפשר לראות שהפרמקוקינטיקה גדולה מהאפקטיביות, אבל לא בצורה כ"כ מוחלטת כמו קודם.

אבל תלת-ממד זה נראה יפה יותר, לא? ממלא יותר נפח בעמוד. מתקדם. חדשני. מודרני. אבל מבלבל. מטשטש. מיותר. אבל קל מאד להשתמש בו הישר מתוך אקסל וכלים אחרים, בלי לחשוב בכלל שבבחירה בין 2D ל-3D אנחנו יכולים לשנות את המסר של הגרף שלנו.

מאקו משקרים, נתפסים – ומשכתבים

הקוראת ליאורה הפנתה אותי לסקר שפורסם במאקו על שביעות הרצון מיאיר לפיד, סקר שהפגין כמה מהרעות החולות הנפוצות והפופולריות בתחום האינפוגרפיקה. אבל בימינו, אני שמח לראות, יש מספיק גולשים שכבר מתורגלים בלתפוס הטיות כאלה, ולא מהססים להפיץ אותן ברשת. מאקו, בתורם, מיד הלכו ותיקנו את הגרפים השקריים, אך ללא התייחסות, כמובן, לתיקון ה-“טעויות” בגוף הכתבה. ההיסטוריה שוכתבה, ואיננה עוד.

אך מכיוון שהאינטרנט הוא מה שהוא, לא חסרות תמונות מסך של הכתבה במצבה המקורי, ואפשר לראות בה את המקור – ואת התיקון.

הנה הגרף הראשון, המקורי מימין, והחדש משמאל:

imageהפך ל-image

אפשר לראות את ההטיה הבוטה בגרף המקורי. האדום שאמור למלא 48% מהעוגה משתרע על יותר מחצי משטח הגרף. אין טעם אפילו להתחיל ולחשב נפחים יחסיים בין 47 ו-48 ולראות בכמה הוגדל האדום על חשבון הכתום, כי העובדה הפשוטה היא שלא יכול להיות שערך הקטן מ-50% ימלא יותר מחצי מהשטח. זה ברור, וזה הגיוני, וזה בולט לעין, וזה צועק עד השמים. אבל זה עדיין מופיע בגרף של מאקו. רוב העם יהיה מרוצה, אומרים במאקו, ולא משנה מה רוב העם חושב. בגרף משמאל הם מגבילים את עצמם, באופן מפתיע, ליחסים האמיתיים בין השניים.

הנה הגרף השני:

imageהפך ל- גרף - גזירות לפיד

כאן שוב יש לנו 46% שממלאים יותר מחצי מהגרף, כמו קודם. אבל בשביל להוסיף חטא על פשע, 41 האחוזים, שאמורים למלא כמעט אותו שטח כמו ה-46 הכתום, ממלאים פחות מחצי. 41% שמיוצגים ב-26%, פחות או יותר, משטח הגרף. וה-7% הצהבהבים שהיו קטנים יותר מה-6% הכחולים הוגדלו לגודלם האמיתי.

אני, אישית, מאד מרוצה. לא ממאקו, חלילה. ההטיות הללו הן לא טעויות תמימות, אלא הטיות מכוונות ועם אג’נדה ברורה ועקבית. הם שקרים במסווה של מידע. אבל אני מאד מרוצה מציבור הקוראים שראה, וזיהה, ותפס את מאקו בקלקלתם, והפיץ ושיתף עד שבמאקו הבינו את גודל הפאדיחה ומהר תיקנו את הגרפים. הם לא פרסמו התנצלות, חלילה. וגם לא שורת הבהרה על כך שהגרפים שונו. הם מקווים שאף אחד לא ישים לב. אבל זה כבר קצת מאוחר מדי בשביל זה.

מה משווים?

מטרתה של האינפוגרפיקה היא לקחת מספר גדול של נתונים ולהציג אותם באופן שמאפשר לקורא לתפוס את המסר העיקרי של המספרים הללו בקלות ובלי להתעמק יותר מדי. כשהמספרים מוצגים במלואם, הם בדרך-כלל על תקן "קריאה נוספת" למעוניינים להעמיק.

המטרה הפשוטה הזו נעלמה מעיניהם של מעצבי האינפוגרפיקה הזו, שהופיעה בגליון מעריב מיום שני, החמישי בספטמבר:

כותרת האיור מציגה שאלה פשוטה: האם העדר התחרותיות במשק הביא לעליית מחירים? הטענה המובלעת בכתבה היא שחברות שמחזיקות במונופול או כמעט-מונופול על השוק מעלות את המחירים בקצב גבוה יותר מחברות שמחזיקות בנתח קטן יותר מהשוק.

לצורך העניין, נניח שחמשת הנתונים שמביא הגרף מספיקים כדי להציג מגמה, ולא נדרוש השוואה גם למחירי מוצרים שמשווקים על-ידי חברות שאינן אוחזות בנתח שוק משמעותי, או שאינן מהוות חלק מתעשייה שהמחירים בה מוכתבים על-ידי גוף כמעט-מונופולי.

מדוע מוצגים הנתונים כפי שהם מוצגים? ההשוואה העיקרית שמוצגת לנו כאן היא בגרף העמודות. העמודות משקפות מחיר אבסולוטי בשקלים של מוצרים שונים. אבל ממש לא מעניין אותנו להשוות בין מחיר של שקית במבה לבין קופסא של קורנפלקס. אין להשוואה הזו כל ערך לגבי הטענה הנטענת. ההשוואה שמעניינת אותנו מתמקדת בשני נתונים: אחוז העליה במחיר בין 2008 ל-2011, ונתח השוק של החברה שאת מחירי מוצריה בדקנו. שני הנתונים הללו אינם מוצגים בצורה השוואתית, אלא בצורת מספרים בלבד (נתח השוק מוצג גם בסדרה של תרשימי עוגה שמונחים זה לצד זה – פרקטיקה מאוד לא נוחה להשוואה: תרשים עוגה נוח להשוואה בין חלקי העוגה השונים, אבל לא קל לנו להשוות בין שני תרשימי עוגה שמונחים אחד ליד השני). כדי להוסיף חטא על פשע, אחוז השינוי מוצג מיד מעל לעמודות המחיר האבסולוטי, כך שלא רק שאין קשר בין מיקום המספר לבין יחסו למספרים האחרים, אלא שיש קשר משתמע מטעה ביניהם, משום שהמספר הנמוך ביותר (חמישה אחוזים) מוקם הכי גבוה בגרף.

איך היה צריך להראות הגרף הזה? ראשית, ההגיון מכתיב קיומו של ציר X שהוא, לכל הפחות, סודר. משמע: ככל שהחברה ממוקמת ימינה יותר על הגרף, כך נתח השוק שלה גדול יותר (או להפך, אם מתעקשים, זה לא קריטי). החברות, אם כן, היו צריכות להיות מסודרות כך: אסם-נסטלה (53.2), תלמה-יוניליבר (58.1), שטראוס-עילית (83.9), החברה המרכזית (86.1), ותנובה (94.8). מתחת לכותרות הללו היה צריך לסדר את אחוזי השינוי בגרף קו, מ-11 אחוזים ועד 35%. הקו לא היה עולה באופן עקבי למעלה, אבל המגמה הייתה ברורה (אם ציר ה-X היה יחסי באמת, אפשר היה לזהות כיצד שני החמישימים ושני השמונימים מקובצים ביחד, פחות או יותר, אבל זו כבר באמת דרישה גבוהה מדי). אם רוצים להוסיף קצת צבע ועניין לגרף קו משעמם, אפשר להלביש את גרף העמודות מתחת לקו ולתת גם השוואה אבסולוטית בין המחירים (למרות שנראה לי עדיף פשוט לשים תמונה של המוצרים השונים, אבל מה אני מבין בגרפיקה).

אבל רגע, אם מחליטים להחזיר את העמודות, כדאי לקנות קודם סרגל. בחינה מדוקדקת של הגרף מעלה שאין באמת קשר בין ציר ה-Y שמשמש כל אחד מצמדי העמודות. הדוגמא הכי ברורה נראית בהשוואה בין עמודת 2011 של במבה (4.8), שעוברת קצת מעל השנת הראשונה, לבין עמודת 2008 של קוקה-קולה (5.9) או קפה טורקי (6.1), שתיהן מעט מתחת או בדיוק על אותה השנת. גם בין צמדי עמודות יש אי התאמות שאפשר לראות גם בעין בלתי מזויינת (בניגוד לאבנר, אני לא אטריח את עצמי לספור פיקסלים) – למשל, בעמודות של תנובה, בעמודה הכחולה כל שנת שווה בסביבות ה-4.5 לפי הערכתי, אבל למרות שההפרש בין שתי העמודות עומד על יותר משנת אחת, ההפרש בין המספרים עומד על 3.7 בלבד.

לסיכום: אינפוגרפיקה שהאלמנט הגרפי המרכזי שלה הוא (א) שגוי, (ב) בלתי רלוונטי בעליל, ואילו המספרים החשובים להעברת המסר שמובע בכותרת האיור אינם זוכים להבלטה השוואתית. כל זה מעלה את השאלה – בשביל מה האינפוגרפיקה הזו שם? האם העורך אמר לגרפיקאי להרים לו משהו שנראה מדעי ועם הרבה צבעים? האם במערכת מעריב יש מישהו שאחראי על אינפוגרפיקות באופן ספציפי, וגם מבין את מטרת הז'אנר, או שכל בוגר בצלאל רעב ללחם יכול למלא את התפקיד הזה? אני מבין שמצב העיתונות בישראל בקאנטים, אבל אולי כדאי בכל זאת לשקול מחדש.