לא לינארי, לא לוגריתמי

יוני הפנה אותי לגרף הזה שהוצג (איך לא) בערוץ פוקס ניוז בארה"ב, שמציג את השינוי בקצב גילוי מקרי קורונה חדשים, כנראה במקום מסוים בארה"ב:

גרף קו עם ציר Y לא אחיד
דווח בטוויטר ע"י @MarekGierlinski

מה אהבתי בגרף הזה? שהעיוות בו סובטילי ולא קופץ מיד לעין, בניגוד לגרפים גרועים אחרים. מצאתם כבר את הבעיה? היא בציר ה-Y של הגרף הזה, שבמגוון גרפי ההידבקות הרבים (רבים, רבים) שאנחנו נחשפים אליהם יכול להיות ציר לינארי (כלומר, שהקפיצות של השנתות הן בגדלים קבועים, נגיד 10, 20, 30) או לוגריתימי (כלומר, שהקפיצות גדלות באופן אחיד, נגיד 10, 100, 1000). לשני סוגי הצירים יש שימוש שונה – הראשון יעביר את סדרי הגודל של כמות הנדבקים, השני יעביר את סדר הגודל של *קצב הגידול* בשינוי.

הגרף הזה, עם זאת, הוא… לא זה ולא זה. כלומר, הוא *כמעט* לינארי. והוא *נראה* כמו לינארי, אבל המרווחים בין השנתות לא קבועים. יש לנו 30, 60 ו-90 (קפיצה אחידה של 30), אבל אז פתאום… 100? קפיצה של 10 בלבד? מה המשמעות שלה? תאורטית, שינוי כזה יכול לייצר גרף עם קפיצה גדולה באופן מלאכותי – הקפיצה מ-60 ל-90 ומ-90 ל-100 תיוצג באותו גובה של הגרף וזה יכול ליצור תחושת גידול מזויפת. אבל במקרה הזה מיד חוזרים לקפיצות של 30… עד 190 שם יש קפיצה של 50, ואז שוב 10, ומשם קפיצות בגודל של 50.

אז למה זה טוב? זה ממש לא ברור. אם באמת היתה כוונה לייצר גרף שמעביר סיפור שונה מהנתונים האמיתיים, היה צריך לעשות את זה אחר לגמרי – כי הסיפור שהגרף הזה מספר הוא, בסופו של דבר, לא מאד שונה מגרף שבאמת מתואם עם ציר לינארי אחיד, כפי שמיד פורסם בטוויטר כתגובה לגרף הזה:

גרף קו עם אותם נתונים כמו הגרף הקודם, אבל כשציר ה-Y מצויר באופן אחיד
פורסם בטוויטר ע"י @mayhplumb

אולי הקפיצה בסביבות ה-200 נועדה להדגיש את הצניחה ב-29 למרץ? להדגיש את העליה ב-21 למרץ? לא ברור. אין כאן סיפור שעולה מהשינויים הללו. יכול להיות שכאן, כמו במקרים רבים בעבר, פשוט לקח עורך כלשהו את הגרף הראשוני שצויר ע"פ הנתונים, החליט שהוא לא מספיק יפה, חלק או אלגנטי, והלך ועשה בו שינויים משיקולים אסתטיים. ולעזאזל הסיפור של הנתונים.

לחשוב מחוץ לצירים

כתבתי כאן בעבר כבר על החשיבות בבחירת טווח הערכים בציר המספרים של הגרף שלך. האם הוא מתחיל מ-0 ומגיע עד 100%? ואם הגרף הוא לא באחוזים, לאן הוא מגיע? כמה מעל נקודות המידע הגבוהה ביותר שלך צריך אותו?

אחת ההטיות הנפוצות ביותר שקשורה לבחירת טווח ציר המספרים היא קיצוץ בסיס הציר, כמו שכתבתי כבר כאן וכאן. אבל מעניינת לא פחות הבחירה בטווח המספרים שיכול לגרום לגרף להראות גבוה או נמוך, תלול או שטוח, כמו שרואים כאן. אבל לפני כמה ימים נתקלתי בשימוש שונה לטכניקה, לא קיצוץ בסיס הצירים, אלא דווקא קיצוץ הטווח העליון שלהם כך שיהיה נמוך מנקודות המידע שלו:

מה הגרף הזה אומר לנו בבחירה המוזרה הזו, שציר ה-Y מגיע עד 50%, בעוד שתיים משלוש נקודות המידע הן מעל 50%? יש כאן אולי רצון להדגיש את ההבדל בין 51/53 ובין 36, כי אם הציר היה מגיע עד 55%, נגיד, אז ההבדל בין 51% לבין 36% היה קטן יותר – אבל ההבדל קטן וזניח, לדעתי. פיקסלים בודדים. אבל מה הגרף הזה בכל זאת משדר לנו?

אני חושב שהבחירה לשים את נקודות המידע מעל לגבול העליון של הציר משדר, במובלע, שהנתונים הללו הם גבוהים, אבסולוטית. זו טענה שקשה לטעון בגרף השוואתי, כי הוא יכול רק להגיד לנו מה יותר, מה פחות. אבל הבחירה לתחום את הציר ב-50% נותן לגרף תוקף נורמטיבי מובלע, לדעתי, שמרמז ש-51% ו-53% זה גבוה מאד. זה גבוה מדי. זו לא טענה שבאה מהנתונים, כמובן. והיא לא טענה מפורשת. היא הסאבטקסט שאני מקבל מהבחירה העיצובית, האינפוגרפית הזו. וזה שימוש מעניין, לדעתי, בניואנסים של הכלי – בהנחה שהוא אפקטיבי, כמובן, ומעביר מסר כלשהו, עדין ככל שיהיה, לאנשים שלא משקיעים מזמנם בניתוח-יתר של גרפים.

דם חזק מהגיון

כל הרשת – טוב, אולי רק החלק של הרשת שמתעניין באינפוגרפיקות – סערה שלשום סביב תרשים שהתפרסם בסוכנות הידיעות רויטרס בנוגע לחוק Stand Your Ground, חוק שנוי במחלוקת בפלורידה שמאפשר שימוש בנשק חם במצבים בהם אתה חושש לחייך, גם אם לא בחרת קודם באפשרות של להתרחק ממקור הסכנה, כפי שמחייב החוק במדינות אחרות בארה”ב. התרשים הנ”ל נסוב סביב מספר מקרי הרצח עם כלי ירי מאז שהחוק נכנס לתוקף, והוא… טוב, אני אתן לכם להבין לבד מה הבעיה בו.

Florida gun deaths

ובכן, הבעיה הראשית של הגרף היא שהוא הפוך. פשוט הפוך. ציר ה-Y מתקדם כלפי מטה, מה שיוצר אצל הקורא הסביר את ההרגשה שחוק Stand Your Ground ב-2005 הקטין משמעותית את כמות מקרי הרצח, בעוד האמת היא הפוכה – כניסת החוק לתוקף כמעט והכפילה את המקרים (יותר מ-800 בשנה!), זינוק שקצת התמתן, אבל לא חזר למימדים הקודמים.

הבעיה כאן ברורה, ורבים הצביעו עליה. אבל משהו יותר מעניין התפתח מכאן. לאחר שהתרשים התחיל לרוץ לו בטוויטר, התקבלה תגובה מאותה C.Chan שחתומה עליו – אחת Christine Chan, שמתארת את עצמה בחשבון הטוויטר כ-“עיתונאית גרפית ברויטרס אסיה”, מה שאומר שהיא כנראה הקריסטין צ’אן הנכונה. תגובתה נראתה לי מדהימה:

כלומר מישהו שתפקידה הוא להשתמש בגרפיקה כדי לדווח על חדשות ונתונים לא מבינה איך ציר Y שמתקדם הפוך מטה את התפיסה של הקורא, כאילו הנתון ירד ולא עלה – ראיתם איך אי אפשר לנתק את המילים הללו מההקשר המרחבי שלהן? “זו רק העדפה”, היא אמרה, כאילו שגרף עולה לא מכבד את המוות, איכשהו. אני מקווה – ממש מקווה – שזה רק תירוץ לכסות על החלטה אומללה, ולא מה שצ’אן באמת מאמינה בו.

בציוץ נוסף, צ’אן אמרה כי הושפעה מהגרף הזה, שמציג את כמות ההרוגים במלחמת ארה”ב בעירק (כאן תצוגה חלקית):

image

גם כאן יש לנו גרף של הרוגים, וגם הוא הופך את ציר ה-Y, אבל הוא עושה הרבה דברים אחרים כדי למנוע בלבול. נתחיל מזה שציר ה-X נמצא בראש התרשים, ולא בתחתיתו, מה שמרמז שמשם מתחילה הספירה. בנוסף, השימוש בהערות טקסטואליות בגוף התרשים, בחלק הלבן, עם חצים שמצביעים על העמודות מבהיר מאיזה כיוון זה ה”בחוץ” ומה ה”בפנים”. ולבסוף, העמודות הפנימחות באדום כהה – אלה שמייצגות את ההרוגים של ארה”ב ובעלות בריתה, כלולות בתוך העמודות הגדולות, ומבהירות, שוב, מאיפה צריך להסתכל על הגרף.

בתרשים של צ’אן לא היו אף אחד מאלה. הטענה היחידה שעוד איכשהו יכולה לעבוד היא שהיא השתמשה באדום כסמן של דם ומוות, וככל שהאדום גואה, כך גם מקרי המוות – אבל זה מעט מדי, ולא ברור מספיק, ובגדול מראה שהמחשבה שהוגדשה לגרף הזה הוקדשה רק לרמה העיצובית, אולי הסימבולית, אבל בשום שלב לא הושקע מאמץ לגרום לגרף הזה להיות נהיר וברור לקרוא – וזאת בהנחה, כמובן, שלא מודבר כאן בהטעיה מכוונת.

גם צ’אן הבינה שאי אפשר ממש להגן על הטעות הזו. הציוץ האחרון שלה היה “תודה על הפידבק. אני מסכימה שציר ה-Y ההפוך עלול להיות מבלבל, ואולי היה מטעה מדי, במקרה הזה”.

אני חושב שזה הכי הרבה שאפשר לקוות לו, בסיטואציה הזו.

מה משווים?

מטרתה של האינפוגרפיקה היא לקחת מספר גדול של נתונים ולהציג אותם באופן שמאפשר לקורא לתפוס את המסר העיקרי של המספרים הללו בקלות ובלי להתעמק יותר מדי. כשהמספרים מוצגים במלואם, הם בדרך-כלל על תקן "קריאה נוספת" למעוניינים להעמיק.

המטרה הפשוטה הזו נעלמה מעיניהם של מעצבי האינפוגרפיקה הזו, שהופיעה בגליון מעריב מיום שני, החמישי בספטמבר:

כותרת האיור מציגה שאלה פשוטה: האם העדר התחרותיות במשק הביא לעליית מחירים? הטענה המובלעת בכתבה היא שחברות שמחזיקות במונופול או כמעט-מונופול על השוק מעלות את המחירים בקצב גבוה יותר מחברות שמחזיקות בנתח קטן יותר מהשוק.

לצורך העניין, נניח שחמשת הנתונים שמביא הגרף מספיקים כדי להציג מגמה, ולא נדרוש השוואה גם למחירי מוצרים שמשווקים על-ידי חברות שאינן אוחזות בנתח שוק משמעותי, או שאינן מהוות חלק מתעשייה שהמחירים בה מוכתבים על-ידי גוף כמעט-מונופולי.

מדוע מוצגים הנתונים כפי שהם מוצגים? ההשוואה העיקרית שמוצגת לנו כאן היא בגרף העמודות. העמודות משקפות מחיר אבסולוטי בשקלים של מוצרים שונים. אבל ממש לא מעניין אותנו להשוות בין מחיר של שקית במבה לבין קופסא של קורנפלקס. אין להשוואה הזו כל ערך לגבי הטענה הנטענת. ההשוואה שמעניינת אותנו מתמקדת בשני נתונים: אחוז העליה במחיר בין 2008 ל-2011, ונתח השוק של החברה שאת מחירי מוצריה בדקנו. שני הנתונים הללו אינם מוצגים בצורה השוואתית, אלא בצורת מספרים בלבד (נתח השוק מוצג גם בסדרה של תרשימי עוגה שמונחים זה לצד זה – פרקטיקה מאוד לא נוחה להשוואה: תרשים עוגה נוח להשוואה בין חלקי העוגה השונים, אבל לא קל לנו להשוות בין שני תרשימי עוגה שמונחים אחד ליד השני). כדי להוסיף חטא על פשע, אחוז השינוי מוצג מיד מעל לעמודות המחיר האבסולוטי, כך שלא רק שאין קשר בין מיקום המספר לבין יחסו למספרים האחרים, אלא שיש קשר משתמע מטעה ביניהם, משום שהמספר הנמוך ביותר (חמישה אחוזים) מוקם הכי גבוה בגרף.

איך היה צריך להראות הגרף הזה? ראשית, ההגיון מכתיב קיומו של ציר X שהוא, לכל הפחות, סודר. משמע: ככל שהחברה ממוקמת ימינה יותר על הגרף, כך נתח השוק שלה גדול יותר (או להפך, אם מתעקשים, זה לא קריטי). החברות, אם כן, היו צריכות להיות מסודרות כך: אסם-נסטלה (53.2), תלמה-יוניליבר (58.1), שטראוס-עילית (83.9), החברה המרכזית (86.1), ותנובה (94.8). מתחת לכותרות הללו היה צריך לסדר את אחוזי השינוי בגרף קו, מ-11 אחוזים ועד 35%. הקו לא היה עולה באופן עקבי למעלה, אבל המגמה הייתה ברורה (אם ציר ה-X היה יחסי באמת, אפשר היה לזהות כיצד שני החמישימים ושני השמונימים מקובצים ביחד, פחות או יותר, אבל זו כבר באמת דרישה גבוהה מדי). אם רוצים להוסיף קצת צבע ועניין לגרף קו משעמם, אפשר להלביש את גרף העמודות מתחת לקו ולתת גם השוואה אבסולוטית בין המחירים (למרות שנראה לי עדיף פשוט לשים תמונה של המוצרים השונים, אבל מה אני מבין בגרפיקה).

אבל רגע, אם מחליטים להחזיר את העמודות, כדאי לקנות קודם סרגל. בחינה מדוקדקת של הגרף מעלה שאין באמת קשר בין ציר ה-Y שמשמש כל אחד מצמדי העמודות. הדוגמא הכי ברורה נראית בהשוואה בין עמודת 2011 של במבה (4.8), שעוברת קצת מעל השנת הראשונה, לבין עמודת 2008 של קוקה-קולה (5.9) או קפה טורקי (6.1), שתיהן מעט מתחת או בדיוק על אותה השנת. גם בין צמדי עמודות יש אי התאמות שאפשר לראות גם בעין בלתי מזויינת (בניגוד לאבנר, אני לא אטריח את עצמי לספור פיקסלים) – למשל, בעמודות של תנובה, בעמודה הכחולה כל שנת שווה בסביבות ה-4.5 לפי הערכתי, אבל למרות שההפרש בין שתי העמודות עומד על יותר משנת אחת, ההפרש בין המספרים עומד על 3.7 בלבד.

לסיכום: אינפוגרפיקה שהאלמנט הגרפי המרכזי שלה הוא (א) שגוי, (ב) בלתי רלוונטי בעליל, ואילו המספרים החשובים להעברת המסר שמובע בכותרת האיור אינם זוכים להבלטה השוואתית. כל זה מעלה את השאלה – בשביל מה האינפוגרפיקה הזו שם? האם העורך אמר לגרפיקאי להרים לו משהו שנראה מדעי ועם הרבה צבעים? האם במערכת מעריב יש מישהו שאחראי על אינפוגרפיקות באופן ספציפי, וגם מבין את מטרת הז'אנר, או שכל בוגר בצלאל רעב ללחם יכול למלא את התפקיד הזה? אני מבין שמצב העיתונות בישראל בקאנטים, אבל אולי כדאי בכל זאת לשקול מחדש.