לא לינארי, לא לוגריתמי

יוני הפנה אותי לגרף הזה שהוצג (איך לא) בערוץ פוקס ניוז בארה"ב, שמציג את השינוי בקצב גילוי מקרי קורונה חדשים, כנראה במקום מסוים בארה"ב:

גרף קו עם ציר Y לא אחיד
דווח בטוויטר ע"י @MarekGierlinski

מה אהבתי בגרף הזה? שהעיוות בו סובטילי ולא קופץ מיד לעין, בניגוד לגרפים גרועים אחרים. מצאתם כבר את הבעיה? היא בציר ה-Y של הגרף הזה, שבמגוון גרפי ההידבקות הרבים (רבים, רבים) שאנחנו נחשפים אליהם יכול להיות ציר לינארי (כלומר, שהקפיצות של השנתות הן בגדלים קבועים, נגיד 10, 20, 30) או לוגריתימי (כלומר, שהקפיצות גדלות באופן אחיד, נגיד 10, 100, 1000). לשני סוגי הצירים יש שימוש שונה – הראשון יעביר את סדרי הגודל של כמות הנדבקים, השני יעביר את סדר הגודל של *קצב הגידול* בשינוי.

הגרף הזה, עם זאת, הוא… לא זה ולא זה. כלומר, הוא *כמעט* לינארי. והוא *נראה* כמו לינארי, אבל המרווחים בין השנתות לא קבועים. יש לנו 30, 60 ו-90 (קפיצה אחידה של 30), אבל אז פתאום… 100? קפיצה של 10 בלבד? מה המשמעות שלה? תאורטית, שינוי כזה יכול לייצר גרף עם קפיצה גדולה באופן מלאכותי – הקפיצה מ-60 ל-90 ומ-90 ל-100 תיוצג באותו גובה של הגרף וזה יכול ליצור תחושת גידול מזויפת. אבל במקרה הזה מיד חוזרים לקפיצות של 30… עד 190 שם יש קפיצה של 50, ואז שוב 10, ומשם קפיצות בגודל של 50.

אז למה זה טוב? זה ממש לא ברור. אם באמת היתה כוונה לייצר גרף שמעביר סיפור שונה מהנתונים האמיתיים, היה צריך לעשות את זה אחר לגמרי – כי הסיפור שהגרף הזה מספר הוא, בסופו של דבר, לא מאד שונה מגרף שבאמת מתואם עם ציר לינארי אחיד, כפי שמיד פורסם בטוויטר כתגובה לגרף הזה:

גרף קו עם אותם נתונים כמו הגרף הקודם, אבל כשציר ה-Y מצויר באופן אחיד
פורסם בטוויטר ע"י @mayhplumb

אולי הקפיצה בסביבות ה-200 נועדה להדגיש את הצניחה ב-29 למרץ? להדגיש את העליה ב-21 למרץ? לא ברור. אין כאן סיפור שעולה מהשינויים הללו. יכול להיות שכאן, כמו במקרים רבים בעבר, פשוט לקח עורך כלשהו את הגרף הראשוני שצויר ע"פ הנתונים, החליט שהוא לא מספיק יפה, חלק או אלגנטי, והלך ועשה בו שינויים משיקולים אסתטיים. ולעזאזל הסיפור של הנתונים.

Two Wrongs Don’t Make A Right

לפעמים צריך למצוא את הגאווה הלאומית שלנו איפה שאפשר. בחודש יולי האחרון שבר הגרף של ישראל היום שיאים של עיוות ומניפולציה עם שנתות שלא תואמות לקווים של הגרף וירידות שמוצגות כעליות. ועכשיו אנחנו מקבלים גרף דומה גם מרשת פוקס ניוז האמריקאית, שגם היא שמה את האמת – שלא לומר, הדיוק הכמותי – כנר לרגליה:

image

אז מה יש לנו כאן? הטיה אחת בסיסית ופופולרית, והיא קיצוץ מערכת הצירים, שמתחילה מ-8 במקום מ-0, על מנת להדגיש הבדלים קטנים. 0.4% מאוכלוסיית ארה”ב זה אולי מעל מיליון איש, אבל במונחים סטטיסטיים זה לא שינוי מאד גדול.

הבעיה הגדולה יותר, כפי שאתר FlowingData מציג, היא במשחקי הלמעלה-למטה, שבהם ירידה בגרף מוצגת כעליה, או במקרה הזה, כהשארות במקום. האתר כבר עשה את הצעד המתבקש ובנה באקסל את הגרף כמו שהוא אמור להיות, כמובן, אבל מה שהפריע לי כאן זה לא סתם המניפולציה של המספרים, אלא כמה היא עשויה בצורה פשטנית וחובבנית. אם הגרף של ישראל היום היה מלא עומס של פרטים ונקודות וקווים, עם המון בלבול וטעויות וטשטוש, אז הגרף של פוקס הוא, לעומתו, פשוט וישיר. חוץ מנקודת המידע האחרונה, הגרף הוא מדויק ואמין, כמו שאפשר לראות מהקווים הצהובים ששרטטתי למעלה. ה-9.0 הוא 9.0 לאורך כל הגרף, וההפרשים בינו לבין ה-8.8 או ה-9.2 הם שווים והגיוניים. רק ה-8.6 הסופי הוזז בצורה גסה כלפי מעלה. אם כבר עושים הומאז’, לכל הפחות אפשר לעשות אותו בצורה פחות חובבנית!

אבל מה שהפריע לי עוד יותר בגרף הזה הוא איך שתי ההטיות שהצגתי לעיל מתנגשות אחת בשניה, באופן שמראה שמי שהכין את הגרף לא ממש ידע מה הוא עושה. הטיה השניה, השקר הבוטה, נועד לצמצם את ירידת היקף האבטלה בחודש נובמבר, נכון? אבל ההטיה הראשונה עושה בדיוק להפך: קיצוץ מערכת הצירים תמיד תדגיש את ההבדלים בין נקודות המידע. נראה שבפוקס קיצצו את מערכת הצירים, כנראה מתוך שיקולי אסתטיקה בשביל לא להשאיר הרבה שטח מת על הגרף, ואז שמו לב שהם מחמיאים לממשל, במקום לבקר אותו. אני מדמיין בשלב הזה את העורך הזועם פורץ למחלקת הגרפיקה ומנופף בדף המודפס (למה דף מודפס בגרף לתוכנית טלוויזיה? לא יודע. הדמיון שלי מוזר ככה), ודורש מהגרפיקאי לתקן את זה, עכשיו! במצב כזה, יותר פשוט להקפיץ את הנקודה האחרונה למעלה, במקום לחשוב מחדש על איך לבנות את הגרף כדי שיעביר את המסר שרוצים להעביר.