מאיזה ציר נתעלם היום? ציר ה-Y

לא כל יום אני יכול להגיד שנתקלתי בשני גרפים שונים שהוציאו ממני תגובה פיזית לא רצונית ומלמול של "מה לעזאזל?!". אבל אתמול בהחלט היה יום כזה, בזכות הגרפים ששלחו לי הדס ושי (תודה, הדס ושי!), גרפים שמראים באמת עד כמה נמוך אפשר לרדת עם התעלמות מוחלטת – או, אולי, מכוונת – מאחד המרכיבים הבסיסיים בכל גרף, והוא מערכת הצירים. בפוסט הזה נתמקד בגרף הראשון שמתעלם באלגנטיות מציר ה-Y, ובמקביל יתפרסם פוסט נוסף על התעלמות מציר ה-X.

לפוסט השני: מאיזה ציר נתעלם היום? ציר ה-X.

הגרף הזה פורסם ב-Ynet, בתוך כתבה ארוכה על בצלאל סמוטריץ', שר התחבורה היוצא, ופועלו במשרד. הכתבה לוותה באינפוגרפיקה הזו, אם אפשר לקרוא לה ככה, ואני בטוח שתוכלו בקלות להבין מה הבעיה איתה:

הרמז הראשון שעומדת להיות בעיה היא שבניגוד לציר ה-X (השנים), לא מסומן ציר Y על הגרף. אבל זה לא נורא, נכון? הרבה פעמים ציר ה-Y הוא implicit וקל להבין אותו מהנתונים. מה… רגע. מה קורה פה? אנחנו מתחילים ב-415, אבל אז יורדים ל-433. אולי ציר ה-Y יורד, משום מה? לא, זה לא הגיוני, כי אחרי שעלינו חזרה ל-346 (שנמצא בין 415 ל-433 מבחינת הגובה), אנחנו עולים ל-375. כלומר אין שום קשר בין העליות והירידות של הגרף לבין הנתונים שמוצגים בו. המספר הגבוה ביותר הוא 433, אבל הוא בערך האמצעי מבחינת הגובה בגרף. הנקודה הנמוכה ביותר, זו של 382, היא בין הגבוהות ביותר מבחינת הנתון. מה קורה כאן?

אז פניתי לחברי הטוב אקסל (או, לשם הדיוק, חברי הטוב החדש Google Sheets, פשוט בגלל שהמחשב החדש שלי מריץ לינוקס ואין לי אופיס), וזה מה שהנתונים יצרו לי:

גרף שטוח בהרבה, פחות דרמטי, ועם עליות וירידות במקומות הנכונים(!). זה גרף הרבה פחות מעניין, אפילו אם היינו מקצצים את בסיס ציר ה-Y. אבל המשכתי לתהות מה היה יכול לגרום ל-ynet לפרסם את הגרף הזה. אבל אז, אחרי קצת משחקים עם הפרמטרים של הגרף, הגעתי למשהו מעניין:

היי, מה זה פה? יש כאן את הצורה של הגרף של ynet, פחות או יותר! אולי הגרף כן הגיע מהנתונים, למרות הכל? מה קורה פה?

אז מה שקרה הוא שאני הגדרתי לגרף שציר ה-Y לא יהיה לינארי, אלא לוגריתמי. כלומר שבמקום להראות שינויים פשוטים במס' המתים בתאונות דרכים, הפכו אותו לגרף שמראה שינויים בקצב העליה או הירידה בתמותה. הבעיה היא שבניגוד לגרף הידבקות בקורונה, שאליו קישרתי כאן בתחילת הפיסקה, אין הגיון בגרף לוגריתמי אם אין לנו רצון להציג איך הקצב משתנה. זה חשוב כדי לעקוב אחרי התפשטות של מגיפה. פחות בשביל נתון עם תנודות קטנות יחסית ולא מצטברות, כמו תאונות דרכים.

אבל זה רק מסביר איך אפשר להגיע מהנתונים לצורה הזו של הגרף. איך זה מסביר את הירידות במקום העליות? ובכן, ככל הנראה מה שקרה הוא שבגרף של ויינט פשוט קיצצו, באגביות, נתונים שלא התאימו להם, והזיזו נתונים אחרים למקום שלהם בגרף. נקודת ההתחלה של ויינט? הגבוהה ביותר בגרף? היא מתאימה דווקא ל-datapoint השני, זה של 2008, שבו באמת היה את מס' ההרוגים הגבוה ביותר (ושבגרף שלי משום מה קוצץ בשולי הגרף, אבל לא נורא, עדיין מובן). אבל כנראה שהעורך היה מעוניין בגרף שמתחיל הכי גבוה שלו ומשם יורד, בין אם על מנת להעביר מסר מסוים, או כי זה נראה טוב יותר. בכל מקרה, זה גרם לכל הגרף לזוז הצידה על ציר ה-X, ולכל הנתונים להיות מפוספסים לחלוטין. אבל אם אנחנו מניחים שיש עוד נקודה מצד שמאל שבה מתחילים הנתונים, פתאום הכל יותר הגיוני. העליה מ-346 ל-375 היא מה שבגרף כתוב מ-433 ל-346. ואז יש לנו ירידה מתונה יותר ל-382 (הגיוני!), צניחה ל-290 – הכל פתאום מסתדר הרבה יותר טוב.

ומה לגבי ynet? אני לא יודע אם השינוי הזה נעשה בכוונה או בטעות, מתוך מטרה להטעות או חוסר הבנה של הכלי. מה שאני יודע הוא ש-24 שעות אחרי שראיתי את הגרף, הוא כבר לא נמצא בכתבה. הוא לא הוחלף בגרף טוב יותר. הוא פשוט כבר לא שם.

לא לינארי, לא לוגריתמי

יוני הפנה אותי לגרף הזה שהוצג (איך לא) בערוץ פוקס ניוז בארה"ב, שמציג את השינוי בקצב גילוי מקרי קורונה חדשים, כנראה במקום מסוים בארה"ב:

גרף קו עם ציר Y לא אחיד
דווח בטוויטר ע"י @MarekGierlinski

מה אהבתי בגרף הזה? שהעיוות בו סובטילי ולא קופץ מיד לעין, בניגוד לגרפים גרועים אחרים. מצאתם כבר את הבעיה? היא בציר ה-Y של הגרף הזה, שבמגוון גרפי ההידבקות הרבים (רבים, רבים) שאנחנו נחשפים אליהם יכול להיות ציר לינארי (כלומר, שהקפיצות של השנתות הן בגדלים קבועים, נגיד 10, 20, 30) או לוגריתימי (כלומר, שהקפיצות גדלות באופן אחיד, נגיד 10, 100, 1000). לשני סוגי הצירים יש שימוש שונה – הראשון יעביר את סדרי הגודל של כמות הנדבקים, השני יעביר את סדר הגודל של *קצב הגידול* בשינוי.

הגרף הזה, עם זאת, הוא… לא זה ולא זה. כלומר, הוא *כמעט* לינארי. והוא *נראה* כמו לינארי, אבל המרווחים בין השנתות לא קבועים. יש לנו 30, 60 ו-90 (קפיצה אחידה של 30), אבל אז פתאום… 100? קפיצה של 10 בלבד? מה המשמעות שלה? תאורטית, שינוי כזה יכול לייצר גרף עם קפיצה גדולה באופן מלאכותי – הקפיצה מ-60 ל-90 ומ-90 ל-100 תיוצג באותו גובה של הגרף וזה יכול ליצור תחושת גידול מזויפת. אבל במקרה הזה מיד חוזרים לקפיצות של 30… עד 190 שם יש קפיצה של 50, ואז שוב 10, ומשם קפיצות בגודל של 50.

אז למה זה טוב? זה ממש לא ברור. אם באמת היתה כוונה לייצר גרף שמעביר סיפור שונה מהנתונים האמיתיים, היה צריך לעשות את זה אחר לגמרי – כי הסיפור שהגרף הזה מספר הוא, בסופו של דבר, לא מאד שונה מגרף שבאמת מתואם עם ציר לינארי אחיד, כפי שמיד פורסם בטוויטר כתגובה לגרף הזה:

גרף קו עם אותם נתונים כמו הגרף הקודם, אבל כשציר ה-Y מצויר באופן אחיד
פורסם בטוויטר ע"י @mayhplumb

אולי הקפיצה בסביבות ה-200 נועדה להדגיש את הצניחה ב-29 למרץ? להדגיש את העליה ב-21 למרץ? לא ברור. אין כאן סיפור שעולה מהשינויים הללו. יכול להיות שכאן, כמו במקרים רבים בעבר, פשוט לקח עורך כלשהו את הגרף הראשוני שצויר ע"פ הנתונים, החליט שהוא לא מספיק יפה, חלק או אלגנטי, והלך ועשה בו שינויים משיקולים אסתטיים. ולעזאזל הסיפור של הנתונים.