מאיזה ציר נתעלם היום? ציר ה-Y

לא כל יום אני יכול להגיד שנתקלתי בשני גרפים שונים שהוציאו ממני תגובה פיזית לא רצונית ומלמול של "מה לעזאזל?!". אבל אתמול בהחלט היה יום כזה, בזכות הגרפים ששלחו לי הדס ושי (תודה, הדס ושי!), גרפים שמראים באמת עד כמה נמוך אפשר לרדת עם התעלמות מוחלטת – או, אולי, מכוונת – מאחד המרכיבים הבסיסיים בכל גרף, והוא מערכת הצירים. בפוסט הזה נתמקד בגרף הראשון שמתעלם באלגנטיות מציר ה-Y, ובמקביל יתפרסם פוסט נוסף על התעלמות מציר ה-X.

לפוסט השני: מאיזה ציר נתעלם היום? ציר ה-X.

הגרף הזה פורסם ב-Ynet, בתוך כתבה ארוכה על בצלאל סמוטריץ', שר התחבורה היוצא, ופועלו במשרד. הכתבה לוותה באינפוגרפיקה הזו, אם אפשר לקרוא לה ככה, ואני בטוח שתוכלו בקלות להבין מה הבעיה איתה:

הרמז הראשון שעומדת להיות בעיה היא שבניגוד לציר ה-X (השנים), לא מסומן ציר Y על הגרף. אבל זה לא נורא, נכון? הרבה פעמים ציר ה-Y הוא implicit וקל להבין אותו מהנתונים. מה… רגע. מה קורה פה? אנחנו מתחילים ב-415, אבל אז יורדים ל-433. אולי ציר ה-Y יורד, משום מה? לא, זה לא הגיוני, כי אחרי שעלינו חזרה ל-346 (שנמצא בין 415 ל-433 מבחינת הגובה), אנחנו עולים ל-375. כלומר אין שום קשר בין העליות והירידות של הגרף לבין הנתונים שמוצגים בו. המספר הגבוה ביותר הוא 433, אבל הוא בערך האמצעי מבחינת הגובה בגרף. הנקודה הנמוכה ביותר, זו של 382, היא בין הגבוהות ביותר מבחינת הנתון. מה קורה כאן?

אז פניתי לחברי הטוב אקסל (או, לשם הדיוק, חברי הטוב החדש Google Sheets, פשוט בגלל שהמחשב החדש שלי מריץ לינוקס ואין לי אופיס), וזה מה שהנתונים יצרו לי:

גרף שטוח בהרבה, פחות דרמטי, ועם עליות וירידות במקומות הנכונים(!). זה גרף הרבה פחות מעניין, אפילו אם היינו מקצצים את בסיס ציר ה-Y. אבל המשכתי לתהות מה היה יכול לגרום ל-ynet לפרסם את הגרף הזה. אבל אז, אחרי קצת משחקים עם הפרמטרים של הגרף, הגעתי למשהו מעניין:

היי, מה זה פה? יש כאן את הצורה של הגרף של ynet, פחות או יותר! אולי הגרף כן הגיע מהנתונים, למרות הכל? מה קורה פה?

אז מה שקרה הוא שאני הגדרתי לגרף שציר ה-Y לא יהיה לינארי, אלא לוגריתמי. כלומר שבמקום להראות שינויים פשוטים במס' המתים בתאונות דרכים, הפכו אותו לגרף שמראה שינויים בקצב העליה או הירידה בתמותה. הבעיה היא שבניגוד לגרף הידבקות בקורונה, שאליו קישרתי כאן בתחילת הפיסקה, אין הגיון בגרף לוגריתמי אם אין לנו רצון להציג איך הקצב משתנה. זה חשוב כדי לעקוב אחרי התפשטות של מגיפה. פחות בשביל נתון עם תנודות קטנות יחסית ולא מצטברות, כמו תאונות דרכים.

אבל זה רק מסביר איך אפשר להגיע מהנתונים לצורה הזו של הגרף. איך זה מסביר את הירידות במקום העליות? ובכן, ככל הנראה מה שקרה הוא שבגרף של ויינט פשוט קיצצו, באגביות, נתונים שלא התאימו להם, והזיזו נתונים אחרים למקום שלהם בגרף. נקודת ההתחלה של ויינט? הגבוהה ביותר בגרף? היא מתאימה דווקא ל-datapoint השני, זה של 2008, שבו באמת היה את מס' ההרוגים הגבוה ביותר (ושבגרף שלי משום מה קוצץ בשולי הגרף, אבל לא נורא, עדיין מובן). אבל כנראה שהעורך היה מעוניין בגרף שמתחיל הכי גבוה שלו ומשם יורד, בין אם על מנת להעביר מסר מסוים, או כי זה נראה טוב יותר. בכל מקרה, זה גרם לכל הגרף לזוז הצידה על ציר ה-X, ולכל הנתונים להיות מפוספסים לחלוטין. אבל אם אנחנו מניחים שיש עוד נקודה מצד שמאל שבה מתחילים הנתונים, פתאום הכל יותר הגיוני. העליה מ-346 ל-375 היא מה שבגרף כתוב מ-433 ל-346. ואז יש לנו ירידה מתונה יותר ל-382 (הגיוני!), צניחה ל-290 – הכל פתאום מסתדר הרבה יותר טוב.

ומה לגבי ynet? אני לא יודע אם השינוי הזה נעשה בכוונה או בטעות, מתוך מטרה להטעות או חוסר הבנה של הכלי. מה שאני יודע הוא ש-24 שעות אחרי שראיתי את הגרף, הוא כבר לא נמצא בכתבה. הוא לא הוחלף בגרף טוב יותר. הוא פשוט כבר לא שם.

מאיזה ציר נתעלם היום? ציר ה-X

לא כל יום אני יכול להגיד שנתקלתי בשני גרפים שונים שהוציאו ממני תגובה פיזית לא רצונית ומלמול של "מה לעזאזל?!". אבל אתמול בהחלט היה יום כזה, בזכות הגרפים ששלחו לי הדס ושי (תודה, הדס ושי!), גרפים שמראים באמת עד כמה נמוך אפשר לרדת עם התעלמות מוחלטת – או, אולי, מכוונת – מאחד המרכיבים הבסיסיים בכל גרף, והוא מערכת הצירים. בפוסט הזה נתמקד בגרף הראשון שמתעלם באלגנטיות מציר ה-X, ובמקביל יתפרסם פוסט נוסף על התעלמות מציר ה-Y.

לפוסט השני: מאיזה ציר נתעלם היום? ציר ה-Y.

עדכון: משרדו של מושל ג'ורג'יה, דרך מנהלת התקשורת שלו קנדיס ברוס, פרסם התנצלות על הגרף שבמידה מסוימת גרועה כמו הטעות עצמה, או לכל הפחות מעידה על כך שלא היתה כאן טעות, אלא הטיה מכוונת שפשוט התפוצצה להם בפרצוף. האם זה יגרום להם, ולאחרים, להמנע בכך בעתיד? לא הייתי שם על זה כסף.

הגרף הזה פורסם באתר של משרד בריאות הציבור של מדינה ג'ורג'יה שבארצות הברית, ובא להציג… משהו שנוגע להיקף ההידבקויות בקורונה במחוזות השונים במדינה:

מה אנחנו רואים כאן, במבט ראשון? גרף די פשוט, ישיר מאד, שמסודר על ציר X של זמן וציר Y שפוי לגמרי, ללא קיצוץ מערכת הצירים. והוא מספר סיפור – כי זה הרי מה שאינפוגרפיקה עושה, לא? – סיפור ברור, ובריא, ויפה של החלמה וצמצום המגיפה.

רגע. האם זה באמת מה שכתוב שם? התעמקות קצרה בתוויות של ציר ה-X מראה לנו סיפור אחר. אחר לגמרי. ושאין שום דרך להצדיק אותו כטעות – בניגוד לכל הגיון אינפוגרפי או אחר, ציר ה-X לא מסודר לפני סדר כרונולוגי. כן, זה נכון. גרף שמציג נתונים על ציר זמן, אבל לא מסודר ע"פ ציר הזמן.

כתמיד, חשוב לחזור לשאלה הבסיסית – למה? למה הציגו לנו ככה את הנתונים? איך קרה שגרף כזה… קרה? וכאן יש כמה אפשרויות. הראשונה היא רשלנות בסיסית – אם הנתונים הוזנו, מראש, בטבלת האקסל (או google sheets, בסדר) שלא בסדר כרונולוגי, ואז הגרף נוצר אוטומטית מהנתונים כפי שהם, אז אולי היה מתקבל תוצר כזה. אולי. אבל זה עוד היה צריך לעבור דרך עיניים של גרפיקאי, של עורך תוכן. מישהו היה אמור לשים לב.

אפשרות נוספת היא פוליטית יותר. ג'ורג'יה היא אחת המדינות הבולטות בסיקור של מאבקי הקורונה בארה"ב, בין השאר בגלל ההתעקשות של הממשל הרפובליקני לחזור לפעילות כלכלית מלאה למרות אזהרות על הגברות ההידבקויות. בהקשר הזה, אפשר להסתכל על הגרף הזה כניסיון להראות מגמת שיפור מדהימה – ממצב של המון נדבקים, הגענו למצב של כמעט כלום. ניצחון! יש trend line ברור של התקדמות!

ישבתי חמש דקות עם MSPaint בשביל לסדר מחדש את העמודות בגרף, וקיבלתי משהו מוזר. הסיפור שהוא מספר הרבה פחות מובהק – אין כאן קו יורד ברור, אלא התחלה שקטה, זינוק, ירידה, ואז עליה מחדש (גל שני?) ואחריו ירידה.

אותם נתונים בדיוק, רק מסודרים ע"פ סדר כרונולוגי. אבל מה שמוזר לי הוא שהימים האחרונים בגרף הם עדיין מאד נמוכים (והם גם היו במיקום הנכון שלהם בגרף המקורי), מה שאומר שעדיין אפשר להסתכל על הגרף כסיפור הצלחה – אבל לא מובהק כמו שהיה קודם. בטח ובטח כשמדובר על שינויים לא קטנים בהפרש של שבועיים בלבד, מה שיכול להוריד את הביטחון של האזרחים בסיפור שמספרים לו.

וזה עוד לפני שדיברנו על התיאור של הגרף, שמתיימר להציג "מס' המקרים לאורך זמן", אבל גם "מס' מקרי המוות והאישפוזים". איפה כל אלה נכנסים לגרף? מה בעצם אומר המספר שאנחנו רואים? ובכן, זה סיפור אחר, ויסופר בפעם אחרת (או שלא).

עדכוני משרד הבריאות, חלק א': התאמת הכותרת לגרף, הגרף לקהל

בחודשים האחרונים, משרד הבריאות מצא את עצמו במרכז תשומת הלב התקשורתית, ובין השאר, מצא את עצמו אחראי על אינפוגרפיקות עם תפוצה חסרת תקדים ברשתות החברתיות, כשלחץ הקורונה שולח את כולם להתעמק בכל גרף הידבקויות או תוחלת הכפלת נדבקים. אבל בשבועות הראשונים, היכולות של המשרד בתחום של תקשורת ציבורית, ובפרט באינגפוגרפיקה, היתה… מוגבלת. בסיסית. בעייתית.

אבל אני שמח שאחרי חודש וקצת של עבודה, התוצרים של המשרד נהיו הרבה יותר מוצלחים ומלוטשים, בלי הבעיות שהיו בהתחלה של כיווני טקסט הפוכים, הסברים שחרגו מהמסגרות ופונטים בלתי קריאים, ועכשיו אפשר לדבר עליהם עניינית יותר, על האספקטים האינפוגרפיים של העדכונים שלהם. יש לי כמה דברים להגיד עליהם, אבל בשביל לשמור על מסרים חדים יותר, אני אקדיש פוסט נפרד לכל אחד.

בפוסט הזה אני אתמקד בגרף שבמרכז העדכון הזה, גרף הקו שכותרתו "קצב ההכפלה של מאומתים":

מה הכותרת אומרת לנו? שיש לנו גרף של קצב. קצב זה המהירות שבו משהו מחזורי קורה, וקצב גבוה – בין אם במוזיקה, בתקשורת נתונים, בקצב לב – הוא כשמשהו קורה מהר, נכון? זו הקריאה שלי, ואני חושב שהיא סבירה לרוב מי שיקרא את הגרף הזה.

אבל זה לא מה שהגרף בעצם מראה. הנתון המספרי הבסיסי שמוצג כאן הוא מספר הימים הדרושים כדי שמס' החולים המאומתים יכפיל את עצמו. כלומר, בנקודת ההתחלה של הגרף הערך הוא 29, כלומר מס' החולים יכפיל את עצמו בערך כל חודש. אבל בנקודה שבה לקחתי את התמונה הוא עומד על 719 – כלומר שיקח כמעט שנתיים להכפיל את כמות החולים. זה נתון חיובי בהרבה מה-29 שהיינו בו לפני חודש, אבל בגלל הכותרת, הקריאה הראשונית שלי של הגרף היא שקצב ההכפלה עולה – כלומר, יש חוסר הלימה בין הכותרת לבין מה שהגרף באמת אומר.

אני אעשה רגע הפסקה לאמירה כללית יותר, שאולי צריכה לקבל פוסט משלה והצמדה לראשית הבלוג: הרושם הראשוני מכל גרף או אינפוגרפיקה הוא קריטי. בטח ובטח כשמדובר באינפוגרפיקות בעיתון או בפרסומים לקהל הרחב. המסר צריך לעבור באופן ויזואלי ומיידי, או שהוא כושל כאינפוגרפיקה. אם אני צריך להסתכל על הגרף, לבדוק מה השנתות, מה הנתון, ורק אז להבין מה המסר הראשי, הכללי של הגרף, אז הוא לא. גרף. טוב.

אני לא אומר שגרף הוא רק המסר הראשי והמיידי. אני לא אומר שלא צריך להיות את המידע של השנתות והנתונים הנוספים והתובנות הנוספות שאפשר להבין מהגרף. ברור שהם חשובים, והתעמקות בגרף תתן לנו יותר מאשר הגרף הראשי. אבל אם המסר הכולל, ה-high level של הנתונים שלך ניתן לניסוח כ-"קצת ההדבקה ב-16.5 הוא איטי משמעותית מאשר ב-16.4", אבל הגרף שלך מראה גרף שעולה באופן מובהק – הסיפור שלך הולך לאיבוד.

הנה אותו הגרף, רק שהפכתי את כיוון ציר ה-Y כך שהגדלת מס' הימים בהלימה עם ירידת קצב ההכפלה (ותסלחו לי על עריכת הגרף הגסה, אין לי את הנתונים הגולמיים להכין את הגרף מההתחלה):

הנה. גרף שיש הלימה בין הכותרת שלו לבין הסיפור המיידי, הויזואלי שהוא מספר – הקצב יורד. היאח.

השאלה הבאה היא איך בכלל קורה שגרף כזה מגיע לעמוד הראשי של משרד הבריאות, למידע שיוצא לציבור. איך זה שאף אחד לא הסתכל עליו ואמר "רגע, זה הפוך, זה לא אומר מה שזה מתיימר להגיד". וכאן הבעיה, לדעתי, נובעת מהפער בין מי שמפרסם את המידע למי שצורך אותו. אני לא אפידמיולוג, ואני משתדל לא להציק לאפידמיולוגיים עם שאלות בנושא כשכבר יש להם קצת זמן לנוח, אבל אני לא אתפלא אם המדד הזה – מספר הימים הדרושים להכפלה – הוא מדד מקובל ושגור בפיהם. להעלות את המספר הזה זו המטרה, זה היעד. ברור להם שגבוה, במדד הזה, זה טוב, ולשם הם שואפים. אבל זה מה שיכול לגרום, לדעתי, לגרף כזה לצאת לציבור. אבל לציבור אין את ההתניה הזו שגבוה=טוב במדד ההכפלה, שהוא בכלל לא מדד הכפלה אלא מדד זמן בין הכפלות, ולכן הגרף הזה בעצם פונה לקהל של אפידמיולוגים, ולא לקהל הרחב. וזו טעות שרבים עושים, כשלא מבינים באמת את הפער בין מה שהמומחים מבינים, לבין הקהל שאליו מנגישים את המידע.