מאיזה ציר נתעלם היום? ציר ה-X

לא כל יום אני יכול להגיד שנתקלתי בשני גרפים שונים שהוציאו ממני תגובה פיזית לא רצונית ומלמול של "מה לעזאזל?!". אבל אתמול בהחלט היה יום כזה, בזכות הגרפים ששלחו לי הדס ושי (תודה, הדס ושי!), גרפים שמראים באמת עד כמה נמוך אפשר לרדת עם התעלמות מוחלטת – או, אולי, מכוונת – מאחד המרכיבים הבסיסיים בכל גרף, והוא מערכת הצירים. בפוסט הזה נתמקד בגרף הראשון שמתעלם באלגנטיות מציר ה-X, ובמקביל יתפרסם פוסט נוסף על התעלמות מציר ה-Y.

לפוסט השני: מאיזה ציר נתעלם היום? ציר ה-Y.

עדכון: משרדו של מושל ג'ורג'יה, דרך מנהלת התקשורת שלו קנדיס ברוס, פרסם התנצלות על הגרף שבמידה מסוימת גרועה כמו הטעות עצמה, או לכל הפחות מעידה על כך שלא היתה כאן טעות, אלא הטיה מכוונת שפשוט התפוצצה להם בפרצוף. האם זה יגרום להם, ולאחרים, להמנע בכך בעתיד? לא הייתי שם על זה כסף.

הגרף הזה פורסם באתר של משרד בריאות הציבור של מדינה ג'ורג'יה שבארצות הברית, ובא להציג… משהו שנוגע להיקף ההידבקויות בקורונה במחוזות השונים במדינה:

מה אנחנו רואים כאן, במבט ראשון? גרף די פשוט, ישיר מאד, שמסודר על ציר X של זמן וציר Y שפוי לגמרי, ללא קיצוץ מערכת הצירים. והוא מספר סיפור – כי זה הרי מה שאינפוגרפיקה עושה, לא? – סיפור ברור, ובריא, ויפה של החלמה וצמצום המגיפה.

רגע. האם זה באמת מה שכתוב שם? התעמקות קצרה בתוויות של ציר ה-X מראה לנו סיפור אחר. אחר לגמרי. ושאין שום דרך להצדיק אותו כטעות – בניגוד לכל הגיון אינפוגרפי או אחר, ציר ה-X לא מסודר לפני סדר כרונולוגי. כן, זה נכון. גרף שמציג נתונים על ציר זמן, אבל לא מסודר ע"פ ציר הזמן.

כתמיד, חשוב לחזור לשאלה הבסיסית – למה? למה הציגו לנו ככה את הנתונים? איך קרה שגרף כזה… קרה? וכאן יש כמה אפשרויות. הראשונה היא רשלנות בסיסית – אם הנתונים הוזנו, מראש, בטבלת האקסל (או google sheets, בסדר) שלא בסדר כרונולוגי, ואז הגרף נוצר אוטומטית מהנתונים כפי שהם, אז אולי היה מתקבל תוצר כזה. אולי. אבל זה עוד היה צריך לעבור דרך עיניים של גרפיקאי, של עורך תוכן. מישהו היה אמור לשים לב.

אפשרות נוספת היא פוליטית יותר. ג'ורג'יה היא אחת המדינות הבולטות בסיקור של מאבקי הקורונה בארה"ב, בין השאר בגלל ההתעקשות של הממשל הרפובליקני לחזור לפעילות כלכלית מלאה למרות אזהרות על הגברות ההידבקויות. בהקשר הזה, אפשר להסתכל על הגרף הזה כניסיון להראות מגמת שיפור מדהימה – ממצב של המון נדבקים, הגענו למצב של כמעט כלום. ניצחון! יש trend line ברור של התקדמות!

ישבתי חמש דקות עם MSPaint בשביל לסדר מחדש את העמודות בגרף, וקיבלתי משהו מוזר. הסיפור שהוא מספר הרבה פחות מובהק – אין כאן קו יורד ברור, אלא התחלה שקטה, זינוק, ירידה, ואז עליה מחדש (גל שני?) ואחריו ירידה.

אותם נתונים בדיוק, רק מסודרים ע"פ סדר כרונולוגי. אבל מה שמוזר לי הוא שהימים האחרונים בגרף הם עדיין מאד נמוכים (והם גם היו במיקום הנכון שלהם בגרף המקורי), מה שאומר שעדיין אפשר להסתכל על הגרף כסיפור הצלחה – אבל לא מובהק כמו שהיה קודם. בטח ובטח כשמדובר על שינויים לא קטנים בהפרש של שבועיים בלבד, מה שיכול להוריד את הביטחון של האזרחים בסיפור שמספרים לו.

וזה עוד לפני שדיברנו על התיאור של הגרף, שמתיימר להציג "מס' המקרים לאורך זמן", אבל גם "מס' מקרי המוות והאישפוזים". איפה כל אלה נכנסים לגרף? מה בעצם אומר המספר שאנחנו רואים? ובכן, זה סיפור אחר, ויסופר בפעם אחרת (או שלא).

עדכוני משרד הבריאות, חלק א': התאמת הכותרת לגרף, הגרף לקהל

בחודשים האחרונים, משרד הבריאות מצא את עצמו במרכז תשומת הלב התקשורתית, ובין השאר, מצא את עצמו אחראי על אינפוגרפיקות עם תפוצה חסרת תקדים ברשתות החברתיות, כשלחץ הקורונה שולח את כולם להתעמק בכל גרף הידבקויות או תוחלת הכפלת נדבקים. אבל בשבועות הראשונים, היכולות של המשרד בתחום של תקשורת ציבורית, ובפרט באינגפוגרפיקה, היתה… מוגבלת. בסיסית. בעייתית.

אבל אני שמח שאחרי חודש וקצת של עבודה, התוצרים של המשרד נהיו הרבה יותר מוצלחים ומלוטשים, בלי הבעיות שהיו בהתחלה של כיווני טקסט הפוכים, הסברים שחרגו מהמסגרות ופונטים בלתי קריאים, ועכשיו אפשר לדבר עליהם עניינית יותר, על האספקטים האינפוגרפיים של העדכונים שלהם. יש לי כמה דברים להגיד עליהם, אבל בשביל לשמור על מסרים חדים יותר, אני אקדיש פוסט נפרד לכל אחד.

בפוסט הזה אני אתמקד בגרף שבמרכז העדכון הזה, גרף הקו שכותרתו "קצב ההכפלה של מאומתים":

מה הכותרת אומרת לנו? שיש לנו גרף של קצב. קצב זה המהירות שבו משהו מחזורי קורה, וקצב גבוה – בין אם במוזיקה, בתקשורת נתונים, בקצב לב – הוא כשמשהו קורה מהר, נכון? זו הקריאה שלי, ואני חושב שהיא סבירה לרוב מי שיקרא את הגרף הזה.

אבל זה לא מה שהגרף בעצם מראה. הנתון המספרי הבסיסי שמוצג כאן הוא מספר הימים הדרושים כדי שמס' החולים המאומתים יכפיל את עצמו. כלומר, בנקודת ההתחלה של הגרף הערך הוא 29, כלומר מס' החולים יכפיל את עצמו בערך כל חודש. אבל בנקודה שבה לקחתי את התמונה הוא עומד על 719 – כלומר שיקח כמעט שנתיים להכפיל את כמות החולים. זה נתון חיובי בהרבה מה-29 שהיינו בו לפני חודש, אבל בגלל הכותרת, הקריאה הראשונית שלי של הגרף היא שקצב ההכפלה עולה – כלומר, יש חוסר הלימה בין הכותרת לבין מה שהגרף באמת אומר.

אני אעשה רגע הפסקה לאמירה כללית יותר, שאולי צריכה לקבל פוסט משלה והצמדה לראשית הבלוג: הרושם הראשוני מכל גרף או אינפוגרפיקה הוא קריטי. בטח ובטח כשמדובר באינפוגרפיקות בעיתון או בפרסומים לקהל הרחב. המסר צריך לעבור באופן ויזואלי ומיידי, או שהוא כושל כאינפוגרפיקה. אם אני צריך להסתכל על הגרף, לבדוק מה השנתות, מה הנתון, ורק אז להבין מה המסר הראשי, הכללי של הגרף, אז הוא לא. גרף. טוב.

אני לא אומר שגרף הוא רק המסר הראשי והמיידי. אני לא אומר שלא צריך להיות את המידע של השנתות והנתונים הנוספים והתובנות הנוספות שאפשר להבין מהגרף. ברור שהם חשובים, והתעמקות בגרף תתן לנו יותר מאשר הגרף הראשי. אבל אם המסר הכולל, ה-high level של הנתונים שלך ניתן לניסוח כ-"קצת ההדבקה ב-16.5 הוא איטי משמעותית מאשר ב-16.4", אבל הגרף שלך מראה גרף שעולה באופן מובהק – הסיפור שלך הולך לאיבוד.

הנה אותו הגרף, רק שהפכתי את כיוון ציר ה-Y כך שהגדלת מס' הימים בהלימה עם ירידת קצב ההכפלה (ותסלחו לי על עריכת הגרף הגסה, אין לי את הנתונים הגולמיים להכין את הגרף מההתחלה):

הנה. גרף שיש הלימה בין הכותרת שלו לבין הסיפור המיידי, הויזואלי שהוא מספר – הקצב יורד. היאח.

השאלה הבאה היא איך בכלל קורה שגרף כזה מגיע לעמוד הראשי של משרד הבריאות, למידע שיוצא לציבור. איך זה שאף אחד לא הסתכל עליו ואמר "רגע, זה הפוך, זה לא אומר מה שזה מתיימר להגיד". וכאן הבעיה, לדעתי, נובעת מהפער בין מי שמפרסם את המידע למי שצורך אותו. אני לא אפידמיולוג, ואני משתדל לא להציק לאפידמיולוגיים עם שאלות בנושא כשכבר יש להם קצת זמן לנוח, אבל אני לא אתפלא אם המדד הזה – מספר הימים הדרושים להכפלה – הוא מדד מקובל ושגור בפיהם. להעלות את המספר הזה זו המטרה, זה היעד. ברור להם שגבוה, במדד הזה, זה טוב, ולשם הם שואפים. אבל זה מה שיכול לגרום, לדעתי, לגרף כזה לצאת לציבור. אבל לציבור אין את ההתניה הזו שגבוה=טוב במדד ההכפלה, שהוא בכלל לא מדד הכפלה אלא מדד זמן בין הכפלות, ולכן הגרף הזה בעצם פונה לקהל של אפידמיולוגים, ולא לקהל הרחב. וזו טעות שרבים עושים, כשלא מבינים באמת את הפער בין מה שהמומחים מבינים, לבין הקהל שאליו מנגישים את המידע.

כשנתונים חלקיים מייצגים פוקוס, לא הסתרה

אחד הגרפים המדוברים יותר בימים האחרונים, בסביבתי, הוא גרף הטבעת הזה, שהתפרסם בדהמרקר ב-24/03/2020, ומפלח את המיקומים בהם נדבקו חולים בקורונה בהדבקה קהילתית – כלומר, בהדבקה בתוך הארץ, במהלך חיי יום-יום שגרתיים:

Image

אני לא אכנס כרגע לשאלות של בחירת צבעים, או עצם השימוש בגרף טבעת. אני דווקא אתייחס לשאלה של מה לא מופיע בגרף הזה, כי זו שאלה שעלתה ברוב הדיונים שלי סביב הגרף הזה מאז שפורסם.

אז מה לא מופיע בגרף הזה? בניגוד למה שהשימוש בגרף טבעת מרמז – בכך שמדובר בכלל ההדבקויות – מדובר רק בחלק קטן יחסית מסך חולי הקורונה בישראל – כ-35%, ע"פ הכתבה. שאר החולים נדבקו בחו"ל (47% מהחולים) בביתם (5%) או ממקור לא ידוע (13%). למה זה משנה,כי אנשים התרעמו, ובצדק, שיש לנו גרף שמתיימר לתת פילוח של מקומות היבדקות, אבל כשהוא בוחר להתמקד ב-35% מהחולים בלבד, הוא נותן תמונה מוטה של החלק היחסי של מקומות ההידבקות הללו. תוך חמש דקות, יכולתי הרי לייצר את הגרף הזה:

אבל האם באמת הרווחנו כאן משהו? כלומר כן, הטבעת שלי מקיפה יותר נתונים, אבל אז אנחנו חייבים לעצור ולשאול את עצמנו מה בעצם השאלה שאנחנו שואלים, ולמה בכלל אנחנו עושים את האינפוגרפיקה שלנו.

נתונים, בפני עצמם, אינם מעניינים. נתונים לא קיימים בוואקום. כשאנחנו בונים אינפוגרפיקה, אנחנו עושים את זה כי אנחנו רוצים לספר סיפור כלשהו לקוראים שלנו, או כי אנחנו רוצים להוציא תובנות מהנתונים מתוך מטרה מסוימת. והמטרה הזו, והתובנות שאנחנו מחפשים, משפיעים ומכווינים לא רק את סוג האינפוגרפיקה שלנו, אלא גם את הנתונים שאנחנו בוחרים להכניס לתוכה.

אז אם המטרה היא לקבל תמונת מצב מלאה של מקורות ההידבקות, הטבעת שלי ללא ספק תשרת את המטרה טוב יותר. אבל אם המטרה שלנו היא להסתכל על הנתונים של הידבקות בקהילה כדי לקבל תובנות לגבי האפקטיביות של צעדי סגר ובידוד, ולקבל החלטות מושכלות לגבי המשך קיומם, אז הוספתם של 47% החולים בחו"ל לא סתם שלא עוזרים לנו, הם מייצרים רעש רב בגרף ומפריעים להבין איפה במרחב שלנו ישנה בעיה.

אז כן, כתבתי כאן פעמים רבות על הבעיה של קיצוץ בסיס הצירים כטכניקה שמעצימה הבדלים או נותנת לנתון אחד תחושה שהוא עצום, בעוד הוא רק טיפה יותר גדול מאחרים. וגם כאן, אפשר לראות שכשמוסיפים עוד נתונים אז ההבדלים בין בתי כנסת למלונות, נגיד, מרגיש קצת פחות דרמטי. אבל גם קיצוץ מערכת הצירים הוא כלי. כשהוא נעשה בצורה מושכלת ולא בהסתר, כפי שכתבתי כאן, אז הוא כלי אפקטיבי בלהדגיש את מה שאנחנו רוצים להדגיש בסיפור שלנו, ובמסקנות שלנו.