העליה של הירידה

דונלד טראמפ, נשיא ארצות הברית בכבודו ובעצמו, פרסם את הגרף הזה לפני כמה ימים בחשבון הטוויטר שלו, עם הכותרת הצנועה, יחסית לטראמפ – "העליה בתעסוקה ממשיכה!". ועל פניו נראה שגרף אכן מראה עליה מרשימה בתעסוקה – 7.5 מיליון מועסקים חדשים לעומת שנת 2019! אמנם היתה ירידה בתחילה 2020, מה שברור, אבל עברנו את המשבר ויצאנו מנצחים!

מה, לא?

מה שאנחנו רואים כאן זה לא, כפי שאולי אפשר לחשוב בטעות, רמת האבטלה בארה"ב בשנתיים האחרונות (או, איך שהאמריקאים אוהבים לקרוא לזה, "יצירת מקומות עבודה"), אלא מראה את השינויים ביצירת מקומות עבודה בתקופה הזו, כלומר זו הנגזרת של הגרף האמיתי של סך המועסקים בתקופה הזו (ותודה ל-@eyal6699 על הניסוח המדויק)

כלומר, אם לאורך 2018 ו-2019 לא היו שינויים במספר המועסקים במשק (מה שנראה לי מוזר, אבל נעזוב את זה כרגע), אז אנחנו רואים בתחילת 2020 ירידה של עד 22.5 מיליון מקומות עבודה (כלומר, 22.5 מיליון מובטלים חדשים), ואז, באמצע השנה, עליה של 9 מיליון מקומות עבודה. אבל בניגוד לאינטואיציה, אנחנו לא נמצאים במקום גבוה יותר, אבסולוטית, משהיינו לפני הירידה של 2020 – אנחנו פשוט מראים שאחרי ירידה של 22.5 היתה עליה של 9, כלומר אנחנו עדיין במינוס 13.5 מיליון מקומות עבודה יחסית לנקודת ההתחלה שלנו.

רציתי לקפוץ לאקסל ולהכין גרף עם הנתונים האבסולוטיים, אותם רציתי לקחת מהאתר של Haver Analytics שמאוזכרים בגרף המקורי. אבל לשמחתי, האתר שלהם (שנראה כאילו עוצב לאחרונה ב-1998) כבר הכיל את הגרף הזה בעצמו:

large image

תמונה קצת שונה, נכון? ומאותם נתונים בדיוק. היא מראה התאוששות, אבל עדיין רחוק מלחזור למצב לפני פרוץ הקורונה. אבל עם הגרף של הנגזרת, הכל נראה הרבה יותר ורוד.

מאיזה ציר נתעלם היום? ציר ה-Y

לא כל יום אני יכול להגיד שנתקלתי בשני גרפים שונים שהוציאו ממני תגובה פיזית לא רצונית ומלמול של "מה לעזאזל?!". אבל אתמול בהחלט היה יום כזה, בזכות הגרפים ששלחו לי הדס ושי (תודה, הדס ושי!), גרפים שמראים באמת עד כמה נמוך אפשר לרדת עם התעלמות מוחלטת – או, אולי, מכוונת – מאחד המרכיבים הבסיסיים בכל גרף, והוא מערכת הצירים. בפוסט הזה נתמקד בגרף הראשון שמתעלם באלגנטיות מציר ה-Y, ובמקביל יתפרסם פוסט נוסף על התעלמות מציר ה-X.

לפוסט השני: מאיזה ציר נתעלם היום? ציר ה-X.

הגרף הזה פורסם ב-Ynet, בתוך כתבה ארוכה על בצלאל סמוטריץ', שר התחבורה היוצא, ופועלו במשרד. הכתבה לוותה באינפוגרפיקה הזו, אם אפשר לקרוא לה ככה, ואני בטוח שתוכלו בקלות להבין מה הבעיה איתה:

הרמז הראשון שעומדת להיות בעיה היא שבניגוד לציר ה-X (השנים), לא מסומן ציר Y על הגרף. אבל זה לא נורא, נכון? הרבה פעמים ציר ה-Y הוא implicit וקל להבין אותו מהנתונים. מה… רגע. מה קורה פה? אנחנו מתחילים ב-415, אבל אז יורדים ל-433. אולי ציר ה-Y יורד, משום מה? לא, זה לא הגיוני, כי אחרי שעלינו חזרה ל-346 (שנמצא בין 415 ל-433 מבחינת הגובה), אנחנו עולים ל-375. כלומר אין שום קשר בין העליות והירידות של הגרף לבין הנתונים שמוצגים בו. המספר הגבוה ביותר הוא 433, אבל הוא בערך האמצעי מבחינת הגובה בגרף. הנקודה הנמוכה ביותר, זו של 382, היא בין הגבוהות ביותר מבחינת הנתון. מה קורה כאן?

אז פניתי לחברי הטוב אקסל (או, לשם הדיוק, חברי הטוב החדש Google Sheets, פשוט בגלל שהמחשב החדש שלי מריץ לינוקס ואין לי אופיס), וזה מה שהנתונים יצרו לי:

גרף שטוח בהרבה, פחות דרמטי, ועם עליות וירידות במקומות הנכונים(!). זה גרף הרבה פחות מעניין, אפילו אם היינו מקצצים את בסיס ציר ה-Y. אבל המשכתי לתהות מה היה יכול לגרום ל-ynet לפרסם את הגרף הזה. אבל אז, אחרי קצת משחקים עם הפרמטרים של הגרף, הגעתי למשהו מעניין:

היי, מה זה פה? יש כאן את הצורה של הגרף של ynet, פחות או יותר! אולי הגרף כן הגיע מהנתונים, למרות הכל? מה קורה פה?

אז מה שקרה הוא שאני הגדרתי לגרף שציר ה-Y לא יהיה לינארי, אלא לוגריתמי. כלומר שבמקום להראות שינויים פשוטים במס' המתים בתאונות דרכים, הפכו אותו לגרף שמראה שינויים בקצב העליה או הירידה בתמותה. הבעיה היא שבניגוד לגרף הידבקות בקורונה, שאליו קישרתי כאן בתחילת הפיסקה, אין הגיון בגרף לוגריתמי אם אין לנו רצון להציג איך הקצב משתנה. זה חשוב כדי לעקוב אחרי התפשטות של מגיפה. פחות בשביל נתון עם תנודות קטנות יחסית ולא מצטברות, כמו תאונות דרכים.

אבל זה רק מסביר איך אפשר להגיע מהנתונים לצורה הזו של הגרף. איך זה מסביר את הירידות במקום העליות? ובכן, ככל הנראה מה שקרה הוא שבגרף של ויינט פשוט קיצצו, באגביות, נתונים שלא התאימו להם, והזיזו נתונים אחרים למקום שלהם בגרף. נקודת ההתחלה של ויינט? הגבוהה ביותר בגרף? היא מתאימה דווקא ל-datapoint השני, זה של 2008, שבו באמת היה את מס' ההרוגים הגבוה ביותר (ושבגרף שלי משום מה קוצץ בשולי הגרף, אבל לא נורא, עדיין מובן). אבל כנראה שהעורך היה מעוניין בגרף שמתחיל הכי גבוה שלו ומשם יורד, בין אם על מנת להעביר מסר מסוים, או כי זה נראה טוב יותר. בכל מקרה, זה גרם לכל הגרף לזוז הצידה על ציר ה-X, ולכל הנתונים להיות מפוספסים לחלוטין. אבל אם אנחנו מניחים שיש עוד נקודה מצד שמאל שבה מתחילים הנתונים, פתאום הכל יותר הגיוני. העליה מ-346 ל-375 היא מה שבגרף כתוב מ-433 ל-346. ואז יש לנו ירידה מתונה יותר ל-382 (הגיוני!), צניחה ל-290 – הכל פתאום מסתדר הרבה יותר טוב.

ומה לגבי ynet? אני לא יודע אם השינוי הזה נעשה בכוונה או בטעות, מתוך מטרה להטעות או חוסר הבנה של הכלי. מה שאני יודע הוא ש-24 שעות אחרי שראיתי את הגרף, הוא כבר לא נמצא בכתבה. הוא לא הוחלף בגרף טוב יותר. הוא פשוט כבר לא שם.

עדכוני משרד הבריאות, חלק א': התאמת הכותרת לגרף, הגרף לקהל

בחודשים האחרונים, משרד הבריאות מצא את עצמו במרכז תשומת הלב התקשורתית, ובין השאר, מצא את עצמו אחראי על אינפוגרפיקות עם תפוצה חסרת תקדים ברשתות החברתיות, כשלחץ הקורונה שולח את כולם להתעמק בכל גרף הידבקויות או תוחלת הכפלת נדבקים. אבל בשבועות הראשונים, היכולות של המשרד בתחום של תקשורת ציבורית, ובפרט באינגפוגרפיקה, היתה… מוגבלת. בסיסית. בעייתית.

אבל אני שמח שאחרי חודש וקצת של עבודה, התוצרים של המשרד נהיו הרבה יותר מוצלחים ומלוטשים, בלי הבעיות שהיו בהתחלה של כיווני טקסט הפוכים, הסברים שחרגו מהמסגרות ופונטים בלתי קריאים, ועכשיו אפשר לדבר עליהם עניינית יותר, על האספקטים האינפוגרפיים של העדכונים שלהם. יש לי כמה דברים להגיד עליהם, אבל בשביל לשמור על מסרים חדים יותר, אני אקדיש פוסט נפרד לכל אחד.

בפוסט הזה אני אתמקד בגרף שבמרכז העדכון הזה, גרף הקו שכותרתו "קצב ההכפלה של מאומתים":

מה הכותרת אומרת לנו? שיש לנו גרף של קצב. קצב זה המהירות שבו משהו מחזורי קורה, וקצב גבוה – בין אם במוזיקה, בתקשורת נתונים, בקצב לב – הוא כשמשהו קורה מהר, נכון? זו הקריאה שלי, ואני חושב שהיא סבירה לרוב מי שיקרא את הגרף הזה.

אבל זה לא מה שהגרף בעצם מראה. הנתון המספרי הבסיסי שמוצג כאן הוא מספר הימים הדרושים כדי שמס' החולים המאומתים יכפיל את עצמו. כלומר, בנקודת ההתחלה של הגרף הערך הוא 29, כלומר מס' החולים יכפיל את עצמו בערך כל חודש. אבל בנקודה שבה לקחתי את התמונה הוא עומד על 719 – כלומר שיקח כמעט שנתיים להכפיל את כמות החולים. זה נתון חיובי בהרבה מה-29 שהיינו בו לפני חודש, אבל בגלל הכותרת, הקריאה הראשונית שלי של הגרף היא שקצב ההכפלה עולה – כלומר, יש חוסר הלימה בין הכותרת לבין מה שהגרף באמת אומר.

אני אעשה רגע הפסקה לאמירה כללית יותר, שאולי צריכה לקבל פוסט משלה והצמדה לראשית הבלוג: הרושם הראשוני מכל גרף או אינפוגרפיקה הוא קריטי. בטח ובטח כשמדובר באינפוגרפיקות בעיתון או בפרסומים לקהל הרחב. המסר צריך לעבור באופן ויזואלי ומיידי, או שהוא כושל כאינפוגרפיקה. אם אני צריך להסתכל על הגרף, לבדוק מה השנתות, מה הנתון, ורק אז להבין מה המסר הראשי, הכללי של הגרף, אז הוא לא. גרף. טוב.

אני לא אומר שגרף הוא רק המסר הראשי והמיידי. אני לא אומר שלא צריך להיות את המידע של השנתות והנתונים הנוספים והתובנות הנוספות שאפשר להבין מהגרף. ברור שהם חשובים, והתעמקות בגרף תתן לנו יותר מאשר הגרף הראשי. אבל אם המסר הכולל, ה-high level של הנתונים שלך ניתן לניסוח כ-"קצת ההדבקה ב-16.5 הוא איטי משמעותית מאשר ב-16.4", אבל הגרף שלך מראה גרף שעולה באופן מובהק – הסיפור שלך הולך לאיבוד.

הנה אותו הגרף, רק שהפכתי את כיוון ציר ה-Y כך שהגדלת מס' הימים בהלימה עם ירידת קצב ההכפלה (ותסלחו לי על עריכת הגרף הגסה, אין לי את הנתונים הגולמיים להכין את הגרף מההתחלה):

הנה. גרף שיש הלימה בין הכותרת שלו לבין הסיפור המיידי, הויזואלי שהוא מספר – הקצב יורד. היאח.

השאלה הבאה היא איך בכלל קורה שגרף כזה מגיע לעמוד הראשי של משרד הבריאות, למידע שיוצא לציבור. איך זה שאף אחד לא הסתכל עליו ואמר "רגע, זה הפוך, זה לא אומר מה שזה מתיימר להגיד". וכאן הבעיה, לדעתי, נובעת מהפער בין מי שמפרסם את המידע למי שצורך אותו. אני לא אפידמיולוג, ואני משתדל לא להציק לאפידמיולוגיים עם שאלות בנושא כשכבר יש להם קצת זמן לנוח, אבל אני לא אתפלא אם המדד הזה – מספר הימים הדרושים להכפלה – הוא מדד מקובל ושגור בפיהם. להעלות את המספר הזה זו המטרה, זה היעד. ברור להם שגבוה, במדד הזה, זה טוב, ולשם הם שואפים. אבל זה מה שיכול לגרום, לדעתי, לגרף כזה לצאת לציבור. אבל לציבור אין את ההתניה הזו שגבוה=טוב במדד ההכפלה, שהוא בכלל לא מדד הכפלה אלא מדד זמן בין הכפלות, ולכן הגרף הזה בעצם פונה לקהל של אפידמיולוגים, ולא לקהל הרחב. וזו טעות שרבים עושים, כשלא מבינים באמת את הפער בין מה שהמומחים מבינים, לבין הקהל שאליו מנגישים את המידע.

לא לינארי, לא לוגריתמי

יוני הפנה אותי לגרף הזה שהוצג (איך לא) בערוץ פוקס ניוז בארה"ב, שמציג את השינוי בקצב גילוי מקרי קורונה חדשים, כנראה במקום מסוים בארה"ב:

גרף קו עם ציר Y לא אחיד
דווח בטוויטר ע"י @MarekGierlinski

מה אהבתי בגרף הזה? שהעיוות בו סובטילי ולא קופץ מיד לעין, בניגוד לגרפים גרועים אחרים. מצאתם כבר את הבעיה? היא בציר ה-Y של הגרף הזה, שבמגוון גרפי ההידבקות הרבים (רבים, רבים) שאנחנו נחשפים אליהם יכול להיות ציר לינארי (כלומר, שהקפיצות של השנתות הן בגדלים קבועים, נגיד 10, 20, 30) או לוגריתימי (כלומר, שהקפיצות גדלות באופן אחיד, נגיד 10, 100, 1000). לשני סוגי הצירים יש שימוש שונה – הראשון יעביר את סדרי הגודל של כמות הנדבקים, השני יעביר את סדר הגודל של *קצב הגידול* בשינוי.

הגרף הזה, עם זאת, הוא… לא זה ולא זה. כלומר, הוא *כמעט* לינארי. והוא *נראה* כמו לינארי, אבל המרווחים בין השנתות לא קבועים. יש לנו 30, 60 ו-90 (קפיצה אחידה של 30), אבל אז פתאום… 100? קפיצה של 10 בלבד? מה המשמעות שלה? תאורטית, שינוי כזה יכול לייצר גרף עם קפיצה גדולה באופן מלאכותי – הקפיצה מ-60 ל-90 ומ-90 ל-100 תיוצג באותו גובה של הגרף וזה יכול ליצור תחושת גידול מזויפת. אבל במקרה הזה מיד חוזרים לקפיצות של 30… עד 190 שם יש קפיצה של 50, ואז שוב 10, ומשם קפיצות בגודל של 50.

אז למה זה טוב? זה ממש לא ברור. אם באמת היתה כוונה לייצר גרף שמעביר סיפור שונה מהנתונים האמיתיים, היה צריך לעשות את זה אחר לגמרי – כי הסיפור שהגרף הזה מספר הוא, בסופו של דבר, לא מאד שונה מגרף שבאמת מתואם עם ציר לינארי אחיד, כפי שמיד פורסם בטוויטר כתגובה לגרף הזה:

גרף קו עם אותם נתונים כמו הגרף הקודם, אבל כשציר ה-Y מצויר באופן אחיד
פורסם בטוויטר ע"י @mayhplumb

אולי הקפיצה בסביבות ה-200 נועדה להדגיש את הצניחה ב-29 למרץ? להדגיש את העליה ב-21 למרץ? לא ברור. אין כאן סיפור שעולה מהשינויים הללו. יכול להיות שכאן, כמו במקרים רבים בעבר, פשוט לקח עורך כלשהו את הגרף הראשוני שצויר ע"פ הנתונים, החליט שהוא לא מספיק יפה, חלק או אלגנטי, והלך ועשה בו שינויים משיקולים אסתטיים. ולעזאזל הסיפור של הנתונים.

מסרים צולבים

שר החינוך נפתלי בנט פירסם היום בחשבון הטוויטר שלו את הגרף הבא, עם ההאשטג “חינוך_בתנופה”, שבו הוא מתגאה בכך שבשנים האחרונות היתה ירידה במס’ ההולכים ללימודי משפטים, ועליה בלימודי הנדסה ומחשבים. אני לא אכנס לשאלה אם זה דבר טוב או לא, או מה כוללים הלימודים הללו (תארים אקדמאים בלבד? מכללות?) כי זה לא העניין כאן. העניין הוא, כמובן, הגרף, ומצג השווא הברור שהוא מנסה להעביר.

 

על גרפים מצטלבים כבר כתבנו לפני כמה שנים, ועל הבעיה הבסיסית שלהם – שהם מתיימרים להציג נקודה שבה נתון א’ “חצה” את נתון ב’, ולהתייחס אליו כהישג. בגרף הזה, נראה שהרגע הזה היה בין תשע”ה לתשע”ו (לא ברור בדיוק מתי, כמובן, כי לא ברור כמה נקודות-מידע יש, מה הרציפות שלהם, וכו’). מתישהו הצטלבו הגרפים, ויש לנו יותר תלמידי הנדסה מאשר משפטים. מה, לא?

הסוד בהטעיה הוא ששני הגרפים יושבים על אותו מרחב גרפי, אבל על צירים שונים. לומדי משפטים הם על ציר שבין 13,000-21,000, בעוד לומדי ההנדסה (פלוס מחשבים, כן? גם אלה שלא מקבלים תואר מהנדס, אבל נעזוב את ההטעיה הזו בכותרת) נעים על ציר שבין 43,000-51,000. כלומר גם אם הגרף האדום של המשפטים היה על החלק העליון של הגרף לכל אורכו, בעוד המשפטים היה על הקו התחתון, עדיין היה לנו פי שניים סטודנטים להנדסה (ומחשבים, וכו’) מאשר למשפטים. נקודת הפתיחה, שמראה כאילו יש יותר לומדי משפטים מאשר הנדסה (בכשליש(!) מגובה הגרף) היא מטעה, כי מדובר על כ-16,000 במשפטים לעומת כ-43,500 בהנדסה – כמעט פי שלוש.

אז מה באמת הנתונים אומרים? שהיתה לנו ירידה של כ-18% בלומדי משפטים (מ-16 אלף ל-13 אלף, ע”פ הגרף) ועליה של כ-16% בלומדי הנדסה (וכו’) (מ-43,500 ל-50,500, בהערכה גסה בעין).

ובינינו? זה לא מעט. לא יודע מה הגורמים, אבל שינוי של 15-20% תוך 5 שנים נראה לי לא מבוטל. הבעיה היא שזה לא הסיפור שהגרף מספר. הגרף מספר על הצטלבות, מהפך, שינוי העליונות מא’ לב’. זה הסיפור שגרף קווים מצטלב יודע לספר. אם היינו משנים את טווח הצירים להיות אחיד, היינו רואים משהו הרבה פחות דרמטי. אבל הדרמה זה העניין כאן, לא ההשוואה, הרי.

וככה זה היה נראה בגרף פשוט באקסל, בלי צירים נפרדים. הרבה פחות דרמטי, כמובן. וזה כשאני הדגשתי את ההבדלים ככל האפשר ע”י קיצוץ מערכת הצירים (ע”ע).

image