כשנתונים חלקיים מייצגים פוקוס, לא הסתרה

אחד הגרפים המדוברים יותר בימים האחרונים, בסביבתי, הוא גרף הטבעת הזה, שהתפרסם בדהמרקר ב-24/03/2020, ומפלח את המיקומים בהם נדבקו חולים בקורונה בהדבקה קהילתית – כלומר, בהדבקה בתוך הארץ, במהלך חיי יום-יום שגרתיים:

Image

אני לא אכנס כרגע לשאלות של בחירת צבעים, או עצם השימוש בגרף טבעת. אני דווקא אתייחס לשאלה של מה לא מופיע בגרף הזה, כי זו שאלה שעלתה ברוב הדיונים שלי סביב הגרף הזה מאז שפורסם.

אז מה לא מופיע בגרף הזה? בניגוד למה שהשימוש בגרף טבעת מרמז – בכך שמדובר בכלל ההדבקויות – מדובר רק בחלק קטן יחסית מסך חולי הקורונה בישראל – כ-35%, ע"פ הכתבה. שאר החולים נדבקו בחו"ל (47% מהחולים) בביתם (5%) או ממקור לא ידוע (13%). למה זה משנה,כי אנשים התרעמו, ובצדק, שיש לנו גרף שמתיימר לתת פילוח של מקומות היבדקות, אבל כשהוא בוחר להתמקד ב-35% מהחולים בלבד, הוא נותן תמונה מוטה של החלק היחסי של מקומות ההידבקות הללו. תוך חמש דקות, יכולתי הרי לייצר את הגרף הזה:

אבל האם באמת הרווחנו כאן משהו? כלומר כן, הטבעת שלי מקיפה יותר נתונים, אבל אז אנחנו חייבים לעצור ולשאול את עצמנו מה בעצם השאלה שאנחנו שואלים, ולמה בכלל אנחנו עושים את האינפוגרפיקה שלנו.

נתונים, בפני עצמם, אינם מעניינים. נתונים לא קיימים בוואקום. כשאנחנו בונים אינפוגרפיקה, אנחנו עושים את זה כי אנחנו רוצים לספר סיפור כלשהו לקוראים שלנו, או כי אנחנו רוצים להוציא תובנות מהנתונים מתוך מטרה מסוימת. והמטרה הזו, והתובנות שאנחנו מחפשים, משפיעים ומכווינים לא רק את סוג האינפוגרפיקה שלנו, אלא גם את הנתונים שאנחנו בוחרים להכניס לתוכה.

אז אם המטרה היא לקבל תמונת מצב מלאה של מקורות ההידבקות, הטבעת שלי ללא ספק תשרת את המטרה טוב יותר. אבל אם המטרה שלנו היא להסתכל על הנתונים של הידבקות בקהילה כדי לקבל תובנות לגבי האפקטיביות של צעדי סגר ובידוד, ולקבל החלטות מושכלות לגבי המשך קיומם, אז הוספתם של 47% החולים בחו"ל לא סתם שלא עוזרים לנו, הם מייצרים רעש רב בגרף ומפריעים להבין איפה במרחב שלנו ישנה בעיה.

אז כן, כתבתי כאן פעמים רבות על הבעיה של קיצוץ בסיס הצירים כטכניקה שמעצימה הבדלים או נותנת לנתון אחד תחושה שהוא עצום, בעוד הוא רק טיפה יותר גדול מאחרים. וגם כאן, אפשר לראות שכשמוסיפים עוד נתונים אז ההבדלים בין בתי כנסת למלונות, נגיד, מרגיש קצת פחות דרמטי. אבל גם קיצוץ מערכת הצירים הוא כלי. כשהוא נעשה בצורה מושכלת ולא בהסתר, כפי שכתבתי כאן, אז הוא כלי אפקטיבי בלהדגיש את מה שאנחנו רוצים להדגיש בסיפור שלנו, ובמסקנות שלנו.

אולי נתחיל פה תחרות לאינפוגרפיקות רעות בדרכים מקוריות

האינפוגרפיקה הבאה התפרסמה ב"דה-מרקר" ביוני 2010. היא ראויה לתשומת לב בעיני למרות עתיקותה כי היא רעה באופן מקורי במיוחד:

גרף מתוך המאמר "המחיר של אנרגיה ירוקה", דה-מרקר, יולי 2010

הסיפור שהאינפוגרפיקה הזאת מספרת הוא ש"שבעה מיליארד אנשים צריכים הרבה מאד אנרגיה". הסיפור נבנה כך: הגרף מראה שהגידול בצריכת הנפט תואם בצורה כמעט מושלמת גידול באוכלוסיית העולם. כל אדם חדש מוסיף כמות קבועה לצריכת הנפט/אנרגיה. כל אדם צורך כמות קבועה של אנרגיה. כל אדם צריך כמות קבועה של אנרגיה. לכן אין דרך לצמצם בצריכת האנרגיה ממקורות פחמניים (נפט, פחם וגז טבעי) בלי " למצוא שלושה מיליארד מתנדבים שיהיו מוכנים להחזיר ציוד ולפרוש מהעולם" (המחיר של אנרגיה ירוקה – פגיעה ברווחה העולמית, דורון צור, דה-מרקר 20/6/2010). יותר על הסיפור הזה בעתיד. עכשיו אני רוצה להתרכז בתרשים עצמו.

לקחתי את נתוני הגרף, הכנסתי אותם לאקסל, וציירתי גרף בעצמי. תראו מה יצא:

אותם נתונים, אבל שנת ה-ש' היא 1965

סיפור אחר לחלוטין, אה?

מה שהשתבש פה הוא השימוש בתרשים מסוג אשכולות של עמודות כדי לתאר שתי סדרות מספרים שונות לחלוטין. העמודה הלבנה הראשונה מימין מייצגת ערך 87, והעמודה האדומה הסמוכה לה מייצגת ערך 6.8. הן בערך באותו גובה. זאת בעיה.

בגרף עמודות אמורים לבחור סקאלה פעם אחת. במילים אחרות, בוחרים גודל לעמודה אחת ומציירים את כל השאר בפרופורציה. אבל כאן יש שתי סדרות נתונים לא קשורות, ולכן חייבים לבחור סקאלה פעמיים: לבחור גודל לשתי עמודות, אחת לבנה ואחת אדומה, ורק אז לצייר את כל השאר בפרופורציה. זה משאיר למשרטט את הבחירה של "שנת ה-ש'", השנה שעמודותיה יהיו שוות, והבחירה הזאת יכולה להפוך את הסיפור שעולה מהגרף. בגרף של דה-מרקר, שנת ה-ש' היא 2005. בגרף שלי שנת ה-ש' היא 1965. הסיפור של דה-מרקר הוא על מתאם בין הגידול באוכלוסייה לגידול בצריכת הנפט, הסיפור שלי הוא על צריכת נפט שגדלה הרבה יותר מהר מהגידול באוכלוסייה.

לצורך השוואה, הנה גרף שבו שנת ה-ש' היא 2010:

ועכשיו שנת ה-ש' היא 2010

הגרף המקורי של דה מרקר הוא לא שקר גדול יותר מהגרפים שלי. הבעיה היא בבחירת סוג התרשים. תרשים מסוג כזה מתאים להצגת סדרות נתונים תואמות: מספר לקוחות פלאפון לעומת מספר לקוחות סלקום. מחיר קילו תפוחים לעומת מחיר קילו תפוזים. במקרים כאלה הקשר בין העמודות הוא טבעי, ויש רק סקאלה אחת.

מה היה צריך לעשות במקרה זה? הנה שתי אפשרויות. הראשונה היא להציג את אחת מהסדרות בעמודות, ואת השניה בעקומה ((חדי העין שמו לב שבשני הגרפים הראשונים שלי חסרו ערכים על הצירים האנכיים. שימוש בגרף אשכולות-עמודות עם שתי סקאלות שונות הוא רעיון כל כך רע, שאקסל לא נותן לכם לעשות את זה. כדי לצייר את הגרפים הקודמים נאלצתי לבצע תעלולים, שבגללם גם נעלמו הצירים. עכשיו שחזרנו לקרקע בטוחה, אפשר היה להשיב את הצירים. מסתבר שלפעמים צריך לחשוב אם אולי יש סיבה טובה שאי אפשר לעשות משהו באקסל.)):

ובא לציון גואל

האפשרות השניה היא לשרטט את מה שבעצם מעניין אותנו: כמה חביות נפט צורך אדם ביום.

ומשיח לירושלים

וכאן הגענו לבעיית אינפוגרפיקה קלאסית: גרפים יפים וגרפים שאופים. השרטוט האחרון נותן את המידע המדויק ביותר לגבי השאלה האם בני אדם צורכים כמות קבועה של נפט. מבט אחד מספיק כדי לענות (פחות או יותר, אבל רק מ-1985). אבל קשה לא להסכים שזה גרף משעמם. להחריד. הפיתרון המאוזן בין קצת עניין ויזואלי לבין הצגה נכונה של הנתונים הוא כנראה הגרף הקודם,  המשלב עמודות ועקומה.

ועד כאן האינפוגרפיקה. אבל אחרי כל ההתעמקות הזאת בצורה, אנחנו נשארים אם שאלה פתוחה: כמה אנרגיה באמת צריכים 7 מיליארד בני אדם? והאם הפיתרון הירוק היחיד הוא העלמות של חצי מהאנושות?  לשאלות האלה אחזור (בלי נדר…) בהמשך.