אינפוגרפיקה ברִיק

נדב פרץ-וויסווידובסקי קישור אלי את התמונה הבאה, שהגיעה מפוסט ממומן פרסומת של HOT בפייסבוק.

image 

כפי שאמר נדב:

"תראו! יש כאן עמודה אדומה גבוהה ועמודה כחולה נמוכה! ההוכחה הניצחת שאנחנו אכן יותר טובים!"

ואכן, יש לנו כאן מראית עין של גרף אבל בלי נתונים, בלי שנתות, בלי מספרים, ואפילו בלי הסבר של מה הגרף הזה כביכול מתיימר לתאר. יתכן שבהקשר של הפרסומת המקורית היה גם טקסט שנתן הסבר, אבל זה הלך לאיבוד מהר מאד, וכל מה שנשארנו איתו הוא אדום גבוה, וכחול נמוך. ובאופן מפתיע, מדובר בכחול כללי – לא בכחול הבהיר של Yes, המתחרה הראשית של HOT בתחום הטלוויזיה, ואולי, רק אולי, בצבע של הלוגו של בזק, המתחרה של HOT בתחום הטלפוניה.

אבל מה שיותר מעניין הוא שגרף כזה, בלי שום מידע או נתונים, פשוט מזמין אנשים אחרים לצקת לתוכו תוכן סרקסטי חלופי. “זמני המתנה לשירות”, הציע עידו קינן בפתיל הפייסבוק המקורי. “אחוזי נטישה”, הציע אביב לוי.

כשאתה לא אומר שום דבר, אל תתפלא ששמים לך מילים בפה.

העתק-הדבק

בטמקא פרסמו סקר חדש בעקבות הפריימריס בקדימה, לפיו קדימה ולפיד נאבקים ראש בראש על המקומות הרביעי והחמישי בדירוג המפלגות.

מכיוון שאפילו הם יודעים שלסקרים הללו אין משמעות, אוהבים העיתונים לעסוק בספקולציות חסרות שחר. הפעם, למשל, צורף לסקר הזה גם סקר ששאל כיצד יצביעו הבוחרים אם ציפי ליבני תצטרף למפלגתו של לפיד. מסתבר שלפיד יזנק מ-12 ל-15 מנדטים (ולמקום השלישי בדירוג), בעוד שקדימה, העבודה והליכוד יאבדו מנדט אחד כל אחת.

אבל לערוך סקר זה קל. להכין אינפוגרפיקה, לעומת זאת, זה קשה. כנראה. קשה להסביר אחרת את העובדה שהגרפיקה שמציגה את הסקר השני היא פשוט העתק של חמשת העמודות הראשונות מהסקר הראשון, אבל עם מספרים שונים (ותוספת ליבני לעמודה של לפיד). כך לפיד (15 מנדטים) ממוקם במקום החמישי באותו גובה כמו קדימה (11 מנדטים), ונמוך מישראל ביתנו (13 מנדטים). לא ספרתי פיקסלים, אבל אני מוכן להתערב שגם העמודות של הליכוד ושל העבודה לא זעו מילימטר ביחס לעמודות האחרות, חרף אובדן של שלושה-חמישה אחוזים מערכן.

כי באמת, בשביל מה צריך לשנות את הגרף כשמשתנים המספרים? זה לא כאילו שכל מטרתה של האינפוגרפיקה היא שלא נצטרך לעיין באופן מדוקדק בנתונים כדי לקבל את התמונה הכללית…

מה משווים?

מטרתה של האינפוגרפיקה היא לקחת מספר גדול של נתונים ולהציג אותם באופן שמאפשר לקורא לתפוס את המסר העיקרי של המספרים הללו בקלות ובלי להתעמק יותר מדי. כשהמספרים מוצגים במלואם, הם בדרך-כלל על תקן "קריאה נוספת" למעוניינים להעמיק.

המטרה הפשוטה הזו נעלמה מעיניהם של מעצבי האינפוגרפיקה הזו, שהופיעה בגליון מעריב מיום שני, החמישי בספטמבר:

כותרת האיור מציגה שאלה פשוטה: האם העדר התחרותיות במשק הביא לעליית מחירים? הטענה המובלעת בכתבה היא שחברות שמחזיקות במונופול או כמעט-מונופול על השוק מעלות את המחירים בקצב גבוה יותר מחברות שמחזיקות בנתח קטן יותר מהשוק.

לצורך העניין, נניח שחמשת הנתונים שמביא הגרף מספיקים כדי להציג מגמה, ולא נדרוש השוואה גם למחירי מוצרים שמשווקים על-ידי חברות שאינן אוחזות בנתח שוק משמעותי, או שאינן מהוות חלק מתעשייה שהמחירים בה מוכתבים על-ידי גוף כמעט-מונופולי.

מדוע מוצגים הנתונים כפי שהם מוצגים? ההשוואה העיקרית שמוצגת לנו כאן היא בגרף העמודות. העמודות משקפות מחיר אבסולוטי בשקלים של מוצרים שונים. אבל ממש לא מעניין אותנו להשוות בין מחיר של שקית במבה לבין קופסא של קורנפלקס. אין להשוואה הזו כל ערך לגבי הטענה הנטענת. ההשוואה שמעניינת אותנו מתמקדת בשני נתונים: אחוז העליה במחיר בין 2008 ל-2011, ונתח השוק של החברה שאת מחירי מוצריה בדקנו. שני הנתונים הללו אינם מוצגים בצורה השוואתית, אלא בצורת מספרים בלבד (נתח השוק מוצג גם בסדרה של תרשימי עוגה שמונחים זה לצד זה – פרקטיקה מאוד לא נוחה להשוואה: תרשים עוגה נוח להשוואה בין חלקי העוגה השונים, אבל לא קל לנו להשוות בין שני תרשימי עוגה שמונחים אחד ליד השני). כדי להוסיף חטא על פשע, אחוז השינוי מוצג מיד מעל לעמודות המחיר האבסולוטי, כך שלא רק שאין קשר בין מיקום המספר לבין יחסו למספרים האחרים, אלא שיש קשר משתמע מטעה ביניהם, משום שהמספר הנמוך ביותר (חמישה אחוזים) מוקם הכי גבוה בגרף.

איך היה צריך להראות הגרף הזה? ראשית, ההגיון מכתיב קיומו של ציר X שהוא, לכל הפחות, סודר. משמע: ככל שהחברה ממוקמת ימינה יותר על הגרף, כך נתח השוק שלה גדול יותר (או להפך, אם מתעקשים, זה לא קריטי). החברות, אם כן, היו צריכות להיות מסודרות כך: אסם-נסטלה (53.2), תלמה-יוניליבר (58.1), שטראוס-עילית (83.9), החברה המרכזית (86.1), ותנובה (94.8). מתחת לכותרות הללו היה צריך לסדר את אחוזי השינוי בגרף קו, מ-11 אחוזים ועד 35%. הקו לא היה עולה באופן עקבי למעלה, אבל המגמה הייתה ברורה (אם ציר ה-X היה יחסי באמת, אפשר היה לזהות כיצד שני החמישימים ושני השמונימים מקובצים ביחד, פחות או יותר, אבל זו כבר באמת דרישה גבוהה מדי). אם רוצים להוסיף קצת צבע ועניין לגרף קו משעמם, אפשר להלביש את גרף העמודות מתחת לקו ולתת גם השוואה אבסולוטית בין המחירים (למרות שנראה לי עדיף פשוט לשים תמונה של המוצרים השונים, אבל מה אני מבין בגרפיקה).

אבל רגע, אם מחליטים להחזיר את העמודות, כדאי לקנות קודם סרגל. בחינה מדוקדקת של הגרף מעלה שאין באמת קשר בין ציר ה-Y שמשמש כל אחד מצמדי העמודות. הדוגמא הכי ברורה נראית בהשוואה בין עמודת 2011 של במבה (4.8), שעוברת קצת מעל השנת הראשונה, לבין עמודת 2008 של קוקה-קולה (5.9) או קפה טורקי (6.1), שתיהן מעט מתחת או בדיוק על אותה השנת. גם בין צמדי עמודות יש אי התאמות שאפשר לראות גם בעין בלתי מזויינת (בניגוד לאבנר, אני לא אטריח את עצמי לספור פיקסלים) – למשל, בעמודות של תנובה, בעמודה הכחולה כל שנת שווה בסביבות ה-4.5 לפי הערכתי, אבל למרות שההפרש בין שתי העמודות עומד על יותר משנת אחת, ההפרש בין המספרים עומד על 3.7 בלבד.

לסיכום: אינפוגרפיקה שהאלמנט הגרפי המרכזי שלה הוא (א) שגוי, (ב) בלתי רלוונטי בעליל, ואילו המספרים החשובים להעברת המסר שמובע בכותרת האיור אינם זוכים להבלטה השוואתית. כל זה מעלה את השאלה – בשביל מה האינפוגרפיקה הזו שם? האם העורך אמר לגרפיקאי להרים לו משהו שנראה מדעי ועם הרבה צבעים? האם במערכת מעריב יש מישהו שאחראי על אינפוגרפיקות באופן ספציפי, וגם מבין את מטרת הז'אנר, או שכל בוגר בצלאל רעב ללחם יכול למלא את התפקיד הזה? אני מבין שמצב העיתונות בישראל בקאנטים, אבל אולי כדאי בכל זאת לשקול מחדש.

אולי נתחיל פה תחרות לאינפוגרפיקות רעות בדרכים מקוריות

האינפוגרפיקה הבאה התפרסמה ב"דה-מרקר" ביוני 2010. היא ראויה לתשומת לב בעיני למרות עתיקותה כי היא רעה באופן מקורי במיוחד:

גרף מתוך המאמר "המחיר של אנרגיה ירוקה", דה-מרקר, יולי 2010

הסיפור שהאינפוגרפיקה הזאת מספרת הוא ש"שבעה מיליארד אנשים צריכים הרבה מאד אנרגיה". הסיפור נבנה כך: הגרף מראה שהגידול בצריכת הנפט תואם בצורה כמעט מושלמת גידול באוכלוסיית העולם. כל אדם חדש מוסיף כמות קבועה לצריכת הנפט/אנרגיה. כל אדם צורך כמות קבועה של אנרגיה. כל אדם צריך כמות קבועה של אנרגיה. לכן אין דרך לצמצם בצריכת האנרגיה ממקורות פחמניים (נפט, פחם וגז טבעי) בלי " למצוא שלושה מיליארד מתנדבים שיהיו מוכנים להחזיר ציוד ולפרוש מהעולם" (המחיר של אנרגיה ירוקה – פגיעה ברווחה העולמית, דורון צור, דה-מרקר 20/6/2010). יותר על הסיפור הזה בעתיד. עכשיו אני רוצה להתרכז בתרשים עצמו.

לקחתי את נתוני הגרף, הכנסתי אותם לאקסל, וציירתי גרף בעצמי. תראו מה יצא:

אותם נתונים, אבל שנת ה-ש' היא 1965

סיפור אחר לחלוטין, אה?

מה שהשתבש פה הוא השימוש בתרשים מסוג אשכולות של עמודות כדי לתאר שתי סדרות מספרים שונות לחלוטין. העמודה הלבנה הראשונה מימין מייצגת ערך 87, והעמודה האדומה הסמוכה לה מייצגת ערך 6.8. הן בערך באותו גובה. זאת בעיה.

בגרף עמודות אמורים לבחור סקאלה פעם אחת. במילים אחרות, בוחרים גודל לעמודה אחת ומציירים את כל השאר בפרופורציה. אבל כאן יש שתי סדרות נתונים לא קשורות, ולכן חייבים לבחור סקאלה פעמיים: לבחור גודל לשתי עמודות, אחת לבנה ואחת אדומה, ורק אז לצייר את כל השאר בפרופורציה. זה משאיר למשרטט את הבחירה של "שנת ה-ש'", השנה שעמודותיה יהיו שוות, והבחירה הזאת יכולה להפוך את הסיפור שעולה מהגרף. בגרף של דה-מרקר, שנת ה-ש' היא 2005. בגרף שלי שנת ה-ש' היא 1965. הסיפור של דה-מרקר הוא על מתאם בין הגידול באוכלוסייה לגידול בצריכת הנפט, הסיפור שלי הוא על צריכת נפט שגדלה הרבה יותר מהר מהגידול באוכלוסייה.

לצורך השוואה, הנה גרף שבו שנת ה-ש' היא 2010:

ועכשיו שנת ה-ש' היא 2010

הגרף המקורי של דה מרקר הוא לא שקר גדול יותר מהגרפים שלי. הבעיה היא בבחירת סוג התרשים. תרשים מסוג כזה מתאים להצגת סדרות נתונים תואמות: מספר לקוחות פלאפון לעומת מספר לקוחות סלקום. מחיר קילו תפוחים לעומת מחיר קילו תפוזים. במקרים כאלה הקשר בין העמודות הוא טבעי, ויש רק סקאלה אחת.

מה היה צריך לעשות במקרה זה? הנה שתי אפשרויות. הראשונה היא להציג את אחת מהסדרות בעמודות, ואת השניה בעקומה ((חדי העין שמו לב שבשני הגרפים הראשונים שלי חסרו ערכים על הצירים האנכיים. שימוש בגרף אשכולות-עמודות עם שתי סקאלות שונות הוא רעיון כל כך רע, שאקסל לא נותן לכם לעשות את זה. כדי לצייר את הגרפים הקודמים נאלצתי לבצע תעלולים, שבגללם גם נעלמו הצירים. עכשיו שחזרנו לקרקע בטוחה, אפשר היה להשיב את הצירים. מסתבר שלפעמים צריך לחשוב אם אולי יש סיבה טובה שאי אפשר לעשות משהו באקסל.)):

ובא לציון גואל

האפשרות השניה היא לשרטט את מה שבעצם מעניין אותנו: כמה חביות נפט צורך אדם ביום.

ומשיח לירושלים

וכאן הגענו לבעיית אינפוגרפיקה קלאסית: גרפים יפים וגרפים שאופים. השרטוט האחרון נותן את המידע המדויק ביותר לגבי השאלה האם בני אדם צורכים כמות קבועה של נפט. מבט אחד מספיק כדי לענות (פחות או יותר, אבל רק מ-1985). אבל קשה לא להסכים שזה גרף משעמם. להחריד. הפיתרון המאוזן בין קצת עניין ויזואלי לבין הצגה נכונה של הנתונים הוא כנראה הגרף הקודם,  המשלב עמודות ועקומה.

ועד כאן האינפוגרפיקה. אבל אחרי כל ההתעמקות הזאת בצורה, אנחנו נשארים אם שאלה פתוחה: כמה אנרגיה באמת צריכים 7 מיליארד בני אדם? והאם הפיתרון הירוק היחיד הוא העלמות של חצי מהאנושות?  לשאלות האלה אחזור (בלי נדר…) בהמשך.