מה זה אינפוגרפיקה?

בפוסטים ישנים כאן בבלוג התחילו להתפתח מיני-ויכוחים על מה זה בכלל אינפוגרפיקה. האם תחת הכותרת נכלול גם תרשים שלא בא להציג נתונים וסטטיסטיקות באופן ויזואלי, אלא רק מוסיף אילוסטרציות? האם הויזואליזציה חייבת להיות בצורה של גרף (עוגה, עמודות, קו, וכיו”ב) או שכל ייצוג גרפי הוא אינפוגרפיקה?

בכל מקרה, בפוסט הזה לא נתחיל אפילו לדון בשאלה הזו. כל ההקדמה היא רק תירוץ לקשר לאינפוגרפיקה הזו, או שמא לאילוסטרציה הזו, שמראה מה תפקידה של האינפוגרפיקה:

(מקור: Hot Butter Studio, ותודה לדורי על ההפניה)

המלחמה נגד האינפוגרפיקה

זה תמיד נחמד לדעת שיש אנשים אחרים שחולקים את האובססיות שלך. לפני כשבועיים פירסמה מיגן מקרדל, עורכת בכירה במגזין ה-Atlantic, רשומה ארוכה שכותרתה “לעצור את מגיפת האינפוגרפיקה”, בו היא עושה, ובכן, מה שהבלוג הזה שם לעצמו לעשות: להביא דוגמאות לאינפוגרפיקות מטעות, מוטות ומעוותות ולהסביר איפה נפלה בהם הטעות. אהבתי למשל את הקטע הזה, מתוך אחת האינפוגרפיקות שהיא מביאה:

image

דוגמה קלאסית לנתון מטעה. זה אולי נכון שהסיכוי למות עקב טעות בבית החולים גבוה מהסיכוי למות בהתרסקות מטוס (מדובר כאן על הסיכוי הכולל שתהיה התרסקות, כן? לא הסיכוי לשרוד אם המטוס כבר התרסק). אבל הוא מתעלם לחלוטין מנתון מאד בסיסי, והוא שמי שנמצא בבית חולים, הוא גם ככה חולה ונמצא בסיכון למות. זו בדיוק אופן הצגת הנתונים שאינפוגרפיקות מצטיינות בהן – הבאת נתונים מספריים השוואתיים בלי הקשר, בלי הסבר, בלי הבנה של המשמעות שלהם.

יש למקרדל עוד כמה הפרכות נחמדות שם, אם כי הפוקוס שלה הוא יותר על העלמות מכוונות של נתונים בין הנתונים הגולמיים לבין הייצוג בגרף, ולאו דווקא על ייצוגים גרפיים מטעים, אבל בכל זאת טוב לראות אנשים נוספים בתחביב.

ולסיום, אינפוגרפיקה קטנה של מקרדל:

infogrinfographic.png

מטא-אינפוגרפיקה ואופנות חולפות

דובי מצא היום את האינפוגרפיקה הזו, שמציגה כמה מסגנונות האינפוגרפיקה הפופולריים יותר באינטרנט בתקופה האחרונה:

(התמונה פורסמה ע”י smoy@Flickr, ברשיון CC-BY-NC-ND)

מעבר לעובדה שזו אסופה מוצלחת של קלישאות אינפוגרפיקה, הרשימה הזו מזכירה גם משהו נוסף: גם באינפוגרפיקות, כמו בכל דבר אחר, יש אופנות וטרנדים. מספיק שמישהו יצר סגנון גרף חדש שהיה מוצלח ופופולרי, הוא הופץ בצורה ויראלית וזכה לשבחים, ואז כל מעצב גרפי בשקל ועורך של עיתון-רשת החליט שגם הוא חייב כזה, ואנשים התחילו לאנוס מידע לתוך התבניות הויזואליות הפופולריות, בניגוד לאלו שמתאימות אליו.

זה נכון לא רק לצורות המידע, אלא גם למאפיינים אחרים, כמו פאלטת הצבעים שבשימוש (כחול ואפור! כחול כהה בקונטרסט עם כחול בהיר על רקע אפור! אפור על אפור!), הפונט של האינפוגרפיקה (Univers, או פונט סאנס-סריף דחוס וגבוה אחר), או אפילו הנושא של האינפוגרפיקה (רשתות חברתיות!).

כמו כל דבר, אנחנו צריכים עם כל אינפוגרפיקה לשאול את עצמנו “למה המעצבים בחרו בגרף הזה, או בעיצוב הזה, בשביל להעביר את הנקודה שלהם”. ולא לפחד לענות לשאלה הזו בתשובה “סתם, ככה”.

מה משווים?

מטרתה של האינפוגרפיקה היא לקחת מספר גדול של נתונים ולהציג אותם באופן שמאפשר לקורא לתפוס את המסר העיקרי של המספרים הללו בקלות ובלי להתעמק יותר מדי. כשהמספרים מוצגים במלואם, הם בדרך-כלל על תקן "קריאה נוספת" למעוניינים להעמיק.

המטרה הפשוטה הזו נעלמה מעיניהם של מעצבי האינפוגרפיקה הזו, שהופיעה בגליון מעריב מיום שני, החמישי בספטמבר:

כותרת האיור מציגה שאלה פשוטה: האם העדר התחרותיות במשק הביא לעליית מחירים? הטענה המובלעת בכתבה היא שחברות שמחזיקות במונופול או כמעט-מונופול על השוק מעלות את המחירים בקצב גבוה יותר מחברות שמחזיקות בנתח קטן יותר מהשוק.

לצורך העניין, נניח שחמשת הנתונים שמביא הגרף מספיקים כדי להציג מגמה, ולא נדרוש השוואה גם למחירי מוצרים שמשווקים על-ידי חברות שאינן אוחזות בנתח שוק משמעותי, או שאינן מהוות חלק מתעשייה שהמחירים בה מוכתבים על-ידי גוף כמעט-מונופולי.

מדוע מוצגים הנתונים כפי שהם מוצגים? ההשוואה העיקרית שמוצגת לנו כאן היא בגרף העמודות. העמודות משקפות מחיר אבסולוטי בשקלים של מוצרים שונים. אבל ממש לא מעניין אותנו להשוות בין מחיר של שקית במבה לבין קופסא של קורנפלקס. אין להשוואה הזו כל ערך לגבי הטענה הנטענת. ההשוואה שמעניינת אותנו מתמקדת בשני נתונים: אחוז העליה במחיר בין 2008 ל-2011, ונתח השוק של החברה שאת מחירי מוצריה בדקנו. שני הנתונים הללו אינם מוצגים בצורה השוואתית, אלא בצורת מספרים בלבד (נתח השוק מוצג גם בסדרה של תרשימי עוגה שמונחים זה לצד זה – פרקטיקה מאוד לא נוחה להשוואה: תרשים עוגה נוח להשוואה בין חלקי העוגה השונים, אבל לא קל לנו להשוות בין שני תרשימי עוגה שמונחים אחד ליד השני). כדי להוסיף חטא על פשע, אחוז השינוי מוצג מיד מעל לעמודות המחיר האבסולוטי, כך שלא רק שאין קשר בין מיקום המספר לבין יחסו למספרים האחרים, אלא שיש קשר משתמע מטעה ביניהם, משום שהמספר הנמוך ביותר (חמישה אחוזים) מוקם הכי גבוה בגרף.

איך היה צריך להראות הגרף הזה? ראשית, ההגיון מכתיב קיומו של ציר X שהוא, לכל הפחות, סודר. משמע: ככל שהחברה ממוקמת ימינה יותר על הגרף, כך נתח השוק שלה גדול יותר (או להפך, אם מתעקשים, זה לא קריטי). החברות, אם כן, היו צריכות להיות מסודרות כך: אסם-נסטלה (53.2), תלמה-יוניליבר (58.1), שטראוס-עילית (83.9), החברה המרכזית (86.1), ותנובה (94.8). מתחת לכותרות הללו היה צריך לסדר את אחוזי השינוי בגרף קו, מ-11 אחוזים ועד 35%. הקו לא היה עולה באופן עקבי למעלה, אבל המגמה הייתה ברורה (אם ציר ה-X היה יחסי באמת, אפשר היה לזהות כיצד שני החמישימים ושני השמונימים מקובצים ביחד, פחות או יותר, אבל זו כבר באמת דרישה גבוהה מדי). אם רוצים להוסיף קצת צבע ועניין לגרף קו משעמם, אפשר להלביש את גרף העמודות מתחת לקו ולתת גם השוואה אבסולוטית בין המחירים (למרות שנראה לי עדיף פשוט לשים תמונה של המוצרים השונים, אבל מה אני מבין בגרפיקה).

אבל רגע, אם מחליטים להחזיר את העמודות, כדאי לקנות קודם סרגל. בחינה מדוקדקת של הגרף מעלה שאין באמת קשר בין ציר ה-Y שמשמש כל אחד מצמדי העמודות. הדוגמא הכי ברורה נראית בהשוואה בין עמודת 2011 של במבה (4.8), שעוברת קצת מעל השנת הראשונה, לבין עמודת 2008 של קוקה-קולה (5.9) או קפה טורקי (6.1), שתיהן מעט מתחת או בדיוק על אותה השנת. גם בין צמדי עמודות יש אי התאמות שאפשר לראות גם בעין בלתי מזויינת (בניגוד לאבנר, אני לא אטריח את עצמי לספור פיקסלים) – למשל, בעמודות של תנובה, בעמודה הכחולה כל שנת שווה בסביבות ה-4.5 לפי הערכתי, אבל למרות שההפרש בין שתי העמודות עומד על יותר משנת אחת, ההפרש בין המספרים עומד על 3.7 בלבד.

לסיכום: אינפוגרפיקה שהאלמנט הגרפי המרכזי שלה הוא (א) שגוי, (ב) בלתי רלוונטי בעליל, ואילו המספרים החשובים להעברת המסר שמובע בכותרת האיור אינם זוכים להבלטה השוואתית. כל זה מעלה את השאלה – בשביל מה האינפוגרפיקה הזו שם? האם העורך אמר לגרפיקאי להרים לו משהו שנראה מדעי ועם הרבה צבעים? האם במערכת מעריב יש מישהו שאחראי על אינפוגרפיקות באופן ספציפי, וגם מבין את מטרת הז'אנר, או שכל בוגר בצלאל רעב ללחם יכול למלא את התפקיד הזה? אני מבין שמצב העיתונות בישראל בקאנטים, אבל אולי כדאי בכל זאת לשקול מחדש.

אולי נתחיל פה תחרות לאינפוגרפיקות רעות בדרכים מקוריות

האינפוגרפיקה הבאה התפרסמה ב"דה-מרקר" ביוני 2010. היא ראויה לתשומת לב בעיני למרות עתיקותה כי היא רעה באופן מקורי במיוחד:

גרף מתוך המאמר "המחיר של אנרגיה ירוקה", דה-מרקר, יולי 2010

הסיפור שהאינפוגרפיקה הזאת מספרת הוא ש"שבעה מיליארד אנשים צריכים הרבה מאד אנרגיה". הסיפור נבנה כך: הגרף מראה שהגידול בצריכת הנפט תואם בצורה כמעט מושלמת גידול באוכלוסיית העולם. כל אדם חדש מוסיף כמות קבועה לצריכת הנפט/אנרגיה. כל אדם צורך כמות קבועה של אנרגיה. כל אדם צריך כמות קבועה של אנרגיה. לכן אין דרך לצמצם בצריכת האנרגיה ממקורות פחמניים (נפט, פחם וגז טבעי) בלי " למצוא שלושה מיליארד מתנדבים שיהיו מוכנים להחזיר ציוד ולפרוש מהעולם" (המחיר של אנרגיה ירוקה – פגיעה ברווחה העולמית, דורון צור, דה-מרקר 20/6/2010). יותר על הסיפור הזה בעתיד. עכשיו אני רוצה להתרכז בתרשים עצמו.

לקחתי את נתוני הגרף, הכנסתי אותם לאקסל, וציירתי גרף בעצמי. תראו מה יצא:

אותם נתונים, אבל שנת ה-ש' היא 1965

סיפור אחר לחלוטין, אה?

מה שהשתבש פה הוא השימוש בתרשים מסוג אשכולות של עמודות כדי לתאר שתי סדרות מספרים שונות לחלוטין. העמודה הלבנה הראשונה מימין מייצגת ערך 87, והעמודה האדומה הסמוכה לה מייצגת ערך 6.8. הן בערך באותו גובה. זאת בעיה.

בגרף עמודות אמורים לבחור סקאלה פעם אחת. במילים אחרות, בוחרים גודל לעמודה אחת ומציירים את כל השאר בפרופורציה. אבל כאן יש שתי סדרות נתונים לא קשורות, ולכן חייבים לבחור סקאלה פעמיים: לבחור גודל לשתי עמודות, אחת לבנה ואחת אדומה, ורק אז לצייר את כל השאר בפרופורציה. זה משאיר למשרטט את הבחירה של "שנת ה-ש'", השנה שעמודותיה יהיו שוות, והבחירה הזאת יכולה להפוך את הסיפור שעולה מהגרף. בגרף של דה-מרקר, שנת ה-ש' היא 2005. בגרף שלי שנת ה-ש' היא 1965. הסיפור של דה-מרקר הוא על מתאם בין הגידול באוכלוסייה לגידול בצריכת הנפט, הסיפור שלי הוא על צריכת נפט שגדלה הרבה יותר מהר מהגידול באוכלוסייה.

לצורך השוואה, הנה גרף שבו שנת ה-ש' היא 2010:

ועכשיו שנת ה-ש' היא 2010

הגרף המקורי של דה מרקר הוא לא שקר גדול יותר מהגרפים שלי. הבעיה היא בבחירת סוג התרשים. תרשים מסוג כזה מתאים להצגת סדרות נתונים תואמות: מספר לקוחות פלאפון לעומת מספר לקוחות סלקום. מחיר קילו תפוחים לעומת מחיר קילו תפוזים. במקרים כאלה הקשר בין העמודות הוא טבעי, ויש רק סקאלה אחת.

מה היה צריך לעשות במקרה זה? הנה שתי אפשרויות. הראשונה היא להציג את אחת מהסדרות בעמודות, ואת השניה בעקומה1:

ובא לציון גואל

האפשרות השניה היא לשרטט את מה שבעצם מעניין אותנו: כמה חביות נפט צורך אדם ביום.

ומשיח לירושלים

וכאן הגענו לבעיית אינפוגרפיקה קלאסית: גרפים יפים וגרפים שאופים. השרטוט האחרון נותן את המידע המדויק ביותר לגבי השאלה האם בני אדם צורכים כמות קבועה של נפט. מבט אחד מספיק כדי לענות (פחות או יותר, אבל רק מ-1985). אבל קשה לא להסכים שזה גרף משעמם. להחריד. הפיתרון המאוזן בין קצת עניין ויזואלי לבין הצגה נכונה של הנתונים הוא כנראה הגרף הקודם,  המשלב עמודות ועקומה.

ועד כאן האינפוגרפיקה. אבל אחרי כל ההתעמקות הזאת בצורה, אנחנו נשארים אם שאלה פתוחה: כמה אנרגיה באמת צריכים 7 מיליארד בני אדם? והאם הפיתרון הירוק היחיד הוא העלמות של חצי מהאנושות?  לשאלות האלה אחזור (בלי נדר…) בהמשך.

  1. חדי העין שמו לב שבשני הגרפים הראשונים שלי חסרו ערכים על הצירים האנכיים. שימוש בגרף אשכולות-עמודות עם שתי סקאלות שונות הוא רעיון כל כך רע, שאקסל לא נותן לכם לעשות את זה. כדי לצייר את הגרפים הקודמים נאלצתי לבצע תעלולים, שבגללם גם נעלמו הצירים. עכשיו שחזרנו לקרקע בטוחה, אפשר היה להשיב את הצירים. מסתבר שלפעמים צריך לחשוב אם אולי יש סיבה טובה שאי אפשר לעשות משהו באקסל. []

כשהחזקת סרגל היא מעשה מהפכני

עדכון 26/07: התווסף גרף מתוקן, על פי הנתונים, בסוף הפוסט.

לא תכננתי לכתוב שוב פוסט על אינפוגרפיקה כל כך מהר אחרי ההרצאה שהעברתי ב-11:11, אבל ישראל היום סיפק היום דוגמה כל-כך קיצונית, שלא יכולתי להתאפק. ותודה לדפנה על ההפניה, וגם לעין השביעית על הניתוח הראשוני.

israel_hayom_fake_240711

 

כשראיתי את הגרף הזה, התחלתי להכנס לדכאון. לא בגלל שיש כאן גרף עם הטיה ברורה, עם אג’נדה, ועם נכונות להטעות, לשקר ולהסתיר מידע. לא, לזה אנחנו כבר רגילים, ואמורים לצפות לזה. מה שדיכא אותי זו הגסות שבה זה נעשה. חוסר התחכום. העליבות!

בהרצאה ב-11:11, ובבלוג הזה בעבר, ניסיתי להצביע על כמה הטיות ערמומיות שמסתתרות באינפוגרפיקה. משינוי בסיס מערכת הצירים ועד גרפים תלת-ממדיים שמבלבלים את העין. אבל בישראל היום החליטו ללכת על שקרים כל כך בוטים, שכל ילד עם סרגל יכול להראות את העיוות שלהם. בתמונה למטה הוספתי כמה קווים מנחים לניתוח הבולשיט. תלחצו על התמונה להגדלה, ואני אעבור על כמה מהם בפירוט:

israel_hayom_fake - annotated

 

1. במחצית השניה של 2010 הגיע ישראל היום לתפוצה של 37.4%. נתון ראוי ומעניין, אבל אם נמתח קו ישר מהנקודה הזו, נגלה שה-37.4% הזה עובר באמצע קו ה-40%. וזאת בהנחה, כמובן, שה-40% עובר באמצע המשבצת. או אולי בתחתיתה? או בראשה? לא ברור. ברור זה רע, כידוע.

2. אם לא די ש-37.4 שווה ל-40, מסתבר גם שהוא נמצא מעל התפוצה של ידיעות אחרונות ב-2007, בנקודת בה היא עמדה על ה-37.7%. 4, מסתבר, הוא גדול יותר מ-7, ע”פ ישראל היום. איפשהו באמצע התנגשות הקוים של שני העיתונים, אנחנו גם מגלים ש-35.2 גדול יותר מ-36.5, ואם נשאר רק בידיעות אחרונות, נראה ש-34.2 שווה ל-34.9.

3. בין תחילת 2009 לסופה ירדה התפוצה של ישראל היום ב-0.3%. כידוע, אין דרך לייצג ירידה של 0.3% על גרף שלא כוללת עליה. העליה היא בת 6 פיקסלים, ועל פי החישובים שלי (36 פיקסלים לבוקסה בת 5%) מייצגת עליה בת 0.83% בתפוצה.

4. זוכרים את סעיף #1, בו גילינו ש-37.7 שווה ל-40? ובכן, כאן אפשר לראות ש-6.4 קטן מ-5.  אלא אם כן המספרים של כל תיבה לא מתייחסים לאמצע שלה אלא לקו העליון שלה, ואז אנחנו מבינים ש-7.5 שווה ל-10. ושה-37.7 מקודם לא שווה ל-40, אלא הוא גדול ממנו משמעותית?

5. נחזור למעלה, ונגלה את הנתון הסופי, הראשי, המעניין, המובלט. הזה שמקבל בוקסה משלו, אבל משום מה בלי נקודה מפורשת על הגרף. וזה טוב שהוא לא, כי אחרית היינו מאבדים את שארית האמון שלנו באריתמטיקה בסיסית, ומגלים ש-39.3 שווה לכ-44, במתמטיקת אזור-הדמדומים הזו. ואם נוסיף את חישובי הפיקסלים, נגלה שהוא גבוה ב-36 פיקסלים מה-37.7 של ידיעות. כלומר 39.3 – 37.7 = 5.

אבל למה?

שחר מתודעה כוזבת לקח את הנתונים של TGI, כפי שפורסמו בגרף, ועשה את המעשה המתבקש להזין אותם לאקסל, על מנת לייצר גרף אמין יותר:

israel_hayom - real

 

והבעיה שיש לשחר עם הגרף הזה, ואני מסכים איתו לחלוטין, היא למה לעזאזל החליט מישהו שם בישראל היום שצריך לייפות את הגרף הזה באמצעות שקרים והטיות?

הגרף הזה מספר סיפור די חזק בזכות עצמו. הוא מראה עליה מרשימה של יותר מפי שלוש תוך שנים בודדות. הוא מראה את נקודת המהפך כשהעיתון עקף את ידיעות, המכהן בכיפה כבר שנים. הארץ ומעריב גם ככה נראים חבוטים ומובסים בתחתית הגרף. אז למה? למה לקחת הצלחה לגיטימית (גם אם לא נתייחס למהות הנתונים, כפי שעלה בתגובות), ולהפוך אותה להתרברבות פתטית?

ושאלה משפטית לסיום

ועלתה השאלה: מה מעמד האינפוגרפיקה בעת שימוע משפטי? האם יכולה רשות כלשהי לבוא לקנוס את ישראל היום על הצגת נתונים שקריים בפרסום? הרי המספרים ה-“אמיתיים” נמצאים שם, אבל הם מציגים נתונים סותרים מאשר הקווים (ולשם שינוי, מדובר על סותרים בעליל, לא מטעים או מוטים). האם זו עילה לתביעה על חוסר אמת בפרסום, או שתספיק התפתלות נוסח “אנחנו הצגנו את המספרים, זה לא אשמתנו אם מישהו הוטעה ע”י הגרפיקה”?

פינת האינפוגרפיקה: הקלות הבלתי נסבלת של הנתונים

עדכון: מסתבר שאני חטאתי כאן בפוסט בחלק מהדברים שעליהם אני התלוננתי, ולא שמתי לב שהפוסט של חורימבה, והאינפוגרפיקה המצורפת, פורסמו לפני כחצי שנה, בדצמבר 2010. חלק מהתלונות שלי על חוסר הרלבנטיות של הנתונים קצת פחות מוצדקות עכשיו, אבל לא כולן – חלק מהנתונים עדיין היו בני יותר משני בזמן פרסומם, והם עורבבו ללא הבחנה עם נתונים חדשים הרבה יותר. התנצלותי על חוסר העדכניות, אבל אני עדיין עומד מאחורי מרבית התלונות שהעלתי כאן.

אתמול פרסמתי פוסט – או, אולי, רטינה – על האינפוגרפיקה המעצבנת של Digital Surgeons, שפורסמה בחורימבה. הפוקוס שלי אתמול היה על הפרזנטציה, על הגרפיקה שבאינפוגרפיקה, אבל מאז, ההערות של שחר הראו לי גם כשנכנסים לנושא האינפו, יש הרבה על מה להתלונן.

הדבר הראשון שקפץ לשחר לעין הוא הסתירה הפנימית בנתונים:

בטוויטר מנגד, יש 48% שנמצאים עכשיו בקולג’, שזה כבר נשמע גבוה באופן מטורף אבל אולי נכון, רק שזה ממש לא מסתדר עם העובדה שיש שם רק 13% בגילאים 18-25.
זה לא מקרה שהאינפוגרפיקה הזו לא קריאה, זו הדרך היחידה להסתיר ממך את הג’אנק שיש שם.

אחר כך המשכנו לנושא התפלגות ההכנסה שנראית קצת מפתיעה, והחלטתי לנסות לברר מאיפה הם השיגו את הנתונים שלהם, על פי רשימת המקורות שהם פרסמו:

המקור הראשון שרשום הוא כתבה באתר CNN המתייחסת למספר המשתמשים בטוויטר. נתון מעניין, חוץ מהעובדה שכתבה התפרסמה במרץ 2010 (לפני כשנה ורבע), ומתייחסת לנתונים מ-2008 ו-2009. הכתבה מציינת שלטוויטר כ-50 מיליון משתמשים, ומכילה נתונים נוספים, כמו כמות החשבונות עם יותר מ-10 עוקבים וסטטוסים, שבכלל לא מופיעים בגרף שלנו. וגם אם היו מופיעים – הם כבר מזמן לא היו רלבנטיים. מקור ראשון – כבר נפסל.

מקור שני – סקר על מותגים מצליחים בפייסבוק וטוויטר. הסקר, שפנה ל-1000 “צרכנים מקוונים”, להגדרתם, נערך באוגוסט 2009, כשלטוויטר היו הרבה פחות משתמשים, והרבה הרבה פחות מותגים. אבל התוצאות של הסקר – 25% ממשתמשי טוויטר עוקבים אחרי מותג – הגיעו ישירות לגרפיקה שלנו, ביוני 2011. היאח לעדכניות.

שני המקורות הבאים באים מאתר התכנון של Google Ads, מקור עדכני יחסית למידע על תעבורת אתרים. אבל משהו מוזר קפץ לי לעין. שני ה-URLים שהם פירסמו ברשימת המקורות מכילים, כחלק מהכתובת, את הפרמטרים של המידע. משום מה הם קישרו למידע על טוויטר המתייחס לארה”ב, אבל למידע על פייסבוק בכל העולם (שימו לב להבדל בין geo=US לבין geo=001). blah

מה שכן, אני לא באמת חושב שהיה כאן בלבול של נתונים אמריקאיים על עולמיים, אלא פשוט רשלנות בהעתקת הכתובת. אני מקווה. הלאה!

קפצנו (טיפה) קדימה בזמן, ליולי 2010. בלוגר מביא נתונים, ברובם מאותו אתר של Google Ads, על רמת ההשכלה וההכנסה של הגולשים באתרים. נראה שהרבה נתונים הגיעו מכאן לגרף הסופי שלנו, אם כי לא הכל תואם. אני מניח שהם שילבו בין נתונים מכמה מקורות, אבל זה גורם לך לתהות על סמך אילו שיקולים? למה להתייחס לבלוג הזה בכלל, אם אפשר ללכת ישירות למקור שלו (Google Ads) ולהביא מידע עדכני יותר? כנ”ל המקור הבא, בלוגר נוסף שפשוט עשה עבודת ריכוז של כמה בלוגים אחרים, ושל אתר פייסבוק עצמו.

אתר הסטטיסטיקות של פייסבוק הוא מקור די מקיף של נתונים, אבל הוא סובל מכמה בעיות. גם העובדה שהוא לא מעודכן באופן רציף ונמנע באדיקות מלציין תאריך לנתונים, ובנוסף, כמובן, העובדה שהוא מכיל רק את המידע שפייסבוק רוצים לפרסם, בלי שום ביקורת עליו.

האתר הבא, עם השם המבטיח SmartDataCollective, מפנה אותנו לדו”ח על טוויטר מאפריל 2010, שממנו נגזרים חלק מהנתונים, כמו ה-87% חשיפה של האמריקאים לטוויטר. כמובן, לפי אותו דו”ח רק 17 מיליון אמריקאים בעצם משתמשים בטוויטר (לעומת 106 מיליון בגרף שלנו) ושני שליש מהם עושים זאת דרך טלפון סלולרי (לעומת 37% בגרף שלנו), כך שקשה לי ליישב את הנתונים הללו אחד עם השני.

המקור הלפני אחרון מוביל לאתר הרציני, לרוב, SearchEngineLand, שמביא השוואה בין פייסבוק, טוויטר וגוגל באזז – מה שכבר מראה לכם עד כמה הוא לא עדכני, מפברואר 2010. האתר מביא לנו נתונים שלא ממש הגיעו לגרף שלנו, אבל מוסיף התרעה שלגמרי עברה ל-Digital Surgeons מעל הראש: הנתונים הללו הם לא מקבילים. כתוב לנו בגרף ש-52% ממשתמשי טוויטר מעדכנים כל יום לעומת 12% בפייסבוק, אבל שכחו לציין שבטוויטר כל פעולה היא עדכון סטטוס, בעוד בפייסבוק אתה יכול להגיב לסטטוס אחר, לפרסם תמונה או פשוט לעשות לייק, ולא להחשב במניין עדכוני הסטטוסים. תפוחים, תפוזים – מה זה משנה, כולם עגולים, לא?

ואחרון אחרון חביב, המקור שלגמרי שבר אותי – The Ultimate List: 100+ Twitter Statistics. אתר (מלפני שנה, כן) שמרכז עשרות אינפוגרפיקות שונות על טוויטר. בלי רשימת מקורות. בלי תאריכים. עם סתירות פנימיות על כמעט כל נתון ונתון. חלקם חסרי משמעות, חלקם חסרי פואנטה, חלקם פשוט לא רלבנטיים. אנחנו יכולים למצוא בגרף אחד את מס’ המשתמשים בטוויטר ש-DigitalSurgeons בחרו לקחת, בגרף אחר את התפלגות הגילאים (אבל לא את ההכנסה, למרות שהיא צוינה. את זה ניקח ממקום אחר). מילא שהם עושים כאן Cherry picking, בוחרים את הנתון שמתאים להם מכל גרף אחר – הם גם לא מתבססים כאן על אף מקור סמכותי. יש כאן קניבליזציה של מידע מאתר לאתר, כשכל אתר מסתמך ב-100% על המקורות שלו בלי לפקפק, ויוצר web of trust שהוא גם שבור מבחינת אמינות, וגם משנה את המידע, צעד אחר צעד, כמו משחק טלפון שבור (ותודה שוב לשחר על הדימוי).

ומה יש לנו בסוף? יש לנו כתבה של חורימבה שמסכמת נתונים מתוך אינפוגרפיקה, שהסתמכה על אתר שמכיל אינפוגרפיקות אחרות, שמסתמכות בעצמן על בלוגר שראה אותן באינפוגרפיקות אחרות, והרגיש שהוא היה חוקר אחראי, בגלל שהוא לקח גם את הנתונים הרשמיים שפייסבוק וטוויטר פרסמו וראה שהם לא סותרים… יותר מדי. וזה המידע המוצק שאח”כ מתפרסם בעיתונות הטכנולוגית. ואז מצוטט בוויקיפדיה. שהופך להיות מקור המידע הסמכותי שלנו, ולהזניק דור חדש של אינפוגרפיקות מיותרות.

פינת האינפוגרפיקה: טבעת ללא טבעת, השוואה ללא השוואה

קורא מסור הפנה אותי לפוסט בחורים ברשת המכיל אינפוגרפיקות מפורטות יחסית לגבי ההבדלים בין פייסבוק לטוויטר. אני לא יודע אם זה משהו אינהרנטי בפייסבוק, אבל איכשהו יוצא שחצי מהתלונות שלי על אינפוגרפיקות קשורות לנתונים על פייסבוק. לא ברור לי למה. אבל האינפוגרפיקה הזו זעקה לי – ולקורא – החל מהנתון הראשון שקופץ לעין. אז תעיינו באינפוגרפיקה הממש ממש ארוכה הזו, ותראו אם תוכלו לזהות את הנקודות שחרו לי במיוחד כאן.

facbook_vs_twitter_infographic

1. טבעת ללא טבעת

הדבר הראשון שקפץ לי לעין הוא שהנתונים של שני השירותים מסודרים בגרף טבעת, או גרף דונאט. גרף טבעת דומה מאד לעוגה, חוץ מהחור באמצע. ההנחה המובלעת של מי שרואה את הגרף היא שמדובר על מכלול – במקרה הזה מס’ המשתמשים בשירות, על פי התווית בצד שמאל למעלה – ופילוח של המכלול הזה על פי נתונים שונים. אבל כבר הנתון הראשון, העליון ביותר שובר את זה. “88% מהאנשים מודעים לפייסבוק”. רגע, מדובר כאן ב-88% מתוך 500 מיליון משתמשי פייסבוק? לא, ברור שלא. 88% מאוכלוסיית העולם? נראה לי נתון קצת גבוה. הגרף לא מציין מקור ספציפי לנתון הזה, אלא רשימת מקורות כללית, אבל סעיף קטן מצד שמאל למעלה מרמז שהנתון מתייחס לאוכלוסיית ארה”ב בלבד. אוקיי. לגיטימי, אבל מבלבל.

אבל אז אנחנו ממשיכים לנתון הבא בכיוון השעון, שאומר ש-41% נכנסים לפייסבוק כל יום. כאן חזרנו ל-500 מיליון משתמשי פייסבוק, נכון? לא ל-41% מאוכלוסיית ארה”ב. אז אם הנתונים הללו לא קשורים, ולא נמצאים בהשוואה, למה הם חלק מאותו גרף? למה אני צריך לצאת עם מסקנה אינטואיטיבית שיש פי שניים אנשים שמודעים לפייסבוק מאשר שנכנסים אל השירות כל יום?

הבעיה היא שאין לנו כאן גרף טבעת בכלל. יש לנו סדרה של Stacked Bar Graphs, שכל אחד מספר סיפור אחר. באופן טבעי, הייתי מצפה שגרפים שלא קשורים אחד לשני יעמדו בנפרד, ולא יוצמדו כחלק ממכלול אחד. אבל יש כאן תעדוף של ה-style על פני ה-substance, ובשביל הטבעת הכחלחלה והיפה, החבר’ה ב-Digital Surgeons גורמים לנו לראות יחס של השוואה בין הגרפים השונים – מה שמוביל אותנו לבעיה השניה.

2. השוואה ללא השוואה

כל האינפוגרפיקה הזו נועדה להשוות בין נתונים של פייסבוק ושל טוויטר. איך אני יודע את זה? ובכן, הכותרת היא Facebook vs. Twitter, מה שאמור לרמז. אבל בעוד אני עסוק בלהתגבר על המסקנה האינסטינקטיבית ש-70% מהאוכלוסיית ארה”ב גרה מחוץ לארה”ב, אני פתאום שם לב שבשום שלב לא ראיתי נתונים של טוויטר בטבעת הזו.

בשביל לראות נתונים של טוויטר, אני צריך לגלול למטה פיקסלים רבים רבים, עד הטבעת השניה, המקבילה, עם הנתונים של טוויטר. באתר המקורי, כל טבעת, בנפרד, גדולה במעט מרזולוציית המסך שלי, ואני צריך לגלול בשביל לראות אותה יחד עם קצת כותרת.

המשמעות היא שאין לי שום יתרון השוואותי בגרפיקה. במקום לבנות גרפים שמציבים את פייסבוק ואת טוויטר אחד ליד השני, אני צריך לדפדף ולזכור נתונים בין PgDn אחד למשנהו. המצב כל כך מטופש שבכתבה בחורים ברשת הם היו צריכים לתת תקציר מילולי של מסקנות האינפוגרפיקה – היפוך מוחלט של כל ההצדקה לקיומה של האינפוגרפיקה מלכתחילה.

* * *

אז מה יש לנו כאן? בחירה בסוג גרף מבלבל שלא תורם להעביר מידע. ערבוב בין נתונים נפרדים על אותה סקאלה. פריסה על העמוד שמנטרלת את המטרה המוצהרת של האינפוגרפיקה. וגם, last but not least, בחירה במנעד צבעים עדין כל כך שבקושי מרגישים בהבדלים בין הפרמטרים השונים.

אבל מה? הוא יפה. לפחות הוא יפה, לא?

פינת האינפוגרפיקה: תפוחים ותפוזים

תסתכלו על הגרף הזה, מאתר Business Insider. תסכלו עליו, ותקראו אותו, ותנסה להבין למה מצאתי את עצמי מתעצבן יותר ויותר כשנתקלתי בו, מההשוואה הבלתי רלבנטית למפגיע. אני עברתי תהליך דו שלבי כאן, double-take אינפוגרפי, שבגללו אני לא הצלחתי עדיין להחליט אם מדובר כאן בחוסר הבנה משווע או בהטעייה מכוונת.

 

RevenueByUniqueChart

 

הדבר הראשון שעלה לי בראש כשראיתי את הגרף הוא “איזו השוואה מטומטמת. אמזון מוכרת ספרים, פייסבוק מוכרת שטח פרסום, איך אפשר להשוות ביניהם?”. ואכן, יש כאן תהליכים מאד שונים, אבל עדיין יש בהם מן המשותף. אצל אמזון, המטרה של האתר הוא להמיר את המבקרים ללקוחות משלמים, בעוד בפייסבוק מדובר בעיקר בצפיות, אם כי יש גם תשלום על לחיצות אקטיביות על פרסומות. בסופו של דבר, גם אם המוצר שונה, אפשר להשוות בין השתיים, לא? גם אם התשובה ברורה, אי אפשר להגיד שאי אפשר להשוות בין חנות בגדים וחנות תכשיטים במדד של הכנסות לכל לקוח, לא?

אבל זהו, שזה לא מה שאנחנו רואים בגרף, והרמז היא גוגל, במקום השלישי. גוגל היא חברת אינטרנט, אבל היא מזמן כבר לא חיה רק מפרסומות בתוצאות החיפוש. היא מרוויחה גם ממכירת אפליקציות אנדרואיד. ומשתמשי Google Apps מסחריים וארגוניים. וממכירות מכשירי נקסוס-1 ונקסוס-S. אז נכון, הדברים הללו הם לא חלק מרכזי כרגע מההכנסות של גוגל, אבל הם חלק מה-bottom line שנכנס לגרף הזה, אבל אין להם קשר, ולא הקלוש ביותר, לציר ה-Unique users. וכשחושבים על זה, אני לא בטוח שההכנסות של פייסבוק תלויות ב-Unique users, לעומת הכנסות על בסיס חשיפה, שתלויות גם בכמות ה-hits לאתר, גם אם מדובר על עשרות כניסות של אותם משתמשים ביום. וההכנסות של אמזון, הם כוללות גם ספרים דיגיטליים בקינדל, נכון? האם אפשר לרכוש אותם מתוך המכשיר או האפליקציה? ואם כן, פתאום גם כאן יש לנו נתק בין הגולשים באתר לבין ההכנסות.

אפשר יהיה להדגים את זה באופן פשוט על ידי הכנסת מיקרוסופט לרשימה. למיקרוסופט יש מאות מיליוני גולשים בהוטמייל, בינג, MSN ואתרים אחרים, והם מרוויחים הרבה כסף מפרסום, מכירות מקוונות ועוד. אבל הם מרוויחים עוד כסף, המון המון כסף, במכירות לארגונים ולחברות, ובחנויות אמיתיות, והסכמי רישוי של טכנולוגיות ופטנטים. אם היינו שמים את הכנסות של מיקרוסופט, שעמדו השנה על כ-62 מיליארד דולר, מול ה-unique users שלה, נקבל אותה בצד הימני של הטבלה – אבל מה המשמעות של זה?

בסופו של דבר יש לנו כאן גרף יפה, שנראה מעניין, ועוד יותר מכך, נראה שיש בו תובנה כלשהי. אבל כשמתעמקים, רואים שהיחס הזה בין unique users לבין הכנסה של החברה הוא מזוייף, פיקטיבי, וחסר משמעות. הוא מוטעה, ויותר מכך, הוא מטעה אותנה לחשוב שיש כאן ציר, סקאלה כלשהי, שבו פייסבוק, גוגל ואמזון נמצאים ונמדדים. אולי יש אחד כזה, אבל המדד הזה הוא לא זה.

פינת האינפוגרפיקה: שימוש מרהיב בטכנולוגיה

קבלו פוסט קצר, שמראה שהמדור יודע גם לפרגן כשצריך. ה-BBC מציגים סרטון אינפוגרפיקה מלבב שמראה את השינויים לאורך 200 השנה האחרונות בהכנסה הגולמית לנפש ובתוחלת החיים הממוצעת בלידה של רוב מדינות העולם. אפשר להעביר ביקורת על תוכן האינפוגרפיקה – בעיקר בנושא שחוזר שוב ושוב לגבי תוחלת חיים ממוצעת, שמתעלמת מהעובדה שתמותת תינוקות וילודה היא גבוהה יחסית, ומושכת את הממוצע למטה, כך שמי שהגיע לגיל 15, יש לו סיכוי גבוה מאד לעבור בהרבה את הממוצע. בעיה דומה, שמוזכרת גם בסרטון עצמו, מדברת גם על ממוצעים בתוך מדינות, שמושכים גם הם מדינות שונות לעבר המרכז. גם אפשר להתייחס לאופטימיות הבלתי סבירה של המנחה, שאתה לא יכול שלא להרגיש שבאה למרק על מצפון אירופאי מדושן הנתקל בפערים חברתיים עצומים. אבל היום באתי להתמקד יותר בפרזנטציה, ופחות בתוכן.

 

מה יש לנו כאן? ציר דו-ממדי של שני גופים בלתי תלויים, ציר שלישי, של גודל האוכלוסיה, שמיוצג בגודל המעגל, במקום בציר שלישי מרחבי, מה שהופך אותו לקריא הרבה יותר מאשר אם היו מנסים למקם את הנקודה על מרחב תלת-ממדי מגושם. וציר רביעי, ציר הזמן, שהוא זה שהופך את הסרטון לנחמד כל-כך. המנחה מציג את ההשפעה של אירועים כמו מגפות ומלחמות, אבל אני חושב שהחלק המדהים ביותר קורה בדקה ה-2:58, ב-1958, כשמדיניות הזינוק הגדול קדימה של מאו מחסלת עשרות מיליונים בסין, ואז הזינוק חזרה מיד לאחר מכן.

מה שמבאס באינפוגרפיקה הזו היא שעדיין לא קל מספיק להפיק דבר כזה בקלות בבית. לא אקסל ולא גוגל דוקס, מבדיקה מהירה, נותנים לנו כלים נוחים לייצר גרפים סטטיים כאלה1, וזה עוד לפני שהכנסנו את אלמנט הזמן לעסק. וחבל.

  1. כן, ניסיתי את ה-Bubble Chart של אקסל. הוא פשוט עובד קקה []