אולי נתחיל פה תחרות לאינפוגרפיקות רעות בדרכים מקוריות

האינפוגרפיקה הבאה התפרסמה ב"דה-מרקר" ביוני 2010. היא ראויה לתשומת לב בעיני למרות עתיקותה כי היא רעה באופן מקורי במיוחד:

גרף מתוך המאמר "המחיר של אנרגיה ירוקה", דה-מרקר, יולי 2010

הסיפור שהאינפוגרפיקה הזאת מספרת הוא ש"שבעה מיליארד אנשים צריכים הרבה מאד אנרגיה". הסיפור נבנה כך: הגרף מראה שהגידול בצריכת הנפט תואם בצורה כמעט מושלמת גידול באוכלוסיית העולם. כל אדם חדש מוסיף כמות קבועה לצריכת הנפט/אנרגיה. כל אדם צורך כמות קבועה של אנרגיה. כל אדם צריך כמות קבועה של אנרגיה. לכן אין דרך לצמצם בצריכת האנרגיה ממקורות פחמניים (נפט, פחם וגז טבעי) בלי " למצוא שלושה מיליארד מתנדבים שיהיו מוכנים להחזיר ציוד ולפרוש מהעולם" (המחיר של אנרגיה ירוקה – פגיעה ברווחה העולמית, דורון צור, דה-מרקר 20/6/2010). יותר על הסיפור הזה בעתיד. עכשיו אני רוצה להתרכז בתרשים עצמו.

לקחתי את נתוני הגרף, הכנסתי אותם לאקסל, וציירתי גרף בעצמי. תראו מה יצא:

אותם נתונים, אבל שנת ה-ש' היא 1965

סיפור אחר לחלוטין, אה?

מה שהשתבש פה הוא השימוש בתרשים מסוג אשכולות של עמודות כדי לתאר שתי סדרות מספרים שונות לחלוטין. העמודה הלבנה הראשונה מימין מייצגת ערך 87, והעמודה האדומה הסמוכה לה מייצגת ערך 6.8. הן בערך באותו גובה. זאת בעיה.

בגרף עמודות אמורים לבחור סקאלה פעם אחת. במילים אחרות, בוחרים גודל לעמודה אחת ומציירים את כל השאר בפרופורציה. אבל כאן יש שתי סדרות נתונים לא קשורות, ולכן חייבים לבחור סקאלה פעמיים: לבחור גודל לשתי עמודות, אחת לבנה ואחת אדומה, ורק אז לצייר את כל השאר בפרופורציה. זה משאיר למשרטט את הבחירה של "שנת ה-ש'", השנה שעמודותיה יהיו שוות, והבחירה הזאת יכולה להפוך את הסיפור שעולה מהגרף. בגרף של דה-מרקר, שנת ה-ש' היא 2005. בגרף שלי שנת ה-ש' היא 1965. הסיפור של דה-מרקר הוא על מתאם בין הגידול באוכלוסייה לגידול בצריכת הנפט, הסיפור שלי הוא על צריכת נפט שגדלה הרבה יותר מהר מהגידול באוכלוסייה.

לצורך השוואה, הנה גרף שבו שנת ה-ש' היא 2010:

ועכשיו שנת ה-ש' היא 2010

הגרף המקורי של דה מרקר הוא לא שקר גדול יותר מהגרפים שלי. הבעיה היא בבחירת סוג התרשים. תרשים מסוג כזה מתאים להצגת סדרות נתונים תואמות: מספר לקוחות פלאפון לעומת מספר לקוחות סלקום. מחיר קילו תפוחים לעומת מחיר קילו תפוזים. במקרים כאלה הקשר בין העמודות הוא טבעי, ויש רק סקאלה אחת.

מה היה צריך לעשות במקרה זה? הנה שתי אפשרויות. הראשונה היא להציג את אחת מהסדרות בעמודות, ואת השניה בעקומה ((חדי העין שמו לב שבשני הגרפים הראשונים שלי חסרו ערכים על הצירים האנכיים. שימוש בגרף אשכולות-עמודות עם שתי סקאלות שונות הוא רעיון כל כך רע, שאקסל לא נותן לכם לעשות את זה. כדי לצייר את הגרפים הקודמים נאלצתי לבצע תעלולים, שבגללם גם נעלמו הצירים. עכשיו שחזרנו לקרקע בטוחה, אפשר היה להשיב את הצירים. מסתבר שלפעמים צריך לחשוב אם אולי יש סיבה טובה שאי אפשר לעשות משהו באקסל.)):

ובא לציון גואל

האפשרות השניה היא לשרטט את מה שבעצם מעניין אותנו: כמה חביות נפט צורך אדם ביום.

ומשיח לירושלים

וכאן הגענו לבעיית אינפוגרפיקה קלאסית: גרפים יפים וגרפים שאופים. השרטוט האחרון נותן את המידע המדויק ביותר לגבי השאלה האם בני אדם צורכים כמות קבועה של נפט. מבט אחד מספיק כדי לענות (פחות או יותר, אבל רק מ-1985). אבל קשה לא להסכים שזה גרף משעמם. להחריד. הפיתרון המאוזן בין קצת עניין ויזואלי לבין הצגה נכונה של הנתונים הוא כנראה הגרף הקודם,  המשלב עמודות ועקומה.

ועד כאן האינפוגרפיקה. אבל אחרי כל ההתעמקות הזאת בצורה, אנחנו נשארים אם שאלה פתוחה: כמה אנרגיה באמת צריכים 7 מיליארד בני אדם? והאם הפיתרון הירוק היחיד הוא העלמות של חצי מהאנושות?  לשאלות האלה אחזור (בלי נדר…) בהמשך.

שלום עולם + המלצות צפייה

בעצם, אני רציתי להקים את הבלוג הזה. המון פעמים חשבתי על זה. הרי הותק שלי בהתבכיינות צייקנית דיון שיטתי בנושאי הבלוג הזה מגיע לזמן שכתבתי על העוגה שחברת חשמל אפתה, ואפילו לתחקיר הארכני המופתי בשני חלקים על אמהות במשרות חלקיות.

והנה בא אבנר והקים את הבלוג במקומי. התחננתי קצת, והוא הרשה לי לכתוב בו גם.

החלטתי לקבל את פני עצמי בפוסט לא בכייני עם המלצות על דברים טובים. אז הנה.

במרץ השנה התקיים אירוע בנושא ויזואליזציה בלונדון, במסגרת סדרת מפגשי גיקים מדע וטכנולוגיה בשם sameAsכאן נמצאת תוכנית הערב שכוללת בתורה קישורים לצילומי כל ההרצאות. אני ממליצה במיוחד על ההרצאות של נח אילינסקי ואלסטר דאנט, שניהם מקצועני אינפוגרפיקה שמספרים על הדברים שהם עושים, ועל ההרצאה של ברוק קראפט שמיפה את הבוריס בייקס (הגרסה הלונדונית של תל-אופן), שזה מגניב.

אה, ואם אתם מעדיפים עברית – נראה לי שאבנר שכח לספר לכם שההרצאה שלו מ-11:11, שנושאת את אותו שם כמו הבלוג הזה, זמינה ביוטיוב.

למה לא הפסקת להכות את אשתך?

חשוב לדעת איך להציג נתונים, אבל גם הצגת הנתונים הכי אמינה וכנה לא תעזור אם הנתונים עצמם חסרי כל ערך. לכן, לפעמים צריך לרדת רמה אחת מתחת לאופן הצגת הנתונים ולחשוב כיצד הם הושגו. או, במילים אקדמיות יותר, לנתח את המתודולוגיה של איסוף הנתונים. לפעמים זה גובל בבלתי אפשרי – למשל, כשידיעה בעיתון מספקת את הנתונים בלי שום מידע על אופן איסופם או אפילו נתונים בסיסיים כמו מספר הנשאלים בסקר. לפעמים המידע קיים, אבל לקורא הממוצע קשה להעריך עד כמה המתודולוגיה מבוססת בגלל אי הכרות עם התחום. קשה למי שלא מכיר את המחקר בתחום, למשל, לזהות מתי שאלות נשאלו באופן שייתן עדיפות לתשובות מסויימות על פני אחרות. למעשה, גם לסוקרים הדבר לא בא בטבעיות, והכללים לניסוח סקרים נבנו על פני שנים רבות של מחקר בו זוהו, לאט לאט, כל ההטיות הבלתי מכוונות שהוכנסו לסקרים לאורך ההיסטוריה של התחום. אבל היום כל סוקר אמור להכיר את הכללים הללו, ולפחות מעמיד פנים שהוא נוהג על-פיהם. לעיתים נדירות אפשר למצוא ידיעה שכותביה, למעשה, משתינים מהמקפצה.

ניסוח סקר זו אומנות שזכתה כבר ללא מעט ביקורת וסאטירה, אולי המוצלחת שבהן באותה סצינה בלתי נשכחת של הסדרה "כן, אדוני השר". אבל בדרך כלל סקרים מגמתיים עד כדי כך מצליחים להסתיר זאת פשוט על ידי הסתרת השאלות הבעייתיות ופרסום רק של התוצאות המעניינות את יוצרי הסקר. והנה, לאחרונה התפרסם בוואלה סקר בעריכת "המכון לאחריות אזרחית" במרכז ללימודים אקדמיים. ((המרכז ללימודים אקדמיים זה שם נפלא. זה כמו "בית החולים לריפוי מחלות" או "בית הספר ללמידת דברים", או אולי "הכלא לאסירים". אפרופו, ביקור באתר הבית של המרכז (ששם המתחם שלו הוא ראשי התיבות של השם העברי באותיות לטיניות – MLA) מזמן את המבקר "לבדוק את התאמתך לתואר ראשון/שני ב-60 שניות בשאלון אונליין(!)", מה שמראה כנראה שהם מיישמים את המתודולוגיה הזו במגוון תחומים.)) על פי הסקר, "על השאלה 'מה הסיבה שבגללה לא השתתפת בהפגנות?', השיבו 60.6% מהנשאלים כי הסיבה לכך הייתה טכנית בלבד כמו מחלה, היעדרות מהארץ, התחייבות קודמת או עבודה". שימו לב: מדובר על 60.6% מכלל הנשאלים, משום שכל הנשאלים נשאלו מה הסיבה שבגללה לא השתתפו בהפגנות. הנה כי כן, לא דוד סוקר התקשר לנשאלים, אלא דודה פולניה שתבעה בעלבון "למה לא רואים אתכם אף פעם?!". מניסוח הדברים אפשר אפילו לחשוב שלא טרחו לשאול את הנשאלים אם אכן השתתפו בהפגנות או לא. אבל גם אם נניח שאכן קודם וידאו שהנשאל לא היה בהפגנה לפני שהטיחו בו שאלות מאשימות, הרי שברור לחלוטין שבשום שלב לא נשאל המשיב האם הוא בכלל תומך במחאה. במקום זאת "אני לא תומך במחאה" היא אחת הסיבות לאי הגעה להפגנה. כלומר, הנחת המוצא של הסוקרים היא שכולם תומכים.

דמיינו לעצמכם שאתם אזרח או אזרחית שלא אכפת להם מהמחאה. זה לא שאתם מתנגדים, אבל כל העניין פשוט לא מעניין אתכם ואתם מעדיפים לצפות בתוכניות ריאליטי ולא לחשוב על בעיות של אחרים. לפתע מצלצל הטלפון, ובצד השני מישהו בעל קול רשמי שואל בטון מאשים "למה לא הגעתם להפגנה?!". בלי שתרגישו בכלל מתעורר בתוככם מנגנון פסיכולוגי שמכונה "רצייה חברתית" – אתם יודעים שהצד השני (והחברה ככללה) רוצה לשמוע שאתם רציתם להיות בהפגנה. הדרך הטובה ביותר לצאת מהסיטואציה הזו היא בדיוק אותו דבר שתעשו אם איזה מכר יזמין אתכם לחתונה של הבן שלו שבאמת לא מעניין לכם את האחוריים: תמציאו תירוץ. התירוץ לא יהיה "לא בא לי להפריש כמה מאות שקלים עכשיו למתנת חתונה למישהו שאני בקושי מכיר", אלא יותר "אני מצטער, אבל בדיוק יש לי טיפול שורש באותו יום". או, במילים אחרות, סיבה טכנית. היי! בדיוק הסיבה ש-60.6% מהנשאלים נתנו!

אותם 60.6% הם כנראה אנשים שהיו עונים "לא יודע/אין תשובה" על השאלה "האם את/ה תומך/ת במחאת האוהלים?", או, לכל הפחות, אם הם היו עונים (בגלל אותה רצייה חברתית) שהם כן תומכים במחאה, הם היו עונים "לא יודע/אין תשובה" לשאלה "מדוע את/ה תומך/ת במחאת האוהלים?". עבור חלק מהאנשים הללו שבאמת ובתמים תומכים במידה כלשהי במחאה, התשובה האמיתית לשאלה למה הם לא השתתפו בהפגנה היא שלא מספיק אכפת להם. אבל את זה אף אחד לא יגיד לדודה הפולניה שמתקשרת לשאול בטון נעלב למה לא באנו לארוחת החג.

האם אפשר להתמודד עם רצייה חברתית? כן. סוקרים פיתחו שיטות לשכנע אנשים להודות בהעדפות שנחשבות לא פופולאריות (גם אם הן מאוד נפוצות). שיטה בסיסית אחת היא לתת למשיב תחושה שהתשובה הבעייתית היא לגיטימית ונפוצה: "אזרחים רבים שתומכים בדרישות המוחים בעקרון לא השתתפו בהפגנה משום שהם חשבו שהיא לא מספיק חשובה. האם את/ה חושב/ת שהשתתפות בהפגנה במסגרת המחאה היא חשובה או לא חשובה?" (בתנאים מסוימים כדאי גם לכלול אפשרות נייטרלית). אותם משיבים שענו שהם תומכים במחאה ברמה כלשהי, וחושבים שהשתתפות בהפגנה היא חשובה, רק אותם ראוי לשאול, אם כן, מדוע לא השתתפו במחאה. אבל בלי הפילוח המקדים הזה, רוב התשובות שנקבל תהיינה תירוצים, ולתוצאות הסקר לא תהיה שום משמעות. אלא אם המטרה שלנו היא לגרום למוחים לאשליה ש-60.6% מהציבור (למעלה מארבעה מיליון איש) היו מצטרפים להפגנה אם רק במקרה לא היו צריכים להכניס את האוטו למוסך באותו יום….

ברוכים הבאים לשקרים יפים

ברוכים הבאים לשקרים יפים, בלוג חדש המוקדש לאינפוגרפיקות, שרטוטים, טבלאות ונתונים שמוצגים בתקשורת ושמכילים עיוותים, הטיות, הטעיות וכדומה.

ההשראה לבלוג הזה הגיע מהבלוגים האמריקאים Junk Charts ו-Numbers Rule Your World, המנתחים ומפרקים גרפים מטעים ובעייתיים, ומהבלוג הראשי שלי, אקלקטיקה אהובתי, שם הקדשתי פינה קבועה לניתוחי אינפוגרפיקות. אבל מכיוון שהדחף לכתוב על הנושא קיים אצלי כל הזמן, אבל לא רציתי להטביע את שאר נושאי הבלוג, פתחתי את הבלוג הזה במקום, שמזמין גם פוסטים אורחים מכל מי שירצה לתרום.

כשהחזקת סרגל היא מעשה מהפכני

עדכון 26/07: התווסף גרף מתוקן, על פי הנתונים, בסוף הפוסט.

לא תכננתי לכתוב שוב פוסט על אינפוגרפיקה כל כך מהר אחרי ההרצאה שהעברתי ב-11:11, אבל ישראל היום סיפק היום דוגמה כל-כך קיצונית, שלא יכולתי להתאפק. ותודה לדפנה על ההפניה, וגם לעין השביעית על הניתוח הראשוני.

israel_hayom_fake_240711

 

כשראיתי את הגרף הזה, התחלתי להכנס לדכאון. לא בגלל שיש כאן גרף עם הטיה ברורה, עם אג’נדה, ועם נכונות להטעות, לשקר ולהסתיר מידע. לא, לזה אנחנו כבר רגילים, ואמורים לצפות לזה. מה שדיכא אותי זו הגסות שבה זה נעשה. חוסר התחכום. העליבות!

בהרצאה ב-11:11, ובבלוג הזה בעבר, ניסיתי להצביע על כמה הטיות ערמומיות שמסתתרות באינפוגרפיקה. משינוי בסיס מערכת הצירים ועד גרפים תלת-ממדיים שמבלבלים את העין. אבל בישראל היום החליטו ללכת על שקרים כל כך בוטים, שכל ילד עם סרגל יכול להראות את העיוות שלהם. בתמונה למטה הוספתי כמה קווים מנחים לניתוח הבולשיט. תלחצו על התמונה להגדלה, ואני אעבור על כמה מהם בפירוט:

israel_hayom_fake - annotated

 

1. במחצית השניה של 2010 הגיע ישראל היום לתפוצה של 37.4%. נתון ראוי ומעניין, אבל אם נמתח קו ישר מהנקודה הזו, נגלה שה-37.4% הזה עובר באמצע קו ה-40%. וזאת בהנחה, כמובן, שה-40% עובר באמצע המשבצת. או אולי בתחתיתה? או בראשה? לא ברור. ברור זה רע, כידוע.

2. אם לא די ש-37.4 שווה ל-40, מסתבר גם שהוא נמצא מעל התפוצה של ידיעות אחרונות ב-2007, בנקודת בה היא עמדה על ה-37.7%. 4, מסתבר, הוא גדול יותר מ-7, ע”פ ישראל היום. איפשהו באמצע התנגשות הקוים של שני העיתונים, אנחנו גם מגלים ש-35.2 גדול יותר מ-36.5, ואם נשאר רק בידיעות אחרונות, נראה ש-34.2 שווה ל-34.9.

3. בין תחילת 2009 לסופה ירדה התפוצה של ישראל היום ב-0.3%. כידוע, אין דרך לייצג ירידה של 0.3% על גרף שלא כוללת עליה. העליה היא בת 6 פיקסלים, ועל פי החישובים שלי (36 פיקסלים לבוקסה בת 5%) מייצגת עליה בת 0.83% בתפוצה.

4. זוכרים את סעיף #1, בו גילינו ש-37.7 שווה ל-40? ובכן, כאן אפשר לראות ש-6.4 קטן מ-5.  אלא אם כן המספרים של כל תיבה לא מתייחסים לאמצע שלה אלא לקו העליון שלה, ואז אנחנו מבינים ש-7.5 שווה ל-10. ושה-37.7 מקודם לא שווה ל-40, אלא הוא גדול ממנו משמעותית?

5. נחזור למעלה, ונגלה את הנתון הסופי, הראשי, המעניין, המובלט. הזה שמקבל בוקסה משלו, אבל משום מה בלי נקודה מפורשת על הגרף. וזה טוב שהוא לא, כי אחרית היינו מאבדים את שארית האמון שלנו באריתמטיקה בסיסית, ומגלים ש-39.3 שווה לכ-44, במתמטיקת אזור-הדמדומים הזו. ואם נוסיף את חישובי הפיקסלים, נגלה שהוא גבוה ב-36 פיקסלים מה-37.7 של ידיעות. כלומר 39.3 – 37.7 = 5.

אבל למה?

שחר מתודעה כוזבת לקח את הנתונים של TGI, כפי שפורסמו בגרף, ועשה את המעשה המתבקש להזין אותם לאקסל, על מנת לייצר גרף אמין יותר:

israel_hayom - real

 

והבעיה שיש לשחר עם הגרף הזה, ואני מסכים איתו לחלוטין, היא למה לעזאזל החליט מישהו שם בישראל היום שצריך לייפות את הגרף הזה באמצעות שקרים והטיות?

הגרף הזה מספר סיפור די חזק בזכות עצמו. הוא מראה עליה מרשימה של יותר מפי שלוש תוך שנים בודדות. הוא מראה את נקודת המהפך כשהעיתון עקף את ידיעות, המכהן בכיפה כבר שנים. הארץ ומעריב גם ככה נראים חבוטים ומובסים בתחתית הגרף. אז למה? למה לקחת הצלחה לגיטימית (גם אם לא נתייחס למהות הנתונים, כפי שעלה בתגובות), ולהפוך אותה להתרברבות פתטית?

ושאלה משפטית לסיום

ועלתה השאלה: מה מעמד האינפוגרפיקה בעת שימוע משפטי? האם יכולה רשות כלשהי לבוא לקנוס את ישראל היום על הצגת נתונים שקריים בפרסום? הרי המספרים ה-“אמיתיים” נמצאים שם, אבל הם מציגים נתונים סותרים מאשר הקווים (ולשם שינוי, מדובר על סותרים בעליל, לא מטעים או מוטים). האם זו עילה לתביעה על חוסר אמת בפרסום, או שתספיק התפתלות נוסח “אנחנו הצגנו את המספרים, זה לא אשמתנו אם מישהו הוטעה ע”י הגרפיקה”?

פינת האינפוגרפיקה: הקלות הבלתי נסבלת של הנתונים

עדכון: מסתבר שאני חטאתי כאן בפוסט בחלק מהדברים שעליהם אני התלוננתי, ולא שמתי לב שהפוסט של חורימבה, והאינפוגרפיקה המצורפת, פורסמו לפני כחצי שנה, בדצמבר 2010. חלק מהתלונות שלי על חוסר הרלבנטיות של הנתונים קצת פחות מוצדקות עכשיו, אבל לא כולן – חלק מהנתונים עדיין היו בני יותר משני בזמן פרסומם, והם עורבבו ללא הבחנה עם נתונים חדשים הרבה יותר. התנצלותי על חוסר העדכניות, אבל אני עדיין עומד מאחורי מרבית התלונות שהעלתי כאן.

אתמול פרסמתי פוסט – או, אולי, רטינה – על האינפוגרפיקה המעצבנת של Digital Surgeons, שפורסמה בחורימבה. הפוקוס שלי אתמול היה על הפרזנטציה, על הגרפיקה שבאינפוגרפיקה, אבל מאז, ההערות של שחר הראו לי גם כשנכנסים לנושא האינפו, יש הרבה על מה להתלונן.

הדבר הראשון שקפץ לשחר לעין הוא הסתירה הפנימית בנתונים:

בטוויטר מנגד, יש 48% שנמצאים עכשיו בקולג’, שזה כבר נשמע גבוה באופן מטורף אבל אולי נכון, רק שזה ממש לא מסתדר עם העובדה שיש שם רק 13% בגילאים 18-25.
זה לא מקרה שהאינפוגרפיקה הזו לא קריאה, זו הדרך היחידה להסתיר ממך את הג’אנק שיש שם.

אחר כך המשכנו לנושא התפלגות ההכנסה שנראית קצת מפתיעה, והחלטתי לנסות לברר מאיפה הם השיגו את הנתונים שלהם, על פי רשימת המקורות שהם פרסמו:

המקור הראשון שרשום הוא כתבה באתר CNN המתייחסת למספר המשתמשים בטוויטר. נתון מעניין, חוץ מהעובדה שכתבה התפרסמה במרץ 2010 (לפני כשנה ורבע), ומתייחסת לנתונים מ-2008 ו-2009. הכתבה מציינת שלטוויטר כ-50 מיליון משתמשים, ומכילה נתונים נוספים, כמו כמות החשבונות עם יותר מ-10 עוקבים וסטטוסים, שבכלל לא מופיעים בגרף שלנו. וגם אם היו מופיעים – הם כבר מזמן לא היו רלבנטיים. מקור ראשון – כבר נפסל.

מקור שני – סקר על מותגים מצליחים בפייסבוק וטוויטר. הסקר, שפנה ל-1000 “צרכנים מקוונים”, להגדרתם, נערך באוגוסט 2009, כשלטוויטר היו הרבה פחות משתמשים, והרבה הרבה פחות מותגים. אבל התוצאות של הסקר – 25% ממשתמשי טוויטר עוקבים אחרי מותג – הגיעו ישירות לגרפיקה שלנו, ביוני 2011. היאח לעדכניות.

שני המקורות הבאים באים מאתר התכנון של Google Ads, מקור עדכני יחסית למידע על תעבורת אתרים. אבל משהו מוזר קפץ לי לעין. שני ה-URLים שהם פירסמו ברשימת המקורות מכילים, כחלק מהכתובת, את הפרמטרים של המידע. משום מה הם קישרו למידע על טוויטר המתייחס לארה”ב, אבל למידע על פייסבוק בכל העולם (שימו לב להבדל בין geo=US לבין geo=001). blah

מה שכן, אני לא באמת חושב שהיה כאן בלבול של נתונים אמריקאיים על עולמיים, אלא פשוט רשלנות בהעתקת הכתובת. אני מקווה. הלאה!

קפצנו (טיפה) קדימה בזמן, ליולי 2010. בלוגר מביא נתונים, ברובם מאותו אתר של Google Ads, על רמת ההשכלה וההכנסה של הגולשים באתרים. נראה שהרבה נתונים הגיעו מכאן לגרף הסופי שלנו, אם כי לא הכל תואם. אני מניח שהם שילבו בין נתונים מכמה מקורות, אבל זה גורם לך לתהות על סמך אילו שיקולים? למה להתייחס לבלוג הזה בכלל, אם אפשר ללכת ישירות למקור שלו (Google Ads) ולהביא מידע עדכני יותר? כנ”ל המקור הבא, בלוגר נוסף שפשוט עשה עבודת ריכוז של כמה בלוגים אחרים, ושל אתר פייסבוק עצמו.

אתר הסטטיסטיקות של פייסבוק הוא מקור די מקיף של נתונים, אבל הוא סובל מכמה בעיות. גם העובדה שהוא לא מעודכן באופן רציף ונמנע באדיקות מלציין תאריך לנתונים, ובנוסף, כמובן, העובדה שהוא מכיל רק את המידע שפייסבוק רוצים לפרסם, בלי שום ביקורת עליו.

האתר הבא, עם השם המבטיח SmartDataCollective, מפנה אותנו לדו”ח על טוויטר מאפריל 2010, שממנו נגזרים חלק מהנתונים, כמו ה-87% חשיפה של האמריקאים לטוויטר. כמובן, לפי אותו דו”ח רק 17 מיליון אמריקאים בעצם משתמשים בטוויטר (לעומת 106 מיליון בגרף שלנו) ושני שליש מהם עושים זאת דרך טלפון סלולרי (לעומת 37% בגרף שלנו), כך שקשה לי ליישב את הנתונים הללו אחד עם השני.

המקור הלפני אחרון מוביל לאתר הרציני, לרוב, SearchEngineLand, שמביא השוואה בין פייסבוק, טוויטר וגוגל באזז – מה שכבר מראה לכם עד כמה הוא לא עדכני, מפברואר 2010. האתר מביא לנו נתונים שלא ממש הגיעו לגרף שלנו, אבל מוסיף התרעה שלגמרי עברה ל-Digital Surgeons מעל הראש: הנתונים הללו הם לא מקבילים. כתוב לנו בגרף ש-52% ממשתמשי טוויטר מעדכנים כל יום לעומת 12% בפייסבוק, אבל שכחו לציין שבטוויטר כל פעולה היא עדכון סטטוס, בעוד בפייסבוק אתה יכול להגיב לסטטוס אחר, לפרסם תמונה או פשוט לעשות לייק, ולא להחשב במניין עדכוני הסטטוסים. תפוחים, תפוזים – מה זה משנה, כולם עגולים, לא?

ואחרון אחרון חביב, המקור שלגמרי שבר אותי – The Ultimate List: 100+ Twitter Statistics. אתר (מלפני שנה, כן) שמרכז עשרות אינפוגרפיקות שונות על טוויטר. בלי רשימת מקורות. בלי תאריכים. עם סתירות פנימיות על כמעט כל נתון ונתון. חלקם חסרי משמעות, חלקם חסרי פואנטה, חלקם פשוט לא רלבנטיים. אנחנו יכולים למצוא בגרף אחד את מס’ המשתמשים בטוויטר ש-DigitalSurgeons בחרו לקחת, בגרף אחר את התפלגות הגילאים (אבל לא את ההכנסה, למרות שהיא צוינה. את זה ניקח ממקום אחר). מילא שהם עושים כאן Cherry picking, בוחרים את הנתון שמתאים להם מכל גרף אחר – הם גם לא מתבססים כאן על אף מקור סמכותי. יש כאן קניבליזציה של מידע מאתר לאתר, כשכל אתר מסתמך ב-100% על המקורות שלו בלי לפקפק, ויוצר web of trust שהוא גם שבור מבחינת אמינות, וגם משנה את המידע, צעד אחר צעד, כמו משחק טלפון שבור (ותודה שוב לשחר על הדימוי).

ומה יש לנו בסוף? יש לנו כתבה של חורימבה שמסכמת נתונים מתוך אינפוגרפיקה, שהסתמכה על אתר שמכיל אינפוגרפיקות אחרות, שמסתמכות בעצמן על בלוגר שראה אותן באינפוגרפיקות אחרות, והרגיש שהוא היה חוקר אחראי, בגלל שהוא לקח גם את הנתונים הרשמיים שפייסבוק וטוויטר פרסמו וראה שהם לא סותרים… יותר מדי. וזה המידע המוצק שאח”כ מתפרסם בעיתונות הטכנולוגית. ואז מצוטט בוויקיפדיה. שהופך להיות מקור המידע הסמכותי שלנו, ולהזניק דור חדש של אינפוגרפיקות מיותרות.

פינת האינפוגרפיקה: טבעת ללא טבעת, השוואה ללא השוואה

קורא מסור הפנה אותי לפוסט בחורים ברשת המכיל אינפוגרפיקות מפורטות יחסית לגבי ההבדלים בין פייסבוק לטוויטר. אני לא יודע אם זה משהו אינהרנטי בפייסבוק, אבל איכשהו יוצא שחצי מהתלונות שלי על אינפוגרפיקות קשורות לנתונים על פייסבוק. לא ברור לי למה. אבל האינפוגרפיקה הזו זעקה לי – ולקורא – החל מהנתון הראשון שקופץ לעין. אז תעיינו באינפוגרפיקה הממש ממש ארוכה הזו, ותראו אם תוכלו לזהות את הנקודות שחרו לי במיוחד כאן.

facbook_vs_twitter_infographic

1. טבעת ללא טבעת

הדבר הראשון שקפץ לי לעין הוא שהנתונים של שני השירותים מסודרים בגרף טבעת, או גרף דונאט. גרף טבעת דומה מאד לעוגה, חוץ מהחור באמצע. ההנחה המובלעת של מי שרואה את הגרף היא שמדובר על מכלול – במקרה הזה מס’ המשתמשים בשירות, על פי התווית בצד שמאל למעלה – ופילוח של המכלול הזה על פי נתונים שונים. אבל כבר הנתון הראשון, העליון ביותר שובר את זה. “88% מהאנשים מודעים לפייסבוק”. רגע, מדובר כאן ב-88% מתוך 500 מיליון משתמשי פייסבוק? לא, ברור שלא. 88% מאוכלוסיית העולם? נראה לי נתון קצת גבוה. הגרף לא מציין מקור ספציפי לנתון הזה, אלא רשימת מקורות כללית, אבל סעיף קטן מצד שמאל למעלה מרמז שהנתון מתייחס לאוכלוסיית ארה”ב בלבד. אוקיי. לגיטימי, אבל מבלבל.

אבל אז אנחנו ממשיכים לנתון הבא בכיוון השעון, שאומר ש-41% נכנסים לפייסבוק כל יום. כאן חזרנו ל-500 מיליון משתמשי פייסבוק, נכון? לא ל-41% מאוכלוסיית ארה”ב. אז אם הנתונים הללו לא קשורים, ולא נמצאים בהשוואה, למה הם חלק מאותו גרף? למה אני צריך לצאת עם מסקנה אינטואיטיבית שיש פי שניים אנשים שמודעים לפייסבוק מאשר שנכנסים אל השירות כל יום?

הבעיה היא שאין לנו כאן גרף טבעת בכלל. יש לנו סדרה של Stacked Bar Graphs, שכל אחד מספר סיפור אחר. באופן טבעי, הייתי מצפה שגרפים שלא קשורים אחד לשני יעמדו בנפרד, ולא יוצמדו כחלק ממכלול אחד. אבל יש כאן תעדוף של ה-style על פני ה-substance, ובשביל הטבעת הכחלחלה והיפה, החבר’ה ב-Digital Surgeons גורמים לנו לראות יחס של השוואה בין הגרפים השונים – מה שמוביל אותנו לבעיה השניה.

2. השוואה ללא השוואה

כל האינפוגרפיקה הזו נועדה להשוות בין נתונים של פייסבוק ושל טוויטר. איך אני יודע את זה? ובכן, הכותרת היא Facebook vs. Twitter, מה שאמור לרמז. אבל בעוד אני עסוק בלהתגבר על המסקנה האינסטינקטיבית ש-70% מהאוכלוסיית ארה”ב גרה מחוץ לארה”ב, אני פתאום שם לב שבשום שלב לא ראיתי נתונים של טוויטר בטבעת הזו.

בשביל לראות נתונים של טוויטר, אני צריך לגלול למטה פיקסלים רבים רבים, עד הטבעת השניה, המקבילה, עם הנתונים של טוויטר. באתר המקורי, כל טבעת, בנפרד, גדולה במעט מרזולוציית המסך שלי, ואני צריך לגלול בשביל לראות אותה יחד עם קצת כותרת.

המשמעות היא שאין לי שום יתרון השוואותי בגרפיקה. במקום לבנות גרפים שמציבים את פייסבוק ואת טוויטר אחד ליד השני, אני צריך לדפדף ולזכור נתונים בין PgDn אחד למשנהו. המצב כל כך מטופש שבכתבה בחורים ברשת הם היו צריכים לתת תקציר מילולי של מסקנות האינפוגרפיקה – היפוך מוחלט של כל ההצדקה לקיומה של האינפוגרפיקה מלכתחילה.

* * *

אז מה יש לנו כאן? בחירה בסוג גרף מבלבל שלא תורם להעביר מידע. ערבוב בין נתונים נפרדים על אותה סקאלה. פריסה על העמוד שמנטרלת את המטרה המוצהרת של האינפוגרפיקה. וגם, last but not least, בחירה במנעד צבעים עדין כל כך שבקושי מרגישים בהבדלים בין הפרמטרים השונים.

אבל מה? הוא יפה. לפחות הוא יפה, לא?

פינת האינפוגרפיקה: תפוחים ותפוזים

תסתכלו על הגרף הזה, מאתר Business Insider. תסכלו עליו, ותקראו אותו, ותנסה להבין למה מצאתי את עצמי מתעצבן יותר ויותר כשנתקלתי בו, מההשוואה הבלתי רלבנטית למפגיע. אני עברתי תהליך דו שלבי כאן, double-take אינפוגרפי, שבגללו אני לא הצלחתי עדיין להחליט אם מדובר כאן בחוסר הבנה משווע או בהטעייה מכוונת.

 

RevenueByUniqueChart

 

הדבר הראשון שעלה לי בראש כשראיתי את הגרף הוא “איזו השוואה מטומטמת. אמזון מוכרת ספרים, פייסבוק מוכרת שטח פרסום, איך אפשר להשוות ביניהם?”. ואכן, יש כאן תהליכים מאד שונים, אבל עדיין יש בהם מן המשותף. אצל אמזון, המטרה של האתר הוא להמיר את המבקרים ללקוחות משלמים, בעוד בפייסבוק מדובר בעיקר בצפיות, אם כי יש גם תשלום על לחיצות אקטיביות על פרסומות. בסופו של דבר, גם אם המוצר שונה, אפשר להשוות בין השתיים, לא? גם אם התשובה ברורה, אי אפשר להגיד שאי אפשר להשוות בין חנות בגדים וחנות תכשיטים במדד של הכנסות לכל לקוח, לא?

אבל זהו, שזה לא מה שאנחנו רואים בגרף, והרמז היא גוגל, במקום השלישי. גוגל היא חברת אינטרנט, אבל היא מזמן כבר לא חיה רק מפרסומות בתוצאות החיפוש. היא מרוויחה גם ממכירת אפליקציות אנדרואיד. ומשתמשי Google Apps מסחריים וארגוניים. וממכירות מכשירי נקסוס-1 ונקסוס-S. אז נכון, הדברים הללו הם לא חלק מרכזי כרגע מההכנסות של גוגל, אבל הם חלק מה-bottom line שנכנס לגרף הזה, אבל אין להם קשר, ולא הקלוש ביותר, לציר ה-Unique users. וכשחושבים על זה, אני לא בטוח שההכנסות של פייסבוק תלויות ב-Unique users, לעומת הכנסות על בסיס חשיפה, שתלויות גם בכמות ה-hits לאתר, גם אם מדובר על עשרות כניסות של אותם משתמשים ביום. וההכנסות של אמזון, הם כוללות גם ספרים דיגיטליים בקינדל, נכון? האם אפשר לרכוש אותם מתוך המכשיר או האפליקציה? ואם כן, פתאום גם כאן יש לנו נתק בין הגולשים באתר לבין ההכנסות.

אפשר יהיה להדגים את זה באופן פשוט על ידי הכנסת מיקרוסופט לרשימה. למיקרוסופט יש מאות מיליוני גולשים בהוטמייל, בינג, MSN ואתרים אחרים, והם מרוויחים הרבה כסף מפרסום, מכירות מקוונות ועוד. אבל הם מרוויחים עוד כסף, המון המון כסף, במכירות לארגונים ולחברות, ובחנויות אמיתיות, והסכמי רישוי של טכנולוגיות ופטנטים. אם היינו שמים את הכנסות של מיקרוסופט, שעמדו השנה על כ-62 מיליארד דולר, מול ה-unique users שלה, נקבל אותה בצד הימני של הטבלה – אבל מה המשמעות של זה?

בסופו של דבר יש לנו כאן גרף יפה, שנראה מעניין, ועוד יותר מכך, נראה שיש בו תובנה כלשהי. אבל כשמתעמקים, רואים שהיחס הזה בין unique users לבין הכנסה של החברה הוא מזוייף, פיקטיבי, וחסר משמעות. הוא מוטעה, ויותר מכך, הוא מטעה אותנה לחשוב שיש כאן ציר, סקאלה כלשהי, שבו פייסבוק, גוגל ואמזון נמצאים ונמדדים. אולי יש אחד כזה, אבל המדד הזה הוא לא זה.

פינת האינפוגרפיקה: שימוש מרהיב בטכנולוגיה

קבלו פוסט קצר, שמראה שהמדור יודע גם לפרגן כשצריך. ה-BBC מציגים סרטון אינפוגרפיקה מלבב שמראה את השינויים לאורך 200 השנה האחרונות בהכנסה הגולמית לנפש ובתוחלת החיים הממוצעת בלידה של רוב מדינות העולם. אפשר להעביר ביקורת על תוכן האינפוגרפיקה – בעיקר בנושא שחוזר שוב ושוב לגבי תוחלת חיים ממוצעת, שמתעלמת מהעובדה שתמותת תינוקות וילודה היא גבוהה יחסית, ומושכת את הממוצע למטה, כך שמי שהגיע לגיל 15, יש לו סיכוי גבוה מאד לעבור בהרבה את הממוצע. בעיה דומה, שמוזכרת גם בסרטון עצמו, מדברת גם על ממוצעים בתוך מדינות, שמושכים גם הם מדינות שונות לעבר המרכז. גם אפשר להתייחס לאופטימיות הבלתי סבירה של המנחה, שאתה לא יכול שלא להרגיש שבאה למרק על מצפון אירופאי מדושן הנתקל בפערים חברתיים עצומים. אבל היום באתי להתמקד יותר בפרזנטציה, ופחות בתוכן.

 

מה יש לנו כאן? ציר דו-ממדי של שני גופים בלתי תלויים, ציר שלישי, של גודל האוכלוסיה, שמיוצג בגודל המעגל, במקום בציר שלישי מרחבי, מה שהופך אותו לקריא הרבה יותר מאשר אם היו מנסים למקם את הנקודה על מרחב תלת-ממדי מגושם. וציר רביעי, ציר הזמן, שהוא זה שהופך את הסרטון לנחמד כל-כך. המנחה מציג את ההשפעה של אירועים כמו מגפות ומלחמות, אבל אני חושב שהחלק המדהים ביותר קורה בדקה ה-2:58, ב-1958, כשמדיניות הזינוק הגדול קדימה של מאו מחסלת עשרות מיליונים בסין, ואז הזינוק חזרה מיד לאחר מכן.

מה שמבאס באינפוגרפיקה הזו היא שעדיין לא קל מספיק להפיק דבר כזה בקלות בבית. לא אקסל ולא גוגל דוקס, מבדיקה מהירה, נותנים לנו כלים נוחים לייצר גרפים סטטיים כאלה ((כן, ניסיתי את ה-Bubble Chart של אקסל. הוא פשוט עובד קקה)), וזה עוד לפני שהכנסנו את אלמנט הזמן לעסק. וחבל.

פינת האינפוגרפיקה: אולי, בעצם, לא?

אינפוגרפיקה היא כלי מאד פופולרי, בשנים האחרונות, להקל על הקורא המסכן ולהגן עליו מהטקסט המאיים. העלייה של האינפוגרפיקה, לטוב ולרע, היא הסיבה שיש הצדקה לפינה הזו כאן. אבל לפעמים יש אינפוגרפיקות שפשוט מדהימות אותי. לא כי הם מרשימות במיוחד, וגם לא כי הן מטופשות או מטעות במיוחד. פשוט כי אלה אינפוגרפיקות שאין הצדקה לקיומן. אינפוגרפיקות שלא תורמות שום דבר מעבר למספרים שעומדים בבסיסן. אני לא הראשון שיצא כנגד האינפוגרפיקות המיותרות, כמובן, אבל היום נתקלתי בעוד אחת שעצבנה אותי: הסטטיסטיקות של פייסבוק.

הדבר הראשון שקפץ לי לעיניים, בתחילת התרשים, הוא זה:

FacebookStats1

מה יש לנו כאן? את הנתון היבש מהאתר של פייסבוק, ושני איורים. הראשון מסביר לנו, כנראה, ש-“משתמש” זה הדבר הזה עם הראש והשיער, למקרה שהתבלבלנו. השני הוא פשוט בלון דיבור קטן, משוכפל 130 פעם. כן, נפלאות הקופי-פייסט לעזרתנו! אם קשה לנו עם הקונצפט האבסטרקטי של “130”, אז פשוט נספור ריבועים כחולים קטנים עד שנבין! למידה דרך הרגליים, או במקרה הזה דרך העיניים. Wax on, wax off.  אין כאן שום אלמנט של השוואה ויזואלית, אז כל הגרפיקה הזו מיותרת לחלוטין.

מה הלאה?

FacebookStats2

כאן כבר יש טיפה יותר מידע – ההשוואה המספרית בין פייסבוק ומייספייס זוכה להבדלי גודל פרופורציונאליים. יפה. אבל חוץ מהבחירה השרירותית בחצאי-עיגול, שמקשים על ההבנה של הפרופורציות בין השניים, גם ההחלטה לסמל את מייספייס בצבע שחור על אפור, והחלוקה הפנימית של פייסבוק בין שני גוונים דומים של תכלת, דורשת מאיתנו לקרב את הראש למסך ולכווץ את העיניים בנסיון להבין מה לעזאזל אנחנו רואים.

עוד?

FacebookStats3
החלק החביב עלי. המשתמש הממוצע יוצר 90 פיסות תוכן בחודש, ומקושר ל-80 עמודים. הא! הנה מקום להשוואה! נשים את עיגול ה-80 בתוך ה-90, ונקבל הבהרה גרפית וברורה ש-80 אכן קטן מ-90, אבל רחוק מלהיות שווה לא. בלי ציניות, זו אכן הדגמה גרפית ראויה. אבל אבוי, מה הם משווים כאן? שתי פיסות מידע חסרות כל קשר אחת לשניה, שמצאו את עצמן צמודות זו לזו רק כי הן מופיעות זו אחר זו באתר פייסבוק, או בגלל שהמספרים שלהם קרובים אחד לשני, ברמה האינטואיטיבית. אבל אין לזה שום משמעות! אין כאן שום תובנה שהאינפוגרפיקה מעבירה. משתמשים רושמים יותר סטטוסים מאשר שהם מצטרפים לקבוצות? אז מה? אינפוגרפיקה לשם האינפוגרפיקה, בלי שום מטרה.

רוצים עוד? בטח שרוצים.

FacebookStats4

מפה. מפה זה מגניב. בואו ניקח את המידע הגאוגרפי ונציב אותו על מפה. אפשר לעשות יופי של ייצוגים גרפיים על מפות, כמו מפות חום  או פיזורים גיאוגרפיים. אבל זה לא מה שיש לנו כאן. יש לנו את אותה טבלת מספרים של פייסבוק, אבל עם חצים שמצביעים על המדינות הרלבנטיות. כ”כ קל היה לצבוע את המדינות באדום/צהוב/ירוק/אפור על פי הריכוז, או הכמות, וככה לקבל מידע גיאוגרפי ויזואלי על הפריסה והפופולריות. אבל לא, יש לנו כאן רק כלי עזר לאנשים שלא יודעים איפה נמצאת ספרד, כנראה בגלל שהמעצב של האינפוגרפיקה לא רצה להרוס את המוטיב הכחול-אפור היקר שלו עם צבעים אינפורמטיביים.

ולסיום, נקודה אחת חיובית:

FacebookStats5

כאן הגרף בעצם משרת  את העברת המידע: לקבל אמת מידה ויזואלית פרופורציונאלית של “אוכלוסיית” פייסבוק לעומת מדינות בעולם. השימוש בנאלי, אמנם, ודי מטעה – אין למשתמשי פייסבוק שום שיוך או הזדהות לאומית עם האתר, אחרי הכל, והם חופפים לאוכלוסיות במדינות האחרות – אבל לפחות יש כאן שימוש בכלי האינפוגרפיקה בשביל להעביר מידע. לפחות זה.