פינת האינפוגרפיקה: הקלות הבלתי נסבלת של הנתונים

עדכון: מסתבר שאני חטאתי כאן בפוסט בחלק מהדברים שעליהם אני התלוננתי, ולא שמתי לב שהפוסט של חורימבה, והאינפוגרפיקה המצורפת, פורסמו לפני כחצי שנה, בדצמבר 2010. חלק מהתלונות שלי על חוסר הרלבנטיות של הנתונים קצת פחות מוצדקות עכשיו, אבל לא כולן – חלק מהנתונים עדיין היו בני יותר משני בזמן פרסומם, והם עורבבו ללא הבחנה עם נתונים חדשים הרבה יותר. התנצלותי על חוסר העדכניות, אבל אני עדיין עומד מאחורי מרבית התלונות שהעלתי כאן.

אתמול פרסמתי פוסט – או, אולי, רטינה – על האינפוגרפיקה המעצבנת של Digital Surgeons, שפורסמה בחורימבה. הפוקוס שלי אתמול היה על הפרזנטציה, על הגרפיקה שבאינפוגרפיקה, אבל מאז, ההערות של שחר הראו לי גם כשנכנסים לנושא האינפו, יש הרבה על מה להתלונן.

הדבר הראשון שקפץ לשחר לעין הוא הסתירה הפנימית בנתונים:

בטוויטר מנגד, יש 48% שנמצאים עכשיו בקולג’, שזה כבר נשמע גבוה באופן מטורף אבל אולי נכון, רק שזה ממש לא מסתדר עם העובדה שיש שם רק 13% בגילאים 18-25.
זה לא מקרה שהאינפוגרפיקה הזו לא קריאה, זו הדרך היחידה להסתיר ממך את הג’אנק שיש שם.

אחר כך המשכנו לנושא התפלגות ההכנסה שנראית קצת מפתיעה, והחלטתי לנסות לברר מאיפה הם השיגו את הנתונים שלהם, על פי רשימת המקורות שהם פרסמו:

המקור הראשון שרשום הוא כתבה באתר CNN המתייחסת למספר המשתמשים בטוויטר. נתון מעניין, חוץ מהעובדה שכתבה התפרסמה במרץ 2010 (לפני כשנה ורבע), ומתייחסת לנתונים מ-2008 ו-2009. הכתבה מציינת שלטוויטר כ-50 מיליון משתמשים, ומכילה נתונים נוספים, כמו כמות החשבונות עם יותר מ-10 עוקבים וסטטוסים, שבכלל לא מופיעים בגרף שלנו. וגם אם היו מופיעים – הם כבר מזמן לא היו רלבנטיים. מקור ראשון – כבר נפסל.

מקור שני – סקר על מותגים מצליחים בפייסבוק וטוויטר. הסקר, שפנה ל-1000 “צרכנים מקוונים”, להגדרתם, נערך באוגוסט 2009, כשלטוויטר היו הרבה פחות משתמשים, והרבה הרבה פחות מותגים. אבל התוצאות של הסקר – 25% ממשתמשי טוויטר עוקבים אחרי מותג – הגיעו ישירות לגרפיקה שלנו, ביוני 2011. היאח לעדכניות.

שני המקורות הבאים באים מאתר התכנון של Google Ads, מקור עדכני יחסית למידע על תעבורת אתרים. אבל משהו מוזר קפץ לי לעין. שני ה-URLים שהם פירסמו ברשימת המקורות מכילים, כחלק מהכתובת, את הפרמטרים של המידע. משום מה הם קישרו למידע על טוויטר המתייחס לארה”ב, אבל למידע על פייסבוק בכל העולם (שימו לב להבדל בין geo=US לבין geo=001). blah

מה שכן, אני לא באמת חושב שהיה כאן בלבול של נתונים אמריקאיים על עולמיים, אלא פשוט רשלנות בהעתקת הכתובת. אני מקווה. הלאה!

קפצנו (טיפה) קדימה בזמן, ליולי 2010. בלוגר מביא נתונים, ברובם מאותו אתר של Google Ads, על רמת ההשכלה וההכנסה של הגולשים באתרים. נראה שהרבה נתונים הגיעו מכאן לגרף הסופי שלנו, אם כי לא הכל תואם. אני מניח שהם שילבו בין נתונים מכמה מקורות, אבל זה גורם לך לתהות על סמך אילו שיקולים? למה להתייחס לבלוג הזה בכלל, אם אפשר ללכת ישירות למקור שלו (Google Ads) ולהביא מידע עדכני יותר? כנ”ל המקור הבא, בלוגר נוסף שפשוט עשה עבודת ריכוז של כמה בלוגים אחרים, ושל אתר פייסבוק עצמו.

אתר הסטטיסטיקות של פייסבוק הוא מקור די מקיף של נתונים, אבל הוא סובל מכמה בעיות. גם העובדה שהוא לא מעודכן באופן רציף ונמנע באדיקות מלציין תאריך לנתונים, ובנוסף, כמובן, העובדה שהוא מכיל רק את המידע שפייסבוק רוצים לפרסם, בלי שום ביקורת עליו.

האתר הבא, עם השם המבטיח SmartDataCollective, מפנה אותנו לדו”ח על טוויטר מאפריל 2010, שממנו נגזרים חלק מהנתונים, כמו ה-87% חשיפה של האמריקאים לטוויטר. כמובן, לפי אותו דו”ח רק 17 מיליון אמריקאים בעצם משתמשים בטוויטר (לעומת 106 מיליון בגרף שלנו) ושני שליש מהם עושים זאת דרך טלפון סלולרי (לעומת 37% בגרף שלנו), כך שקשה לי ליישב את הנתונים הללו אחד עם השני.

המקור הלפני אחרון מוביל לאתר הרציני, לרוב, SearchEngineLand, שמביא השוואה בין פייסבוק, טוויטר וגוגל באזז – מה שכבר מראה לכם עד כמה הוא לא עדכני, מפברואר 2010. האתר מביא לנו נתונים שלא ממש הגיעו לגרף שלנו, אבל מוסיף התרעה שלגמרי עברה ל-Digital Surgeons מעל הראש: הנתונים הללו הם לא מקבילים. כתוב לנו בגרף ש-52% ממשתמשי טוויטר מעדכנים כל יום לעומת 12% בפייסבוק, אבל שכחו לציין שבטוויטר כל פעולה היא עדכון סטטוס, בעוד בפייסבוק אתה יכול להגיב לסטטוס אחר, לפרסם תמונה או פשוט לעשות לייק, ולא להחשב במניין עדכוני הסטטוסים. תפוחים, תפוזים – מה זה משנה, כולם עגולים, לא?

ואחרון אחרון חביב, המקור שלגמרי שבר אותי – The Ultimate List: 100+ Twitter Statistics. אתר (מלפני שנה, כן) שמרכז עשרות אינפוגרפיקות שונות על טוויטר. בלי רשימת מקורות. בלי תאריכים. עם סתירות פנימיות על כמעט כל נתון ונתון. חלקם חסרי משמעות, חלקם חסרי פואנטה, חלקם פשוט לא רלבנטיים. אנחנו יכולים למצוא בגרף אחד את מס’ המשתמשים בטוויטר ש-DigitalSurgeons בחרו לקחת, בגרף אחר את התפלגות הגילאים (אבל לא את ההכנסה, למרות שהיא צוינה. את זה ניקח ממקום אחר). מילא שהם עושים כאן Cherry picking, בוחרים את הנתון שמתאים להם מכל גרף אחר – הם גם לא מתבססים כאן על אף מקור סמכותי. יש כאן קניבליזציה של מידע מאתר לאתר, כשכל אתר מסתמך ב-100% על המקורות שלו בלי לפקפק, ויוצר web of trust שהוא גם שבור מבחינת אמינות, וגם משנה את המידע, צעד אחר צעד, כמו משחק טלפון שבור (ותודה שוב לשחר על הדימוי).

ומה יש לנו בסוף? יש לנו כתבה של חורימבה שמסכמת נתונים מתוך אינפוגרפיקה, שהסתמכה על אתר שמכיל אינפוגרפיקות אחרות, שמסתמכות בעצמן על בלוגר שראה אותן באינפוגרפיקות אחרות, והרגיש שהוא היה חוקר אחראי, בגלל שהוא לקח גם את הנתונים הרשמיים שפייסבוק וטוויטר פרסמו וראה שהם לא סותרים… יותר מדי. וזה המידע המוצק שאח”כ מתפרסם בעיתונות הטכנולוגית. ואז מצוטט בוויקיפדיה. שהופך להיות מקור המידע הסמכותי שלנו, ולהזניק דור חדש של אינפוגרפיקות מיותרות.

פינת האינפוגרפיקה: טבעת ללא טבעת, השוואה ללא השוואה

קורא מסור הפנה אותי לפוסט בחורים ברשת המכיל אינפוגרפיקות מפורטות יחסית לגבי ההבדלים בין פייסבוק לטוויטר. אני לא יודע אם זה משהו אינהרנטי בפייסבוק, אבל איכשהו יוצא שחצי מהתלונות שלי על אינפוגרפיקות קשורות לנתונים על פייסבוק. לא ברור לי למה. אבל האינפוגרפיקה הזו זעקה לי – ולקורא – החל מהנתון הראשון שקופץ לעין. אז תעיינו באינפוגרפיקה הממש ממש ארוכה הזו, ותראו אם תוכלו לזהות את הנקודות שחרו לי במיוחד כאן.

facbook_vs_twitter_infographic

1. טבעת ללא טבעת

הדבר הראשון שקפץ לי לעין הוא שהנתונים של שני השירותים מסודרים בגרף טבעת, או גרף דונאט. גרף טבעת דומה מאד לעוגה, חוץ מהחור באמצע. ההנחה המובלעת של מי שרואה את הגרף היא שמדובר על מכלול – במקרה הזה מס’ המשתמשים בשירות, על פי התווית בצד שמאל למעלה – ופילוח של המכלול הזה על פי נתונים שונים. אבל כבר הנתון הראשון, העליון ביותר שובר את זה. “88% מהאנשים מודעים לפייסבוק”. רגע, מדובר כאן ב-88% מתוך 500 מיליון משתמשי פייסבוק? לא, ברור שלא. 88% מאוכלוסיית העולם? נראה לי נתון קצת גבוה. הגרף לא מציין מקור ספציפי לנתון הזה, אלא רשימת מקורות כללית, אבל סעיף קטן מצד שמאל למעלה מרמז שהנתון מתייחס לאוכלוסיית ארה”ב בלבד. אוקיי. לגיטימי, אבל מבלבל.

אבל אז אנחנו ממשיכים לנתון הבא בכיוון השעון, שאומר ש-41% נכנסים לפייסבוק כל יום. כאן חזרנו ל-500 מיליון משתמשי פייסבוק, נכון? לא ל-41% מאוכלוסיית ארה”ב. אז אם הנתונים הללו לא קשורים, ולא נמצאים בהשוואה, למה הם חלק מאותו גרף? למה אני צריך לצאת עם מסקנה אינטואיטיבית שיש פי שניים אנשים שמודעים לפייסבוק מאשר שנכנסים אל השירות כל יום?

הבעיה היא שאין לנו כאן גרף טבעת בכלל. יש לנו סדרה של Stacked Bar Graphs, שכל אחד מספר סיפור אחר. באופן טבעי, הייתי מצפה שגרפים שלא קשורים אחד לשני יעמדו בנפרד, ולא יוצמדו כחלק ממכלול אחד. אבל יש כאן תעדוף של ה-style על פני ה-substance, ובשביל הטבעת הכחלחלה והיפה, החבר’ה ב-Digital Surgeons גורמים לנו לראות יחס של השוואה בין הגרפים השונים – מה שמוביל אותנו לבעיה השניה.

2. השוואה ללא השוואה

כל האינפוגרפיקה הזו נועדה להשוות בין נתונים של פייסבוק ושל טוויטר. איך אני יודע את זה? ובכן, הכותרת היא Facebook vs. Twitter, מה שאמור לרמז. אבל בעוד אני עסוק בלהתגבר על המסקנה האינסטינקטיבית ש-70% מהאוכלוסיית ארה”ב גרה מחוץ לארה”ב, אני פתאום שם לב שבשום שלב לא ראיתי נתונים של טוויטר בטבעת הזו.

בשביל לראות נתונים של טוויטר, אני צריך לגלול למטה פיקסלים רבים רבים, עד הטבעת השניה, המקבילה, עם הנתונים של טוויטר. באתר המקורי, כל טבעת, בנפרד, גדולה במעט מרזולוציית המסך שלי, ואני צריך לגלול בשביל לראות אותה יחד עם קצת כותרת.

המשמעות היא שאין לי שום יתרון השוואותי בגרפיקה. במקום לבנות גרפים שמציבים את פייסבוק ואת טוויטר אחד ליד השני, אני צריך לדפדף ולזכור נתונים בין PgDn אחד למשנהו. המצב כל כך מטופש שבכתבה בחורים ברשת הם היו צריכים לתת תקציר מילולי של מסקנות האינפוגרפיקה – היפוך מוחלט של כל ההצדקה לקיומה של האינפוגרפיקה מלכתחילה.

* * *

אז מה יש לנו כאן? בחירה בסוג גרף מבלבל שלא תורם להעביר מידע. ערבוב בין נתונים נפרדים על אותה סקאלה. פריסה על העמוד שמנטרלת את המטרה המוצהרת של האינפוגרפיקה. וגם, last but not least, בחירה במנעד צבעים עדין כל כך שבקושי מרגישים בהבדלים בין הפרמטרים השונים.

אבל מה? הוא יפה. לפחות הוא יפה, לא?