פינת האינפוגרפיקה: הקלות הבלתי נסבלת של הנתונים

עדכון: מסתבר שאני חטאתי כאן בפוסט בחלק מהדברים שעליהם אני התלוננתי, ולא שמתי לב שהפוסט של חורימבה, והאינפוגרפיקה המצורפת, פורסמו לפני כחצי שנה, בדצמבר 2010. חלק מהתלונות שלי על חוסר הרלבנטיות של הנתונים קצת פחות מוצדקות עכשיו, אבל לא כולן – חלק מהנתונים עדיין היו בני יותר משני בזמן פרסומם, והם עורבבו ללא הבחנה עם נתונים חדשים הרבה יותר. התנצלותי על חוסר העדכניות, אבל אני עדיין עומד מאחורי מרבית התלונות שהעלתי כאן.

אתמול פרסמתי פוסט – או, אולי, רטינה – על האינפוגרפיקה המעצבנת של Digital Surgeons, שפורסמה בחורימבה. הפוקוס שלי אתמול היה על הפרזנטציה, על הגרפיקה שבאינפוגרפיקה, אבל מאז, ההערות של שחר הראו לי גם כשנכנסים לנושא האינפו, יש הרבה על מה להתלונן.

הדבר הראשון שקפץ לשחר לעין הוא הסתירה הפנימית בנתונים:

בטוויטר מנגד, יש 48% שנמצאים עכשיו בקולג’, שזה כבר נשמע גבוה באופן מטורף אבל אולי נכון, רק שזה ממש לא מסתדר עם העובדה שיש שם רק 13% בגילאים 18-25.
זה לא מקרה שהאינפוגרפיקה הזו לא קריאה, זו הדרך היחידה להסתיר ממך את הג’אנק שיש שם.

אחר כך המשכנו לנושא התפלגות ההכנסה שנראית קצת מפתיעה, והחלטתי לנסות לברר מאיפה הם השיגו את הנתונים שלהם, על פי רשימת המקורות שהם פרסמו:

המקור הראשון שרשום הוא כתבה באתר CNN המתייחסת למספר המשתמשים בטוויטר. נתון מעניין, חוץ מהעובדה שכתבה התפרסמה במרץ 2010 (לפני כשנה ורבע), ומתייחסת לנתונים מ-2008 ו-2009. הכתבה מציינת שלטוויטר כ-50 מיליון משתמשים, ומכילה נתונים נוספים, כמו כמות החשבונות עם יותר מ-10 עוקבים וסטטוסים, שבכלל לא מופיעים בגרף שלנו. וגם אם היו מופיעים – הם כבר מזמן לא היו רלבנטיים. מקור ראשון – כבר נפסל.

מקור שני – סקר על מותגים מצליחים בפייסבוק וטוויטר. הסקר, שפנה ל-1000 “צרכנים מקוונים”, להגדרתם, נערך באוגוסט 2009, כשלטוויטר היו הרבה פחות משתמשים, והרבה הרבה פחות מותגים. אבל התוצאות של הסקר – 25% ממשתמשי טוויטר עוקבים אחרי מותג – הגיעו ישירות לגרפיקה שלנו, ביוני 2011. היאח לעדכניות.

שני המקורות הבאים באים מאתר התכנון של Google Ads, מקור עדכני יחסית למידע על תעבורת אתרים. אבל משהו מוזר קפץ לי לעין. שני ה-URLים שהם פירסמו ברשימת המקורות מכילים, כחלק מהכתובת, את הפרמטרים של המידע. משום מה הם קישרו למידע על טוויטר המתייחס לארה”ב, אבל למידע על פייסבוק בכל העולם (שימו לב להבדל בין geo=US לבין geo=001). blah

מה שכן, אני לא באמת חושב שהיה כאן בלבול של נתונים אמריקאיים על עולמיים, אלא פשוט רשלנות בהעתקת הכתובת. אני מקווה. הלאה!

קפצנו (טיפה) קדימה בזמן, ליולי 2010. בלוגר מביא נתונים, ברובם מאותו אתר של Google Ads, על רמת ההשכלה וההכנסה של הגולשים באתרים. נראה שהרבה נתונים הגיעו מכאן לגרף הסופי שלנו, אם כי לא הכל תואם. אני מניח שהם שילבו בין נתונים מכמה מקורות, אבל זה גורם לך לתהות על סמך אילו שיקולים? למה להתייחס לבלוג הזה בכלל, אם אפשר ללכת ישירות למקור שלו (Google Ads) ולהביא מידע עדכני יותר? כנ”ל המקור הבא, בלוגר נוסף שפשוט עשה עבודת ריכוז של כמה בלוגים אחרים, ושל אתר פייסבוק עצמו.

אתר הסטטיסטיקות של פייסבוק הוא מקור די מקיף של נתונים, אבל הוא סובל מכמה בעיות. גם העובדה שהוא לא מעודכן באופן רציף ונמנע באדיקות מלציין תאריך לנתונים, ובנוסף, כמובן, העובדה שהוא מכיל רק את המידע שפייסבוק רוצים לפרסם, בלי שום ביקורת עליו.

האתר הבא, עם השם המבטיח SmartDataCollective, מפנה אותנו לדו”ח על טוויטר מאפריל 2010, שממנו נגזרים חלק מהנתונים, כמו ה-87% חשיפה של האמריקאים לטוויטר. כמובן, לפי אותו דו”ח רק 17 מיליון אמריקאים בעצם משתמשים בטוויטר (לעומת 106 מיליון בגרף שלנו) ושני שליש מהם עושים זאת דרך טלפון סלולרי (לעומת 37% בגרף שלנו), כך שקשה לי ליישב את הנתונים הללו אחד עם השני.

המקור הלפני אחרון מוביל לאתר הרציני, לרוב, SearchEngineLand, שמביא השוואה בין פייסבוק, טוויטר וגוגל באזז – מה שכבר מראה לכם עד כמה הוא לא עדכני, מפברואר 2010. האתר מביא לנו נתונים שלא ממש הגיעו לגרף שלנו, אבל מוסיף התרעה שלגמרי עברה ל-Digital Surgeons מעל הראש: הנתונים הללו הם לא מקבילים. כתוב לנו בגרף ש-52% ממשתמשי טוויטר מעדכנים כל יום לעומת 12% בפייסבוק, אבל שכחו לציין שבטוויטר כל פעולה היא עדכון סטטוס, בעוד בפייסבוק אתה יכול להגיב לסטטוס אחר, לפרסם תמונה או פשוט לעשות לייק, ולא להחשב במניין עדכוני הסטטוסים. תפוחים, תפוזים – מה זה משנה, כולם עגולים, לא?

ואחרון אחרון חביב, המקור שלגמרי שבר אותי – The Ultimate List: 100+ Twitter Statistics. אתר (מלפני שנה, כן) שמרכז עשרות אינפוגרפיקות שונות על טוויטר. בלי רשימת מקורות. בלי תאריכים. עם סתירות פנימיות על כמעט כל נתון ונתון. חלקם חסרי משמעות, חלקם חסרי פואנטה, חלקם פשוט לא רלבנטיים. אנחנו יכולים למצוא בגרף אחד את מס’ המשתמשים בטוויטר ש-DigitalSurgeons בחרו לקחת, בגרף אחר את התפלגות הגילאים (אבל לא את ההכנסה, למרות שהיא צוינה. את זה ניקח ממקום אחר). מילא שהם עושים כאן Cherry picking, בוחרים את הנתון שמתאים להם מכל גרף אחר – הם גם לא מתבססים כאן על אף מקור סמכותי. יש כאן קניבליזציה של מידע מאתר לאתר, כשכל אתר מסתמך ב-100% על המקורות שלו בלי לפקפק, ויוצר web of trust שהוא גם שבור מבחינת אמינות, וגם משנה את המידע, צעד אחר צעד, כמו משחק טלפון שבור (ותודה שוב לשחר על הדימוי).

ומה יש לנו בסוף? יש לנו כתבה של חורימבה שמסכמת נתונים מתוך אינפוגרפיקה, שהסתמכה על אתר שמכיל אינפוגרפיקות אחרות, שמסתמכות בעצמן על בלוגר שראה אותן באינפוגרפיקות אחרות, והרגיש שהוא היה חוקר אחראי, בגלל שהוא לקח גם את הנתונים הרשמיים שפייסבוק וטוויטר פרסמו וראה שהם לא סותרים… יותר מדי. וזה המידע המוצק שאח”כ מתפרסם בעיתונות הטכנולוגית. ואז מצוטט בוויקיפדיה. שהופך להיות מקור המידע הסמכותי שלנו, ולהזניק דור חדש של אינפוגרפיקות מיותרות.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *