מגופי ממשל לעיתונות ולקורא – איך אמון עיוור משמר טעויות

נתקלתי היום בכתבה הזו: 'הביקוש ללימודי מדעי החברה יורד והפקולטות במשבר'.

משהו במספרים שלה נראה לי קצת חשוד:

כתוב בה שבשנה הקרובה כ-6,700 סטודנטים ילמדו בפקולטות למדעי החברה. ממש ליד המספר הזה מצוין ש-310 אלף סטודנטים "יתקבלו בשערי המוסדות להשכלה גבוהה", וש-193 אלף סטודנטים "יתחילו את לימודיהם לתואר ראשון".

students

אם זה נכון, מדובר בהודעה מפוצצת: רק 3.4% מהסטודנטים שמתחילים את לימודיהם (ואולי אפילו 2.1% מתוך 310 אלף, אם הכוונה היא לכלל ציבור הסטודנטים) ילמדו השנה מדעי החברה. לפי הכתבה רק לפני שנה תלמידי מדעי החברה ומנהל עסקים היוו יחד כ-29.1% מכלל הסטודנטים לתואר ראשון, כלומר כ-56.1 אלף סטודנטים. האם מתוכם רק 6.7 אלף, כ-12% למדו בפקולטות למדעי החברה?  לפי ההיגיון הזה הפקולטות לניהול צריכות להיות מלאות עד אפס מקום והבניינים של מדעי החברה אמורים לעמוד כמעט שוממים. איך אפשר להסביר את הפער הזה?

בואו ננסה לפרק את הקבוצה הזו, של "מדעי החברה ומנהל עסקים": לפי המל"ג, בשנת הלימודים תשע"ג למדו מדעי החברה כ-21% מהסטודנטים לתואר ראשון (כ-41 אלף סטודנטים) ובמינהל עסקים היו כ-12.2% (23 אלף). (עמ' 17 כאן). שיעור של כמעט שני תלמידי מדעי החברה על כל תלמיד ניהול. בשנת הלימודים הקודמת (תשע"ו), אפילו אם נעגל את ה-6,700 לעשרת אלפים סטודנטים למדעי החברה, עדיין נעמוד על 46.3 אלף סטודנטים לניהול ולמנהל עסקים. האם הגיוני שתוך שלוש שנים הפך היחס מ-1:2 לטובת מדעי החברה ליותר מ-4:1 לטובת הפקולטה לניהול? היה אפשר לצפות מהפקולטות לניהול לגייס צוות בכמות היסטרית רק כדי לעמוד בביקוש.

אז זהו, שעיון בנתונים שפרסמו המל"ג (שלדעתי היו המקור לכתבה) מעלה שבכתבה ואולי אפילו בפרסום המקורי של המל"ג נעשה עירוב בין כמה קבוצות שהוביל לתוצאה המבלבלת: בין תלמידי אוניברסיטה וסטודנטים בכלל ובין סטודנטים לתואר ראשון וסטודנטים שמתחילים תואר ראשון. אפרט:

בכתבה מופיעים ליד המספר "6.7 אלף סטודנטים שילמדו בפקולטות למדעי החברה" שני מספרים שאפשר לראות את ה-6.7 אלף כחלק יחסי מהם: 310 אלף סטודנטים שילמדו השנה ו-193 אלף שיתחילו את לימודיהם לתואר הראשון. האם 6.7 הסטודנטים הם כלל מי שילמדו מדעי החברה, כלומר 2.1% מ-310 אלף? לא: עיון בעמ' 8 בפרסום של המל"ג מעלה ש-6,700 (ויותר נכון 6,690) הוא מספר התלמידים שיתחילו ללמוד השנה במדעי החברה. סביר שאם נספור את כלל הסטודנטים למדעי החברה, כולל אלו שהחלו את לימודיהם, נגיע למספר גבוה יותר. 

אז האם צריך לספור את אותם 6,700 מתוך מי שמתחילים את לימודיהם לתואר ראשון היום (193 אלף)? על פניו נשמע הגיוני, עד שמבינים שב-"יתחילו את לימודיהם לתואר ראשון" הכוונה היא שהם מתחילים את שנת הלימודים, גם בשנים מתקדמות יותר. מספר הסטודנטים החדשים לתואר ראשון השנה הוא 58.7 אלף (כפי שמופיע בעמ' 6 המדובר), כך שחלקם של ה-6,700 סטודנטים חדשים למדעי החברה הוא לא 3.5% מתוך 193 אלף, אלא 11.5%. בהחלט רחוק ממספרם לפני עשור, אבל אחד מתוך עשרה הוא לא אחד מתוך חמישים.

אבל קריאה יותר זהירה וביקורתית של פרסום המל"ג מעלה עוד אפשרות: אם נסתכל על עמ' 8-7 בפרסום, ממנו הגיע המספר 6,700 (או יותר נכון, 6,690), נראה שמופיע שם גם יחס המועמדים למתקבלים (במדעי החברה הוא עומד על 1.5, כשכל שהוא גבוה יותר כך המקצוע יותר מבוקש). זה מידע שמופיע רק בנוגע לאוניברסיטאות וללומדים בהן, בלי המכללות, ורואים זאת גם בפיסקה שלפני וגם בפיסקה שאחרי הנתון על מדעי החברה. ייתכן שהשינוי מעשרת אלפים סטודנטים (ש"ביקשו ללמוד מדעי החברה" לפני עשור) ל-6,700 הוא מתוך תלמידי אוניברסיטאות בלבד, ואם זה נכון (והדרך היחידה לדעת בוודאות היא לשאול את המל"ג), לפי עמ' 6 במסמך המל"ג יתחילו השנה ללמוד כ-22.5 אלף סטודנטים תואר ראשון שנה א' באוניברסיטאות. מתוך המספר הזה, 6,700 הסטודנטים שיתחילו ללמוד במדעי החברה הם כ-30%, מה שמתיישב יפה עם הנתונים מהשנים הקודמות 1.

students_annotated

חיזוק נוסף אפשר למצוא בנתוני הלמ"ס על הסטודנטים לתואר ראשון בישראל. הנתונים תואמים בקירוב את המספרים שמציגה המל"ג אבל מפולחים אחרת. לפי נתוני הלמ"ס, בשנת הלימודים תשע"ה היו באוניברסיטאות כ-21 אלף סטודנטים למדעי החברה (ועוד כ-2,500 בניהול ומנהל עסקים). אם ניקח את המספר של 21 אלף סטודנטים ונחלק אותו ב-3, מספר השנים בו מרבית הסטודנטים למדעי החברה מסיימים את לימודיהם, נגיע ל-7,000 סטודנטים בשנתון בממוצע. המספר הזה מתאים לנתון של 6,700 סטודנטים מתחילים ולמגמת הירידה בין השנים. להבדיל, בכל המוסדות האקדמיים יחד היו כ-37.6 אלף סטודנטים למדעי החברה, או כ-12.5 אלף בשנתון ממוצע- גבוה משמעותית מהנתון שהוצג על מספר הנרשמים האפשרי. ירידה מ-12.5 אלף ל-6,700 סטודנטים חדשים תוך שנתיים, אני מקווה שתסכימו איתי, היא סיפור הרבה יותר גדול מירידה של 33% לאורך עשור. משהו בנתונים המקוריים לא מסתדר, עד שמוסיפים את המילה "באוניברסיטאות" ליד המספר 6,700, ואז הכל הופך להרבה יותר הגיוני.2

לסיכום, שתי מסקנות:

  1. בבלוג הזה עולות בדרך כלל שגיאות של גרפיקאים, אבל גם הניתוח העיתונאי לא חף מבעיות. קל מאוד בכתיבת כתבה או תחקיר  להסתכל רק על הכותרת או על סיכום הנתונים, אבל אפשר לצפות מעיתונאים שיודעים לבקר את מדיניות מוסדות המדינה לבחון בעין ביקורתית גם נתונים שאפילו במבט הראשון מתמיהים. מגמות חברתיות הן עניין של שנים והן לא ברורות בדרך כלל. למעשה, במרבית המקרים בהם הכותרת מעידה על משבר או שינוי דרסטי, צריך להסתכל בזהירות האם כותרת מייצגת יותר הייתה יכולה להיות 'למרות ראיות אנקדוטליות, המצב הכללי דיי אותו הדבר'.
  2. קל לקבל פרסומים ממשלתיים כנכונים וללא עוררין. קל לשכוח שנתונים שמפרסמים גופי ממשל דומים מאוד למחקרים אקדמיים: הם מלאים בסייגים ובהגדרות מדויקות שחשוב לשים לב אליהן בניסיון לנתח את הנתונים, וגם בהם ייתכן והכותב שגה או עשה טעות סופר. הדייקנות והביקורתיות הנדרשות חשובות באקדמיה, כמובן, אבל עוד יותר בקריאת מסמכי ממשל, עליהם מקבלי החלטות מתבססים הרבה פעמים בבואם להקצות את תקציבי המדינה או לקבוע מדיניות ממשלתית.

  1. וזה אם אנחנו מקבלים את ההנחה שמדובר במספר של מי ש*ילמדו* בפקולטה *השנה* (תשע"ז), ומתעלמים מכך שמדובר על מספר ה*מועמדים* משנת הלימודים *תשע"ה*. ואגב, פנייה לקהל הרחב- אם מישהו מצליח להבין מה הגדרת המל"ג המדויקת ל"מועמדים" ואיך זה עובד עם בחירת עדיפות שנייה ושלישית, אשמח לדעת. []
  2. ובכלל- ההתעסקות בירידה במספר הסטודנטים באוניברסיטה היא חסרת בסיס בלי המידע על מספר התלמידים במכללות. ייתכן (גם אם לא סביר) שמספר הסטודנטים במדעי החברה ירד באוניברסיטאות ועלה במכללות, במיוחד בהתחשב בכך שבעבר הייתה תחרות עזה יותר על כל מקום פנוי באוניברסיטה []

מה לעשות כשאין לנו סיפור

אינפוגרפיקות, כפי שאמרנו כאן פעמים רבות, הן כלי נהדר לספר סיפור. הן מאפשרות לנו לקחת את חומר הגלם של הנתונים ולייצור ממנו מסר חד ומדויק. או לטשטש אותו, כמובן. האינפוגרפיקות יכולות לעזור לנו להפוך טבלה משעממת למסקנה ברורה. בהנחה, כמובן, שיש לנו מסקנה. בהנחה שיש לנו סיפור שאנחנו רוצים לספר. אם לא, אז כל מה שיש לנו זה… גרף. ואז צריך לחפש גימיק להצדיק את הגרף שלך, גם אם הוא לא ממש תורם משהו לאינפו, רק לגרפיקה.

במקרה דנן, יש לנו מידע מארגון הבריאות העולמי, חלק מהאו”ם, על התפלגות צריכת אלכוהול במדינות שונות. לכל מדינה יש לנו מידע על כמה מהאלכוהול שנצרך בה נצרך בצורת בירה, יין, משקאות חריפים או אחר.

אפשר היה להוציא כל מיני תובנות מהמידע הזה. אפשר היה לראות התפלגות של סוגי משקאות משכרים ע”פ יבשת (זה מידע שכלול ב-dataset המקורי). אפשר היה להוציא Outliers – מדינות שבהן סוג אחד של אלכוהול בולט במיוחד לכאן או לכאן. אפשר היה לעשות כל מיני דברים. אבל במקום זה, השקיעו באתר FlowingData באנימציה אינטראקטיבית שגורמת לשלוליות הנוזל שמייצגות את הגרף לזוז כשהעכבר עובר עליהן.

image

אז מה יש לנו כאן, בעצם? אנחנו רוצים להשוות גודל יחסי של ארבעה נתונים, חלקים מתוך שלם. מסורתית, יש לנו את גרף העוגה המושמץ בשביל זה:

image

אבל לא, זה יהיה קל מדי. במקום זה, הם הלכו על משהו שבמקום להראות גודל יחסי מתוך שלם, מראה רק גודל יחסי, כמו גרף עמודות, שאומנם מאבד את אפקט הסך-הכל, אבל עדיין נותן השוואה יחסית ברורה:

image

במקום זה, יש לנו גרף שנותן לנו השוואה *די* קרובה של הגדלים. אבל בגלל הצורה האמורפית שמתרחבת ומתכווצת כשמתקרבים אליה. האם בתמונה כאן למעלה קל לראות שהבלוב של המשקאות החריפים גדול יותר מזה של הבירה? לא ממש. אנחנו צריכים להסתמך על המספרים בשביל לדעת מה הערך האמיתי – ואם זה המצב, למה בכלל יש לנו אינפוגרפיקה?

סחרחורת עמודות

רוב הדוגמאות שעלו כאן בבלוג סביב גרף עמודות נסובות סביב הטריק הקלאסי של קיצוץ בסיס הצירים, מה שמקצין שונוּת ומכפיל הבדלים. לפעמים גם אפשר להנות מבחירה מפוקפקת של סדר העמודות שנועד גם הוא לטשטש את הסיפור – כולן דוגמאות שכבר היו לנו. ואני שמח שכעיוותים כאלה צצים, יש אנשים טובים שכבר רגישים לנושא ומעמתים את המפרסמים עם זה.

לכן שמחתי כשקיבלתי דוגמא לסוג חדש של הטיה בגרף עמודות. לא עוד קיצוץ בסיס הצירים (טוב, יש גם את זה). לא עוד סדר עמודות לא ברור (האמת? זה גם). לא, כאן יש לנו דוגמא נהדרת לאיך אפקט תלת-מימד לא רק שלא עוזר, הוא אקטיבית מפריע.

הנה גרף שפורסם בעמוד הפייסבוק של המתפ”ש – גוף תיאום פעולות הממשלה בשטחים, המציג תנועת משאיות במעבר כרם שלום (השארתי רק את הגרף – את התמונה המלאה אפשר לראות בקישור)

image

על פי הכותרת, מדובר על נתונים שנאספו בין ה-28.2 ל-03.3, כלומר חמישה ימים, מה שמרמז שהעמודות מייצגות את הימים, וכנראה מסודרות כרונולוגית, אבל באיזה סדר? מימין לשמאל? שמאל לימין? התמונה כולה באנגלית, מה שגורם לי לחשוב שהמוקדם יותר הוא משמאל, אבל טווח התאריכים בכותרת דווקא רשום מימין לשמאל, מה שמבלבל. בהתחלה חשבתי שהמספרים בתחתית הגרף הם השנתות של הציר, אבל הן לא – הן סתם עוד פריט מידע נוסף.

image

אבל סדר העמודות הוא בעיה פחותה יחסית, וגם הקיצוץ המתבקש בבסיס הצירים הוא מהצפויים. הבעיה הראשית היא שהגרף מוצג בהיטל איזומטרי לא ברור, שגם מעוות במעין עדשת עין-דג. הטכניקה קבועה שלי של מדידת פיקסלים ב-Paintbrush נהיית מסובכת כשהקווים כולם אלכסוניים, ולא באותה זווית כולם!

image

העקמומיות הזו של הקווים, העובדה שהעמודות לא מוצגות באופן ישר אחד ליד השניה, אלא שהבסיס של כל אחת נמצא בגובה שונה, בהיטל שונה, בזווית שונה אחד מהשני, מאפס את המטרה הרשמית, הראשית והמפורשת של גרף עמודות, שהיא לאפשר השוואה ויזואלית ואינטואיטיבית של גדלים. במקום זה יש לנו שתי עמודות המבוססות על אותו נתון (749 משאיות) שהפרש הגדלים בין שתי פינות שלהן גדול יותר מאשר ההפרש בין עמודת ה-749 השניה לבין ה-743 שאחריה. וההפרש בין 749 ו-753 מיוצג בכ-20 פיקסלים –פי ארבע מה-5 פיסקלים של ההפרש בין 749 ו-743. וזה, כמובן, בלי שדיברנו על הצניחה הקיצונית ל-714.

וכמו במקרים רבים, לא מדובר כאן על חוסר הקפדה על יצוג הנתונים. מדובר על גרף שנוצר ע”פ נתונים, אולי, אבל שאז ישב מעצב גרפי והיטה כל עמודה בפני עצמה (מה שבכלל לא אפשרי בפונקציית העמודות התלת מימדיות של אקסל, לפחות במהדורת 2007 שמותקנת אצלי) או שהשתמש בפונקציית היטל שמתעלמת מהאספקטים האינפוגרפיים של הציור. יכול להיות שזה נעשה משיקולי אסתטיקה. יכול להיות שמשיקולי “גם ככה זה לא משנה”. בכל מקרה, זה מבהיר שיצור מדויק של המספרים לא היה השיקול הבולט.

כשמאה הוא לא מאה (אחוז)

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

image

image

ה-9.9% החסרים

אחד הנושאים הכי חמים בפוליטיקה העולמית בשנים האחרונות הוא סוגית ה-1% – או במילים אחרות, סוגיית פערי ההכנסה בין השכבות העליונות לשאר האוכלוסיה. הסוגיה הזו היא חשובה, אולי מהחשובות יותר בכלכלה והחברה של ימינו, אבל היא הולידה, לצערי, משפחה של גרפים בעייתיים שמציגים אותה.

הנה גרף שהתפרסם בעיתון ה-Economist לפני כחודשיים, שמציג תמונה היסטורית על פערי הכנסה בחברה האמריקאית:

image

אין לי בעיה עם הפרזנטציה של הגרף (שהיא גם אינטראקטיבית, והגרף הצבעוני למעלה נותן חתך של כל העשירונים באותו עשור), אלא עםם הנתונים שנבחרו להצגה בגרף התחתון: יש כאן בחירה של שני נתונים קיצוניים שלא מכסים את כל טווח הערכים – יש גרף של ה-0.1% העליונים, ושל ה-90% התחתונים. מה קרה ל-9.9% הנותרים? למה הם לא בגרף?

הם לא בגרף, אני מנחש, כי אם הם היו בגרף, הוא לא היה כל-כף יפה וסימטרי. מה היה קורה אם הוא היה מעמת את ה-0.1% עם ה-99.9% הנותרים? אז כנראה שהגרף הכחול, התחתון, היה שומר על פער נאה מעל החום. ומה אם היינו מעמתים את ה-90% עם ה-10% שמעליו? אז כבר מההתחלה החום היה נשאר הרחק מעל הכחול. ולמה 90%? למה לא 80%? אם העלמנו 9.9%, אפשר באותה מידה להעלים 19.9%, לא?

ומה אם הינו מציירים ארבעה קווים על הגרף, כמו ארבעת הצבעים שמעל? שמחלקים באופן מעריכי ל-90%, 9%, 0.9% ו-0.1%? אז היינו מקבלים יותר בלאגן, ואולי יותר תנודתיות , ולא היתה לנו את תנועת המלקחיים היפה הזו שמספרת את הסיפור שרוצים לספר, על אלפיון עליון עשיר שנהיה עשיר עוד יותר, ותשע עשירונים תחתונים שנהיים עניים יותר ויותר. וזה סיפור שלדעתי נכון לספר וחשוב לספר, אבל אולי כדאי, במקום לטפוח לקוראים על הראש ולהגיד “הנה סיפור יפה, לעסתי אותו בשביל שאתם לא תצטרכו”, אפשר היה להציג גם את הנתונים שלא מסתדרים הכי יפה, ולהאמין שהסיפור שלך חזק מספיק גם בלי להעלים נתונים.

ותוספת: הנה גרף נוסף, שקישרתי אליו כאן לא מזמן, עם בדיוק אותה בעיה – 90 + 0.1 ≠ 100

עונת בחירות, עונת הטעיות

עם ההכרזה על פיזור הכנסת והליכה לבחירות, ידעתי שהגיע הזמן להעיר את הבלוג ממרבצו ולהתחיל לפרסם שוב. עם הבחירות באים הסקרים – אפילו שעוד מוקדם לסקרים רציניים – ועם הסקרים מגיעות האינפוגרפיקות המטופשות, מוטות וסתם שגויות.

הקוראים ענבר רובין ואסף שרייבר שלחו לי, כל אחד בנפרד, פוסטים בפייסבוק של בוז’י הרצוג ושל ציפי לבני, כל אחד בנפרד, ובו תמונת מסך מחדשות ערוץ 2 והסקר החדש שלו:

כאן אנחנו, כמובן רואים את מיטב הפספוסים המוכרים לנו – החל מסידור של עמודות שלא בסדר עולה וכלה בעמודה אחת שלגמרי לא פרופורציונאלי למספר שלה – בעוד כל העמודות נעות בסביבות 3.4-3.8 פיקסלים למנדט, ישראל ביתנו מיוצגת בכ-6.6 פיקסלים למנדט.

אבל אני די משוכנע שלא היתה כאן כוונת זדון או הטעיה. לא מצד חדשות ערוץ 2, שם כבר יש גרף מתוקן שבו כל העמודות משחקות באותו מגרש, ולא מצד הרצוג ולבני, שסביר להניח שכ”כ התרגשו מתוצאות הסקר שבכלל לא הסתכלו על שלושת המפלגות בצד שמאל, והתמקדו במאבק של הרשימה המשותפת שלהם מול הליכוד.

אני מקווה לראות בעונת הבחירות הזו הרבה גרפים גרועים, ואני שמח לראות שאנשים קשובים יותר מתמיד. שלחו לי דוגמאות גרועות במיוחד, ואני אשמח לפרסם אותן!

בין יחס לעוגה

אחרי כמה שנים ככתב טכנולוגי, ההערכה שלי לאתרי חדשות טכנולוגיה היא לא מהגבוהות שבהן, ובטח שלא כשזה מגיע לשימוש שלהן באינפוגרפיקה. לכן לא הופתעתי לראות – ולהתעצבן – מהגרף הזה, שהגיע מאתר Mashable, בנוגע (משום מה) לחלוקת ההון בארה”ב:

מה אנחנו חושבים שאנחנו רואים כאן? את החלוקה של ההכנסות השנתיות בין העשירון העליון לבין תשעת העשירונים התחתונים, לא? אה, לא, רגע, בין האלפיון העליון ל-999 האלפיונים התחתונים. אה, גם לא? אז מה בעצם יש לנו כאן? ולמה שני הפלחים לא לגמרי מתואמים?

מה שיש לנו, כרגיל, זה גרף שנראה כמו עוגה שמגויס לתפקיד שהוא לא תוכנן אליו. גרף עוגה בא להראות איך סכום כלשהו – 100% כלשהם – מתחלקים בין חלקים שונים. אבל הגרף הזה לא מנסה להראות איך 100% מההכנסות השנתיות בארה”ב מתפלגות. הוא רק בא להראות שקבוצה א’’ (האלפיון העליון) וקבוצה ב’ (תשעת העשירונים התחתונים) מכניסים סכום דומה. לאיפה נעלמו ה-9.9% הנותרים? הם לא רלבנטיים, כי הגרף לא מדבר על ה-100% מההכנסה – רק על השוואה יחסית. וחוס התיאום בין שני הפלחים של העוגה מראים לנו שאין לנו כאן באמת עוגה, אלא רק שני פלחים שמוצמדים זה לזה.

כשהתחלתי לחשוב על זה, ראיתי שזה לא בעצם השוואה שכל כך קל לעשות באופן גראפי פשוט. דרך אחת אפשרית היא לעשות גרף עמודות שמשווה את ההכנסה של האלפיון העליון להכנסה הממוצעת של אלפיון בודד מתוך תשעת העשירונים התחתונים. אבל עם הפערים הללו, קשה להעביר נקודה אינפוגרפית משמעותית. הנה הנסיון שלי של גרף עמודות פשוט באקסל:

image

היחס כאן הוא 1:900, וזה פשוט לא עובר טוב בגרף ברזולוציה נורמלית. ומעבר לזה, ממוצעים תמיד מרדדים את התמונה – מה זה “אלפיון ממוצע מתשע העשירונים התחתונים”? זו מטריקה חסרת משמעות.

צורה אחרת להראות את זה היא הפוכה – להראות את אותו היחס, 1:900, מבחינת כמות האנשים שמרכיבים את הקבוצות הללו – להראות עד כמו 0.1% מהאוכלוסיה, אלפיון בודד, הוא קטן יותר מ-90% מהאוכלוסיה – כלומר להשאיר את ההכנסה כקבוע, ולהתייחס להפרשי גדלים בקבוצה, וזו כבר הסתכלות יותר משמעותית – הסכום לא משנה, רק היחס בין כמות האנשים. ואז ראיתי ש-Mashable בעצם כבר עשו את זה – הגרף שלמעלה, שמשותף ברחבי המדיה החברתית, הוא רק חצי מהגרף שבאתר:

image

וככה זה נראה כשאותו הגרף מייצג את היחס בגודל האוכלוסיה שמחזיקה בהכנסה הזו. לא ספרתי פיקסלים הפעם בשביל לבדוק את חצי העיגול האדום באמת מכיל פי 900 פיקסלים מאשר הירוק, אבל גם אם לא, זה קרוב מספיק ומעביר את הנקודה. והכי חשוב – מראה שלא מדובר כאן בגרף עוגה, אלא פשוט בהצגת יחס גודל בין שני חצאי עיגול.

נו. ולא יכלו למצוא משהו פחות מבלבל?

הרצאה: שקרים יפים ב-Wize

אני אעיר את הבלוג מתרדמתו (הזמנית!) בשביל קצת פרסום עצמי:

בשבוע הבא, יום ד’ ה-22 לאוקטובר, בשעה 20:00 אני אעביר הרצאה על הטיות והטעיות באינפוגרפיקה, במסגרת ההרצאות של ארגון Wize. פתיחת דלתות ב-19:00.

ההרצאה, שתקרא גם היא “שקרים יפים”, תועבר בפאב הביר גארדן ברח’ ריינס 2 בת”א (כיכר דיזנגוף), ותעבור על דוגמאות לאינפוגרפיקות מטעות, מעוותות או סתם לא ברורות, מהסוג שהבלוג אוהב להביא.

הכניסה היא בחינם, אך יתכן שיגמרו המקומות בשלב כלשהו. בואו, שתו בירה ושמעו אותי מדבר, יהיה כיף!

הפיתוי המתוק של הנתונים: רשימת קריאה

ב-22/4/2014 העברתי, במסגרת סדרת הרצאות “ספקנים בפאב”, הרצאה בשם “הפיתוי המתוק של הנתונים”, אשר התמקדה בהיסטוריה של הנתונים, המספרים והגרפים בחברה שלנו, ואיך הם זכו למעמד המכובד שלהם.

בפוסט הזה אני ארכז את השמות של הספרים, הכותבים והמאמרים שהתבססתי עליהם בהכנת ההרצאה, למי שרוצה קריאת המשך מעמיקה יותר.

  1. Objectivity, מאת לוריין דאסטון ופיטר גליסון, ספר שמדבר על עלייתו של מושג האובייקטיביות והפיכתו לבעל משמעות, ויש שיאמרו מרכזיות, בחברה המערבית המודרנית. ממנו הובאו הדוגמאות של ארתור וורתינגטון וטיפות המים.
  2. The Splash of a Drop, מאת ארתור וורתינגטון. ספרו המקורי של וורתינגטון, שפורסם ב-1895, ומכיל את האיורים והצילומים המקוריים שלו.
  3. Trust in Numbers, מאת תאודור פורטר. ספר המתאר את עלייתם של האובייטיביות והמדדים המספריים.
  4. The Averaged American, מאת שרה אייגו. הספר סוקר איך המתודה הסטטיסטית – איך הרעיון של “האמריקאי הממוצע” כישות בעלת משמעות, ואיך שילוב של צרכים שלטוניים, עלייתה של תקשורת ההמונים ותעשיית הפרסום הפכו את הסקר, ובהשלכה ממנו את המידע הסטטיסטי המרוכז, לגורם מגדיר תרבות.
  5. A History of the Modern Fact, מאת מארי פובי. סקירה מרתקת של התפתחות העובדה המודרנית, כפי שאנחנו מכירים אותה היום, ואיך מספרים קיבלו מעמד המנותק מהפרשנות של המציאות, אלא הם המציאות עצמה.
  6. Leviathan and the Air-pump, מאת סטיבן שייפין וסיימן שפר. הספר מתמקד בהווי החברתי שוביל למהפכה התפיסתיית של רוברט בויל, ממייסדי מדע הכימיה והמתודה המדעית המודרנית, שהפך את הניסוי ותוצאותיו לחותם של אמינות ודיוק.

הרצאה: הפיתוי המתוק של הנתונים

עדכון מנהלתי קצר:  מחר, ה-22/4, אני אעביר הרצאה במסגרת ספקנים בפאב, ב"מקום לשבט", בקומה השניה מעל הבר קיימא, רח' המשביר 22, ת”א. הנה גם קישורים לאירוע בפייסבוק וב-Meetup.

ההרצאה, שכותרתה “הפיתוי המתוק של הנתונים”, תנסה לשאול לא רק איך האינפוגרפיקות משקרות לנו, הנושא המרכזי של הבלוג הזה, אלא גם למה הן כל כך אפקטיביות? מה יש בגרפים ובמספרים שזוכים למקום של כבוד בתור הנשאים הראשיים של האמת והמידע?

על כל זאת ועוד, מחר ב-21:00 בערב. בואו בהמוניכם!

worship-idol-licensed

Image credit: LuMaxArt2D / 123RF Stock Photo