אם אין להם מושג, שישימו עוגות

הקורא יואב (תודה, יואב) שלח לנו את רצף הגרפים הזה שהופץ בטוויטר, ומראה, כרגיל, שימוש מוטעה ומיותר לחלוטין בגרף עוגה, הגרף האהוב על עורכים שרוצים למלא פיקסלים על דף העיתון גם בלי שיהיה להם משמעות כלשהי.

רצף הנתונים הללו מראה את ממוצע השערים למשחק של שחקן כדורגל כלשהו (אני מניח), כשהסיפור שמנסים לספר, ע”פ הטקסט המצורף, הוא שאחרי ירידה בהישגים לאורך כמה עונות, השחקן חוזר imageלעצמו ולממוצע השערים שלו.

נעזוב שניה את העבודה שקשה לקבוע טרנד ע”פ רבע-עד-חמישית ממספר המשחקים המוצע לעונה, ונתמקד בעובדה שגרף עוגה הוא, כמו במקרים רבים, לא הגרף הנכון לסיפור הזה. גרף עוגה נועד להשוות בקלות בין כמה מרכיבים שונים שהם חלק משלם אחד. אבל כאן השוואה היא בין כמה עוגות שונות, מה שמקשה על הקורא להבחין באמת בהבדלים מעבר לרמה הגסה ביותר. אין לי דרך טובה להרגיש בעין עם 2016-2017 גדול מ-2017-2018, למשל. הגרף המתבקש והנוח להשוואה כזו הוא גרף עמודות פשוט, מסובב ב-90 מעלות כדי שילווה את הנתונים המספריים.

לא מסובך, נכון? אז מה גרם לעורך העיתון להחליט דווקא ללכת על עוגות? אני חושב שהגורם הוא הנתון שאותו הוא בא להציג, נתון שנראה, במבט ראשון, כמו נתון חלקי מהסוג שנרצה להציג בעוגה. הנתון הוא היחס בין השערים למשחקים – 8 מתוך 10, 17 מתוך 51, וכו’. “אה, מדובר על נתח מתוך כלל? אז זה גרף עוגה!” נעשה עוגה שה-100% שלה הוא ה-51, נדגיש את ה-17 מתוכו, ויש לנו עוגה!

אבל הנתון הזה, של ה-17/5/ או 19/52, הוא לא באמת נתון אמיתי. ה-17 שערים הם לא חלק מתוך ה-51 משחקים. זה לא שהמשחקים מורכבים משערים. הם פשוט משהו שקורה בתוך משחק. זה לא שונה מלהציג נתון של תאונות דרכים בחודש, נגיד, ולהציג גרף של “ב-10 חודשים מתוך 2017 היו 7 תאונות דרכים, אז נציג גרף עוגה שמלא ב-70%. ומה היה קורה אם השחקן היה מבקיע יותר משער אחד למשחק, בממוצע? איך היו מייצגים את זה בעוגה?

הנתון האמיתי שמדברים עליו הוא שיעור השערים למשחק. הוא יכול להיות פחות מ-1 או יותר מ-1, ואפשר להשוות אותו לשנים אחרות. אבל זהו. כל דבר אחר זה רק משחק עם ציורים.

כמה ון זה יותר מדי ון?

אני אוהב דיאגרמות ון. מי לא אוהב דיאגרמות ון? הנה, דיאגרמת ון, לא?

imageאז אתם יודעים מה? מסתבר שלא. זו לא ממש דיאגרמת ון. דיאגרמת ון, כך מסתבר, היא רק דיאגרמה שמחברת בין כל העיגולים שמשתתפים בה. אז שני העיגולים הלא נוגעים שם למעלה? לא דיאגרמת ון. דיאגרמה שבה יש עיגולים שלא חותכים עם כל העיגולים האחרים? לא דיאגרמת ון. מה אתם יודעים. אני הופתעתי.Venn diagrams vs Euler diagrams example using the card deck

אז מה הם כן, אם הם לא דיאגרמת ון? מסתבר שהם דיאגרמת אוילר (Euler), בעוד דיאגרמות ון באות להראות את כל החיתוכים וההצטלבויות האפשריים בין הקבוצות שמופיעות בתרשים, גם אם הן קבוצות ריקות, כמו הקבוצה של קלפים שחורים שהם גם יהלומים כאן, או של הקלפים השחורים שהם גם קלפים אדומים. או של קלפים שחורים שהם גם קלפים אדומים וגם יהלומים. דיאגרמת אוילר, לעומת זאת, באה להראות רק חיתוכים ויחסים שבאמת קיימים בנתונים שלנו – אם אין חיתוך בין קלפים שחורים ואדומים, אז העיגולים לא יחתכו. אם כל היהלומים הם גם קלפים אדומים, אז הם יהיו מוכלים בתוכם.

יותר מדי ון

אז מה בעצם אני רוצה ממכם, חוץ מלהתקטנן על טקסונומיות מדויקות של אלמנטים אינפוגרפיים? ובכן, כן, אני כאן בשביל להתקטנן על אלמנטים אינפוגרפיים (זוכרים איפה אתם?), אבל מעבר לזה, להגיד לכם שבזכות הגילוי הזה, העברתי הרבה מנאמנותי וחיבתי מדיאגרמות ון לדיאגרמות אוילר – הון של האדם השפוי. למה שפוי? בגלל דיאגרמת הן הזו שרצה לה באינטרנט בימים האחרונים:

עכשיו, זו ללא ספק בדיחה, אם כי אחת מושקעת, אבל שמראה את המגבלות של הפורמט הזה, של דיאגרמות ון. מה שנחמד בדיאגרמה הזו היא שאפשר היה לראות אותה גדלה ומתנפחת מיום ליום. זה התחיל פשוט, עם שלוש קבוצות:

Image result for venn diagram hands in the airכאן הכל עדיין לגמרי קריא. שלוש קבוצות + שלושה חיתוכים בין שתי קבוצות + חיתוך משולש = שבעה פריטים על הדיאגרמה, ואפשר להבין את הבדיחה. אבל האינטרנט, כידוע, לא יכול לתת לבדיחה טובה לשבת, ומהר מאד קיבלנו גרסה של ארבע:

Image result for venn diagram hands in the airכאן זה כבר מתחיל להיות לנו כבד וצפוף, כפי שהשינויים בגודל הפונט מראים. כאן כבר יש לנו 13 קבוצות שונות, ונהיה קשה להבין מי בעצם הוא חיתוך עם מי – I know you’re better than this זה של מטיפים, ושל.. רגע, דיג’ייז, ואז כנראה גם של האמא שמורידה סוודר לילד. אבל רגע, לא חסרים לנו חיתוכים בין שודדי בנק ומטיפים (בלבד) ובין אמהות ותקליטנים? אולי. לא יודע. בלאגן שם בפנים. אבל אז נחזור לגרסה של החמש שראינו קודם:

בכנות? אין לי מושג מה קורה שם ואני לא בטוח שיש לי כח להפריד את החוטים הסבוכים של החיתוכים שם. הבדיחה הבסיסית היא במחומש המרכזי המשותף, ברור. אבל כאן אפשר לראות שהמעצב הרגיש צורך להכניס צבעים בשביל להקל על פענוח התרשים. יש שם… 31 אפשרויות? אני לא בטוח. ללא ספק הרבה יותר מאשר בגרסה של ה-4. והצבעים לא לגמרי עובדים, כי מהר מאד השילובים של צבעי הפסטל הופכים לחום אפור ואין לך מושג ממש מה שייך למה.

דיאגרמת ון, בקיצור, נהיית *ממש* לא אפקטיבית בהעברת מידע אם יש לך יותר מארבע קבוצות. ברגע שהאינפוגרפיקה דורשת יותר מאמץ מאשר הנתונים הגולמיים, פספסנו משהו במטרה שלה. זה נכון שיש דרכים לשפר את הקריאות, וזה נכון שבקונטקסטים הנכונים, אתה יכול לצפות שהקוראים שלך יהיו מנוסים ומתורגלים יותר בפענוח התרשים, כמו למשל בתרימים כאלה של חפיפה של מאפיינים גנטיים בקבוצות אוכלוסיה דומות – הבחירה באליפסות במקום עיגולים, הצבעים החזקים וזוויות מקלים על מציאת ההקשר של כל מספר, אבל זה עדיין מורכב ומסובך.

A Venn diagram illustrating overlap of OTUs for nasopharynx, saliva, dominant hand and feces from healthy Chinese undergraduates. A total of 7916 OTUs were detected. Only thirty-seven OTUs were detected in all four habitats.

אז אני לא אומר לא להשתמש בדיאגרמות ון. ואני בטח ובטח לא אומר להמנע מבדיחות מבוססות דיאגרמות ון. אני רק אומר שלא למהר דווקא להשתמש בהם בשביל להעביר, באמת, מידע אמיתי בלי לחשוב על הסיטואציות שבהן זה מתאים.

ולסיום, כמובן, האינטרנט לא יודע מתי להפסיק.

 

מסרים צולבים

שר החינוך נפתלי בנט פירסם היום בחשבון הטוויטר שלו את הגרף הבא, עם ההאשטג “חינוך_בתנופה”, שבו הוא מתגאה בכך שבשנים האחרונות היתה ירידה במס’ ההולכים ללימודי משפטים, ועליה בלימודי הנדסה ומחשבים. אני לא אכנס לשאלה אם זה דבר טוב או לא, או מה כוללים הלימודים הללו (תארים אקדמאים בלבד? מכללות?) כי זה לא העניין כאן. העניין הוא, כמובן, הגרף, ומצג השווא הברור שהוא מנסה להעביר.

 

על גרפים מצטלבים כבר כתבנו לפני כמה שנים, ועל הבעיה הבסיסית שלהם – שהם מתיימרים להציג נקודה שבה נתון א’ “חצה” את נתון ב’, ולהתייחס אליו כהישג. בגרף הזה, נראה שהרגע הזה היה בין תשע”ה לתשע”ו (לא ברור בדיוק מתי, כמובן, כי לא ברור כמה נקודות-מידע יש, מה הרציפות שלהם, וכו’). מתישהו הצטלבו הגרפים, ויש לנו יותר תלמידי הנדסה מאשר משפטים. מה, לא?

הסוד בהטעיה הוא ששני הגרפים יושבים על אותו מרחב גרפי, אבל על צירים שונים. לומדי משפטים הם על ציר שבין 13,000-21,000, בעוד לומדי ההנדסה (פלוס מחשבים, כן? גם אלה שלא מקבלים תואר מהנדס, אבל נעזוב את ההטעיה הזו בכותרת) נעים על ציר שבין 43,000-51,000. כלומר גם אם הגרף האדום של המשפטים היה על החלק העליון של הגרף לכל אורכו, בעוד המשפטים היה על הקו התחתון, עדיין היה לנו פי שניים סטודנטים להנדסה (ומחשבים, וכו’) מאשר למשפטים. נקודת הפתיחה, שמראה כאילו יש יותר לומדי משפטים מאשר הנדסה (בכשליש(!) מגובה הגרף) היא מטעה, כי מדובר על כ-16,000 במשפטים לעומת כ-43,500 בהנדסה – כמעט פי שלוש.

אז מה באמת הנתונים אומרים? שהיתה לנו ירידה של כ-18% בלומדי משפטים (מ-16 אלף ל-13 אלף, ע”פ הגרף) ועליה של כ-16% בלומדי הנדסה (וכו’) (מ-43,500 ל-50,500, בהערכה גסה בעין).

ובינינו? זה לא מעט. לא יודע מה הגורמים, אבל שינוי של 15-20% תוך 5 שנים נראה לי לא מבוטל. הבעיה היא שזה לא הסיפור שהגרף מספר. הגרף מספר על הצטלבות, מהפך, שינוי העליונות מא’ לב’. זה הסיפור שגרף קווים מצטלב יודע לספר. אם היינו משנים את טווח הצירים להיות אחיד, היינו רואים משהו הרבה פחות דרמטי. אבל הדרמה זה העניין כאן, לא ההשוואה, הרי.

וככה זה היה נראה בגרף פשוט באקסל, בלי צירים נפרדים. הרבה פחות דרמטי, כמובן. וזה כשאני הדגשתי את ההבדלים ככל האפשר ע”י קיצוץ מערכת הצירים (ע”ע).

image

בין אבסולוטי ליחסי, בין נתח מהעוגה לנתח מהתמ"ג

אלאחרונה החלה להסתובב ברחבי האינטרנט טבלה שתומכת לכאורה בטענה של טראמפ שמדינות נאט"ו מטילות על ארצות הברית חלק לא פרופורציונלי מהוצאות הביטחון שלהן. הטבלה לקוחה מתוך פוסט באתר של פורבס שמתייחס לטענה. לטבלה הזו יש שתי בעיות (לפחות).

בעיה ראשונה

הטבלה לא מראה את שיעור המימון של נאט"ו על ידי המדינות החברות בארגון. למעשה, מה שהיא מראה הוא את שיעור ההוצאה לביטחון של מדינות אלה, בנתונים מוחלטים (מיליוני דולרים) וכחלק מן התמ"ג (התוצר המקומי הגולמי) שלהן. לנתון השני, החלק מן התמ"ג, יש משמעות (אסביר בהמשך מה היא), אבל שני נתונים אלה לא מראים את החלק היחסי של כל מדינה במימון של הארגון. הבחירה לתת את מרכז הבמה לסכום המוחלט של הוצאות הבטחון בהכרח יעלה את המדינות עם הכלכלה והצבא הגדולים יותר לראש הרשימה באופן לא פרופורציונלי, ולא יעביר את הנקודה שהוא מתיימר להעביר, שארה"ב תורמת באופן לא פרופורציונלי יחסית לגודלה.

בעיה שנייה

הטורים בשמאל הטבלה נראים נורא מרשימים, הם החלק הבולט ביותר בטבלה, אבל הם לא הנתון החשוב. הנתון החשוב מסתתר במלבנים הקטנים מימין, שהגודל של כולם זהה ורק המספרים בהם שונים – שיעור ההוצאה לביטחון כחלק מן התמ"ג.

וכך בריטניה מדורגת שנייה עם 55.2 מיליארד דולר שהם 2.1% מהתמ"ג, בעוד שיוון מדורגת במקום ה-12 עם 4.7 מיליארד דולר שהם 2.4% מהתמ"ג. ארה"ב, עם ההוצאה העצומה שלה והתמ"ג העצום שלה, נראית מובילה בפער ענק על השאר. אבל הפער בהוצאות המוחלטות בין ארה"ב לשאר המשתתפות מאד שונה מהפער בהוצאות היחסיות.

למה התמ"ג רלוונטי?

כדי להבין את זה צריך לזכור שהטענה של טראמפ לא חדשה, ממשלים קודמים בארצות הברית טענו טענה דומה. התוצאה הייתה שבשנת 2014 הגיעו מדינות נאט"ו להסכם שלפיו התחייבו עד שנת 2024 להעלות את הוצאות הביטחון שלהן ל-2% מהתמ"ג לפחות (ראו סעיף 14). כלומר, הדרישה של ארה"ב היא לא ששאר מדינות נאט"ו יסגרו את הפער בהוצאות הבטחוניות המוחלטות מול ארה"ב, מה שכמובן אין להן שום דרך לעשות. אלא שיעלו את ההוצאות שלהן יחסית לתמ"ג. הטבלה שלנו (שמתייחסת ל-2017) מציגה את המצב כאשר למדינות נשארו עוד שבע שנים לעמוד ביעד שלהן. הדו"ח של נאט"ו (זהירות, פד"פ) טוען שהן יעמדו ביעד הזה.

אם נבנה את הטבלה הזו מחדש, כשהפעם ניתן לאינפוגרפיקה המרכזית, הטורים, לספר את הסיפור האמיתי, זה של ההוצאה ביחס לתמ"ג, היא כנראה תראה כך:

מה השיעור האמתי של המימון?

ובכן, כדי לברר את זה אפשר לשאול את פי סוסי המלחמה של נאט"ו. באתר של נאט"ו אפשר למצוא נתונים על התקציב ולפיהם ארצות הברית תורמת כ-22% מהמימון הישיר של נאט"ו, אחריה גרמניה (14.7%) ובריטניה וצרפת (כ-10.5% כל אחת). כלומר ארה"ב תורמת מעט יותר מפי 2 מהמימון של בריטניה לארגון – בעוד שעל פניו, מהטבלה, עולה שארה"ב משקיעה פי 12 יותר.

כל אחד יכול להחליט אם השיעור הזה גבוה מדי או לא, אבל לפחות בואו נתבסס על נתונים רלוונטיים, ונבין מה הם הנתונים שמובאים בפנינו.

אינפוגרפיקה כריהוט, ריהוט כאינפוגרפיקה

לא כל יום יש לנו הזדמנות לחזות באינפוגרפיקה מוחשית. לא פיקסלים על מסך, ואפילו לא דיו על ניר, אלא חפצים מוחשיים, מוצקים, תלת-מימדיים – שבכל זאת אין בהם דבר מלבד אינפוגרפיקה, העברת מסר כמותי באמצעים חזותיים.

נאום נתניהו בקריה, הערב

אני מדבר, כמובן, על מסיבת העיתונאים של ראש הממשלה, בנימין נתניהו, בנושא האיום האיראני. "לפני כמה שבועות, ישראל השיגה חצי טון של מסמכים מהכספת – 55 אלף עמודים, עוד 55 אלף קבצים, 183 דיסקים – הכל העתק מדויק של החומר המקורי", אמר נתניהו, והציג לראווה בדיוק את זה – ארון מלא קלסרים, ו…מעמד? ויטרינה? מלאים דיסקים, להמחיש את המספרים הללו.

אבל די ברור, הרי, שהקלסרים הללו ריקים. די ברור שהדיסקים גם הם ריקים. גם אם המידע המודיעיני היה נשמר על דיסקים (ולמה, בעצם, בימינו?), אין הרי שום סיבה שהדיסקים עצמם יובאו למסיבת העיתונאים. מדובר בהמחשה ויזואלית של כמות. המטרה של הארוניות להעביר תחושה שיש המון מידע. ארונות שלמים! עשרות קלסרים! דיסקים! בקיצור – אינפוגרפיקה. העברת מסר מורכב באמצעים גרפיים.

מה שכן, מדובר כאן באחד מסוגי האינפוגרפיקות שאני הכי פחות מחבב, FacebookStats1הסוג שפשוט לוקח נתון מספרי, כמו הנתון הישן של פייסבוק שעליו כתבתי לפני שנים, ופשוט לחזור על הנתון המספרי בגרפיקה, להציג 130 אייקונים שמסמנים את 130 החברים. זו לא אינפוגרפיקה מתוחכמת במיוחד. היא לא מספרת סיפור מורכב. אבל היא אפקטיבית, בצורתה הפשוטה – היא מפילה עליך תחושה של גודל, של כמות, של אינטנסיביות, שמחזקות את המסרים שלך – יש לנו הרבה מידע. הרבה הרבה. לא מתוחכם, אבל אפקטיבי.

לחשוב מחוץ לצירים

כתבתי כאן בעבר כבר על החשיבות בבחירת טווח הערכים בציר המספרים של הגרף שלך. האם הוא מתחיל מ-0 ומגיע עד 100%? ואם הגרף הוא לא באחוזים, לאן הוא מגיע? כמה מעל נקודות המידע הגבוהה ביותר שלך צריך אותו?

אחת ההטיות הנפוצות ביותר שקשורה לבחירת טווח ציר המספרים היא קיצוץ בסיס הציר, כמו שכתבתי כבר כאן וכאן. אבל מעניינת לא פחות הבחירה בטווח המספרים שיכול לגרום לגרף להראות גבוה או נמוך, תלול או שטוח, כמו שרואים כאן. אבל לפני כמה ימים נתקלתי בשימוש שונה לטכניקה, לא קיצוץ בסיס הצירים, אלא דווקא קיצוץ הטווח העליון שלהם כך שיהיה נמוך מנקודות המידע שלו:

מה הגרף הזה אומר לנו בבחירה המוזרה הזו, שציר ה-Y מגיע עד 50%, בעוד שתיים משלוש נקודות המידע הן מעל 50%? יש כאן אולי רצון להדגיש את ההבדל בין 51/53 ובין 36, כי אם הציר היה מגיע עד 55%, נגיד, אז ההבדל בין 51% לבין 36% היה קטן יותר – אבל ההבדל קטן וזניח, לדעתי. פיקסלים בודדים. אבל מה הגרף הזה בכל זאת משדר לנו?

אני חושב שהבחירה לשים את נקודות המידע מעל לגבול העליון של הציר משדר, במובלע, שהנתונים הללו הם גבוהים, אבסולוטית. זו טענה שקשה לטעון בגרף השוואתי, כי הוא יכול רק להגיד לנו מה יותר, מה פחות. אבל הבחירה לתחום את הציר ב-50% נותן לגרף תוקף נורמטיבי מובלע, לדעתי, שמרמז ש-51% ו-53% זה גבוה מאד. זה גבוה מדי. זו לא טענה שבאה מהנתונים, כמובן. והיא לא טענה מפורשת. היא הסאבטקסט שאני מקבל מהבחירה העיצובית, האינפוגרפית הזו. וזה שימוש מעניין, לדעתי, בניואנסים של הכלי – בהנחה שהוא אפקטיבי, כמובן, ומעביר מסר כלשהו, עדין ככל שיהיה, לאנשים שלא משקיעים מזמנם בניתוח-יתר של גרפים.

מגופי ממשל לעיתונות ולקורא – איך אמון עיוור משמר טעויות

נתקלתי היום בכתבה הזו: 'הביקוש ללימודי מדעי החברה יורד והפקולטות במשבר'.

משהו במספרים שלה נראה לי קצת חשוד:

כתוב בה שבשנה הקרובה כ-6,700 סטודנטים ילמדו בפקולטות למדעי החברה. ממש ליד המספר הזה מצוין ש-310 אלף סטודנטים "יתקבלו בשערי המוסדות להשכלה גבוהה", וש-193 אלף סטודנטים "יתחילו את לימודיהם לתואר ראשון".

students

אם זה נכון, מדובר בהודעה מפוצצת: רק 3.4% מהסטודנטים שמתחילים את לימודיהם (ואולי אפילו 2.1% מתוך 310 אלף, אם הכוונה היא לכלל ציבור הסטודנטים) ילמדו השנה מדעי החברה. לפי הכתבה רק לפני שנה תלמידי מדעי החברה ומנהל עסקים היוו יחד כ-29.1% מכלל הסטודנטים לתואר ראשון, כלומר כ-56.1 אלף סטודנטים. האם מתוכם רק 6.7 אלף, כ-12% למדו בפקולטות למדעי החברה?  לפי ההיגיון הזה הפקולטות לניהול צריכות להיות מלאות עד אפס מקום והבניינים של מדעי החברה אמורים לעמוד כמעט שוממים. איך אפשר להסביר את הפער הזה?

בואו ננסה לפרק את הקבוצה הזו, של "מדעי החברה ומנהל עסקים": לפי המל"ג, בשנת הלימודים תשע"ג למדו מדעי החברה כ-21% מהסטודנטים לתואר ראשון (כ-41 אלף סטודנטים) ובמינהל עסקים היו כ-12.2% (23 אלף). (עמ' 17 כאן). שיעור של כמעט שני תלמידי מדעי החברה על כל תלמיד ניהול. בשנת הלימודים הקודמת (תשע"ו), אפילו אם נעגל את ה-6,700 לעשרת אלפים סטודנטים למדעי החברה, עדיין נעמוד על 46.3 אלף סטודנטים לניהול ולמנהל עסקים. האם הגיוני שתוך שלוש שנים הפך היחס מ-1:2 לטובת מדעי החברה ליותר מ-4:1 לטובת הפקולטה לניהול? היה אפשר לצפות מהפקולטות לניהול לגייס צוות בכמות היסטרית רק כדי לעמוד בביקוש.

אז זהו, שעיון בנתונים שפרסמו המל"ג (שלדעתי היו המקור לכתבה) מעלה שבכתבה ואולי אפילו בפרסום המקורי של המל"ג נעשה עירוב בין כמה קבוצות שהוביל לתוצאה המבלבלת: בין תלמידי אוניברסיטה וסטודנטים בכלל ובין סטודנטים לתואר ראשון וסטודנטים שמתחילים תואר ראשון. אפרט:

בכתבה מופיעים ליד המספר "6.7 אלף סטודנטים שילמדו בפקולטות למדעי החברה" שני מספרים שאפשר לראות את ה-6.7 אלף כחלק יחסי מהם: 310 אלף סטודנטים שילמדו השנה ו-193 אלף שיתחילו את לימודיהם לתואר הראשון. האם 6.7 הסטודנטים הם כלל מי שילמדו מדעי החברה, כלומר 2.1% מ-310 אלף? לא: עיון בעמ' 8 בפרסום של המל"ג מעלה ש-6,700 (ויותר נכון 6,690) הוא מספר התלמידים שיתחילו ללמוד השנה במדעי החברה. סביר שאם נספור את כלל הסטודנטים למדעי החברה, כולל אלו שהחלו את לימודיהם, נגיע למספר גבוה יותר. 

אז האם צריך לספור את אותם 6,700 מתוך מי שמתחילים את לימודיהם לתואר ראשון היום (193 אלף)? על פניו נשמע הגיוני, עד שמבינים שב-"יתחילו את לימודיהם לתואר ראשון" הכוונה היא שהם מתחילים את שנת הלימודים, גם בשנים מתקדמות יותר. מספר הסטודנטים החדשים לתואר ראשון השנה הוא 58.7 אלף (כפי שמופיע בעמ' 6 המדובר), כך שחלקם של ה-6,700 סטודנטים חדשים למדעי החברה הוא לא 3.5% מתוך 193 אלף, אלא 11.5%. בהחלט רחוק ממספרם לפני עשור, אבל אחד מתוך עשרה הוא לא אחד מתוך חמישים.

אבל קריאה יותר זהירה וביקורתית של פרסום המל"ג מעלה עוד אפשרות: אם נסתכל על עמ' 8-7 בפרסום, ממנו הגיע המספר 6,700 (או יותר נכון, 6,690), נראה שמופיע שם גם יחס המועמדים למתקבלים (במדעי החברה הוא עומד על 1.5, כשכל שהוא גבוה יותר כך המקצוע יותר מבוקש). זה מידע שמופיע רק בנוגע לאוניברסיטאות וללומדים בהן, בלי המכללות, ורואים זאת גם בפיסקה שלפני וגם בפיסקה שאחרי הנתון על מדעי החברה. ייתכן שהשינוי מעשרת אלפים סטודנטים (ש"ביקשו ללמוד מדעי החברה" לפני עשור) ל-6,700 הוא מתוך תלמידי אוניברסיטאות בלבד, ואם זה נכון (והדרך היחידה לדעת בוודאות היא לשאול את המל"ג), לפי עמ' 6 במסמך המל"ג יתחילו השנה ללמוד כ-22.5 אלף סטודנטים תואר ראשון שנה א' באוניברסיטאות. מתוך המספר הזה, 6,700 הסטודנטים שיתחילו ללמוד במדעי החברה הם כ-30%, מה שמתיישב יפה עם הנתונים מהשנים הקודמות 1.

students_annotated

חיזוק נוסף אפשר למצוא בנתוני הלמ"ס על הסטודנטים לתואר ראשון בישראל. הנתונים תואמים בקירוב את המספרים שמציגה המל"ג אבל מפולחים אחרת. לפי נתוני הלמ"ס, בשנת הלימודים תשע"ה היו באוניברסיטאות כ-21 אלף סטודנטים למדעי החברה (ועוד כ-2,500 בניהול ומנהל עסקים). אם ניקח את המספר של 21 אלף סטודנטים ונחלק אותו ב-3, מספר השנים בו מרבית הסטודנטים למדעי החברה מסיימים את לימודיהם, נגיע ל-7,000 סטודנטים בשנתון בממוצע. המספר הזה מתאים לנתון של 6,700 סטודנטים מתחילים ולמגמת הירידה בין השנים. להבדיל, בכל המוסדות האקדמיים יחד היו כ-37.6 אלף סטודנטים למדעי החברה, או כ-12.5 אלף בשנתון ממוצע- גבוה משמעותית מהנתון שהוצג על מספר הנרשמים האפשרי. ירידה מ-12.5 אלף ל-6,700 סטודנטים חדשים תוך שנתיים, אני מקווה שתסכימו איתי, היא סיפור הרבה יותר גדול מירידה של 33% לאורך עשור. משהו בנתונים המקוריים לא מסתדר, עד שמוסיפים את המילה "באוניברסיטאות" ליד המספר 6,700, ואז הכל הופך להרבה יותר הגיוני.2

לסיכום, שתי מסקנות:

  1. בבלוג הזה עולות בדרך כלל שגיאות של גרפיקאים, אבל גם הניתוח העיתונאי לא חף מבעיות. קל מאוד בכתיבת כתבה או תחקיר  להסתכל רק על הכותרת או על סיכום הנתונים, אבל אפשר לצפות מעיתונאים שיודעים לבקר את מדיניות מוסדות המדינה לבחון בעין ביקורתית גם נתונים שאפילו במבט הראשון מתמיהים. מגמות חברתיות הן עניין של שנים והן לא ברורות בדרך כלל. למעשה, במרבית המקרים בהם הכותרת מעידה על משבר או שינוי דרסטי, צריך להסתכל בזהירות האם כותרת מייצגת יותר הייתה יכולה להיות 'למרות ראיות אנקדוטליות, המצב הכללי דיי אותו הדבר'.
  2. קל לקבל פרסומים ממשלתיים כנכונים וללא עוררין. קל לשכוח שנתונים שמפרסמים גופי ממשל דומים מאוד למחקרים אקדמיים: הם מלאים בסייגים ובהגדרות מדויקות שחשוב לשים לב אליהן בניסיון לנתח את הנתונים, וגם בהם ייתכן והכותב שגה או עשה טעות סופר. הדייקנות והביקורתיות הנדרשות חשובות באקדמיה, כמובן, אבל עוד יותר בקריאת מסמכי ממשל, עליהם מקבלי החלטות מתבססים הרבה פעמים בבואם להקצות את תקציבי המדינה או לקבוע מדיניות ממשלתית.

  1. וזה אם אנחנו מקבלים את ההנחה שמדובר במספר של מי ש*ילמדו* בפקולטה *השנה* (תשע"ז), ומתעלמים מכך שמדובר על מספר ה*מועמדים* משנת הלימודים *תשע"ה*. ואגב, פנייה לקהל הרחב- אם מישהו מצליח להבין מה הגדרת המל"ג המדויקת ל"מועמדים" ואיך זה עובד עם בחירת עדיפות שנייה ושלישית, אשמח לדעת. []
  2. ובכלל- ההתעסקות בירידה במספר הסטודנטים באוניברסיטה היא חסרת בסיס בלי המידע על מספר התלמידים במכללות. ייתכן (גם אם לא סביר) שמספר הסטודנטים במדעי החברה ירד באוניברסיטאות ועלה במכללות, במיוחד בהתחשב בכך שבעבר הייתה תחרות עזה יותר על כל מקום פנוי באוניברסיטה []

מה לעשות כשאין לנו סיפור

אינפוגרפיקות, כפי שאמרנו כאן פעמים רבות, הן כלי נהדר לספר סיפור. הן מאפשרות לנו לקחת את חומר הגלם של הנתונים ולייצור ממנו מסר חד ומדויק. או לטשטש אותו, כמובן. האינפוגרפיקות יכולות לעזור לנו להפוך טבלה משעממת למסקנה ברורה. בהנחה, כמובן, שיש לנו מסקנה. בהנחה שיש לנו סיפור שאנחנו רוצים לספר. אם לא, אז כל מה שיש לנו זה… גרף. ואז צריך לחפש גימיק להצדיק את הגרף שלך, גם אם הוא לא ממש תורם משהו לאינפו, רק לגרפיקה.

במקרה דנן, יש לנו מידע מארגון הבריאות העולמי, חלק מהאו”ם, על התפלגות צריכת אלכוהול במדינות שונות. לכל מדינה יש לנו מידע על כמה מהאלכוהול שנצרך בה נצרך בצורת בירה, יין, משקאות חריפים או אחר.

אפשר היה להוציא כל מיני תובנות מהמידע הזה. אפשר היה לראות התפלגות של סוגי משקאות משכרים ע”פ יבשת (זה מידע שכלול ב-dataset המקורי). אפשר היה להוציא Outliers – מדינות שבהן סוג אחד של אלכוהול בולט במיוחד לכאן או לכאן. אפשר היה לעשות כל מיני דברים. אבל במקום זה, השקיעו באתר FlowingData באנימציה אינטראקטיבית שגורמת לשלוליות הנוזל שמייצגות את הגרף לזוז כשהעכבר עובר עליהן.

image

אז מה יש לנו כאן, בעצם? אנחנו רוצים להשוות גודל יחסי של ארבעה נתונים, חלקים מתוך שלם. מסורתית, יש לנו את גרף העוגה המושמץ בשביל זה:

image

אבל לא, זה יהיה קל מדי. במקום זה, הם הלכו על משהו שבמקום להראות גודל יחסי מתוך שלם, מראה רק גודל יחסי, כמו גרף עמודות, שאומנם מאבד את אפקט הסך-הכל, אבל עדיין נותן השוואה יחסית ברורה:

image

במקום זה, יש לנו גרף שנותן לנו השוואה *די* קרובה של הגדלים. אבל בגלל הצורה האמורפית שמתרחבת ומתכווצת כשמתקרבים אליה. האם בתמונה כאן למעלה קל לראות שהבלוב של המשקאות החריפים גדול יותר מזה של הבירה? לא ממש. אנחנו צריכים להסתמך על המספרים בשביל לדעת מה הערך האמיתי – ואם זה המצב, למה בכלל יש לנו אינפוגרפיקה?

סחרחורת עמודות

רוב הדוגמאות שעלו כאן בבלוג סביב גרף עמודות נסובות סביב הטריק הקלאסי של קיצוץ בסיס הצירים, מה שמקצין שונוּת ומכפיל הבדלים. לפעמים גם אפשר להנות מבחירה מפוקפקת של סדר העמודות שנועד גם הוא לטשטש את הסיפור – כולן דוגמאות שכבר היו לנו. ואני שמח שכעיוותים כאלה צצים, יש אנשים טובים שכבר רגישים לנושא ומעמתים את המפרסמים עם זה.

לכן שמחתי כשקיבלתי דוגמא לסוג חדש של הטיה בגרף עמודות. לא עוד קיצוץ בסיס הצירים (טוב, יש גם את זה). לא עוד סדר עמודות לא ברור (האמת? זה גם). לא, כאן יש לנו דוגמא נהדרת לאיך אפקט תלת-מימד לא רק שלא עוזר, הוא אקטיבית מפריע.

הנה גרף שפורסם בעמוד הפייסבוק של המתפ”ש – גוף תיאום פעולות הממשלה בשטחים, המציג תנועת משאיות במעבר כרם שלום (השארתי רק את הגרף – את התמונה המלאה אפשר לראות בקישור)

image

על פי הכותרת, מדובר על נתונים שנאספו בין ה-28.2 ל-03.3, כלומר חמישה ימים, מה שמרמז שהעמודות מייצגות את הימים, וכנראה מסודרות כרונולוגית, אבל באיזה סדר? מימין לשמאל? שמאל לימין? התמונה כולה באנגלית, מה שגורם לי לחשוב שהמוקדם יותר הוא משמאל, אבל טווח התאריכים בכותרת דווקא רשום מימין לשמאל, מה שמבלבל. בהתחלה חשבתי שהמספרים בתחתית הגרף הם השנתות של הציר, אבל הן לא – הן סתם עוד פריט מידע נוסף.

image

אבל סדר העמודות הוא בעיה פחותה יחסית, וגם הקיצוץ המתבקש בבסיס הצירים הוא מהצפויים. הבעיה הראשית היא שהגרף מוצג בהיטל איזומטרי לא ברור, שגם מעוות במעין עדשת עין-דג. הטכניקה קבועה שלי של מדידת פיקסלים ב-Paintbrush נהיית מסובכת כשהקווים כולם אלכסוניים, ולא באותה זווית כולם!

image

העקמומיות הזו של הקווים, העובדה שהעמודות לא מוצגות באופן ישר אחד ליד השניה, אלא שהבסיס של כל אחת נמצא בגובה שונה, בהיטל שונה, בזווית שונה אחד מהשני, מאפס את המטרה הרשמית, הראשית והמפורשת של גרף עמודות, שהיא לאפשר השוואה ויזואלית ואינטואיטיבית של גדלים. במקום זה יש לנו שתי עמודות המבוססות על אותו נתון (749 משאיות) שהפרש הגדלים בין שתי פינות שלהן גדול יותר מאשר ההפרש בין עמודת ה-749 השניה לבין ה-743 שאחריה. וההפרש בין 749 ו-753 מיוצג בכ-20 פיקסלים –פי ארבע מה-5 פיסקלים של ההפרש בין 749 ו-743. וזה, כמובן, בלי שדיברנו על הצניחה הקיצונית ל-714.

וכמו במקרים רבים, לא מדובר כאן על חוסר הקפדה על יצוג הנתונים. מדובר על גרף שנוצר ע”פ נתונים, אולי, אבל שאז ישב מעצב גרפי והיטה כל עמודה בפני עצמה (מה שבכלל לא אפשרי בפונקציית העמודות התלת מימדיות של אקסל, לפחות במהדורת 2007 שמותקנת אצלי) או שהשתמש בפונקציית היטל שמתעלמת מהאספקטים האינפוגרפיים של הציור. יכול להיות שזה נעשה משיקולי אסתטיקה. יכול להיות שמשיקולי “גם ככה זה לא משנה”. בכל מקרה, זה מבהיר שיצור מדויק של המספרים לא היה השיקול הבולט.

כשמאה הוא לא מאה (אחוז)

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

image

image