דיווחים מלטביה, ארץ נשות הענק

דורי, ידיד הבלוג מימים ימימה, הפנה את תשומת ליבנו לתרשים הזה שמסתובב לו באינטרנט כבר כמה שנים, שסובל מכמה בעיות די גדולות, אפילו מעבר לבחירה הקצת בנאלית לעצב גרף שקשור לנשים כשכולו בצבע ורוד.

הבעיה הראשונה שהגרף סובל ממנה הוא חביבנו הקבוע, קיצוץ בסיס מערכת הצירים. למי שעוד לא נתקל, הכוונה כאן היא שציר ה-Y לא מתחיל מ-0, אלא בעצם מגובה 5 פיט (שזה 1.52 מ'). משם והלאה המרחקים קבועים, אבל זה אומר שה"עמודה" השמאלית, שמייצגת גובה של 1.65 מ', גבוהה יותר מפי 4 מהעמודה הימנית, למרות שההפרש בין 1.52 מ' ל-1.65 מ' הוא פחות מ-10%. זה יוצר הקצנה של הפערים כשמתמקדים רק בראש מערכת הצירים.

אבל זה, בפני עצמו, לא כזה נורא. זה פשוט הסיפור של הגרף, להדגיש את ההבדלים בין מדינות שונות, וצריך גם לזכור שבחוויה האישית, הפרש של 13 ס"מ הוא מאד משמעותי. אבל כאן נכנסת הבעיה השניה של הגרף, שיחד עם הראשונה, מייצרת את הצרימה הויזואלית.

הבעיה השניה היא בחירה להחליף את העמודות הפשוטות בעמודות שמעוצבות כמו הסמליל הגנרי ל-"אישה". והבעיה עם זה היא שהסמליל הוא פרופורציונלי בין שני הממדים שלו. כלומר, כל שינוי בגובה, מחייב גם שינוי ברוחב בשביל לשמור על הפרופורציות. וזה אומר שכשאנחנו קובעים את גובה העמודה השמאלית כפי 4 מהגובה של הימנית, אנחנו גם מגדילים את הרוחב פי ארבע. ה-"עמודה" הלאטבית לא סתם גבוהה פי 4 מההודית, היא גם רחבה פי 4, ולכן גדולה, פרופורציונלית, פי 16 (וזה להפרש גובה ממוצע של כ-8%, כן?)

מעבר לזה שזה מעמיס ויזואלית על הגרף עם נשים ענקיות, זה מכניס כאן הטיה שאני אוהב ושאין לי שם טוב בשבילה, שבה כמות הפיקסלים שבה פריט מיוצג משפיע על הגודל הנתפס של הפריט, גם אם הפיקסלים הללו לא רלבנטיים לנתונים. ראינו את זה בפוסט האחרון, כשתרשים עוגה הגדיל גם את הגובה של הפלח בנוסף לשטח שלו, וגם בפוסט שלפניו על העוגה התלת-ממדית, וההטיה שהיא מייצרת בתפיסה החזותית שלנו. יותר פיקסלים, יותר חשיבות, גם אם הנתונים לא תומכים בזה.

ולסיום, דוגמה לאיך הגרף היה יכול להראות בלי הבחירה הזו. זו גם הזדמנות טובה איך הגרף יכול להראות כשמורידים את קיצוץ בסיס מערכת הצירים ולראות עד כמה הוא… לא מועיל, לא מעביר מידע ולא מספר סיפור:

וגם אותו הגרף כשאנחנו כן תוחמים את התצוגה לטווח הממוקד בין 1.50 ל-1.70, ומקבלים סיפור אחר, אולי מעניין יותר, אולי מוקצן יותר, אבל פחות מבלבל ויזואלית מאותן נשים ענקיות.

כשנתונים חלקיים מייצגים פוקוס, לא הסתרה

אחד הגרפים המדוברים יותר בימים האחרונים, בסביבתי, הוא גרף הטבעת הזה, שהתפרסם בדהמרקר ב-24/03/2020, ומפלח את המיקומים בהם נדבקו חולים בקורונה בהדבקה קהילתית – כלומר, בהדבקה בתוך הארץ, במהלך חיי יום-יום שגרתיים:

Image

אני לא אכנס כרגע לשאלות של בחירת צבעים, או עצם השימוש בגרף טבעת. אני דווקא אתייחס לשאלה של מה לא מופיע בגרף הזה, כי זו שאלה שעלתה ברוב הדיונים שלי סביב הגרף הזה מאז שפורסם.

אז מה לא מופיע בגרף הזה? בניגוד למה שהשימוש בגרף טבעת מרמז – בכך שמדובר בכלל ההדבקויות – מדובר רק בחלק קטן יחסית מסך חולי הקורונה בישראל – כ-35%, ע"פ הכתבה. שאר החולים נדבקו בחו"ל (47% מהחולים) בביתם (5%) או ממקור לא ידוע (13%). למה זה משנה,כי אנשים התרעמו, ובצדק, שיש לנו גרף שמתיימר לתת פילוח של מקומות היבדקות, אבל כשהוא בוחר להתמקד ב-35% מהחולים בלבד, הוא נותן תמונה מוטה של החלק היחסי של מקומות ההידבקות הללו. תוך חמש דקות, יכולתי הרי לייצר את הגרף הזה:

אבל האם באמת הרווחנו כאן משהו? כלומר כן, הטבעת שלי מקיפה יותר נתונים, אבל אז אנחנו חייבים לעצור ולשאול את עצמנו מה בעצם השאלה שאנחנו שואלים, ולמה בכלל אנחנו עושים את האינפוגרפיקה שלנו.

נתונים, בפני עצמם, אינם מעניינים. נתונים לא קיימים בוואקום. כשאנחנו בונים אינפוגרפיקה, אנחנו עושים את זה כי אנחנו רוצים לספר סיפור כלשהו לקוראים שלנו, או כי אנחנו רוצים להוציא תובנות מהנתונים מתוך מטרה מסוימת. והמטרה הזו, והתובנות שאנחנו מחפשים, משפיעים ומכווינים לא רק את סוג האינפוגרפיקה שלנו, אלא גם את הנתונים שאנחנו בוחרים להכניס לתוכה.

אז אם המטרה היא לקבל תמונת מצב מלאה של מקורות ההידבקות, הטבעת שלי ללא ספק תשרת את המטרה טוב יותר. אבל אם המטרה שלנו היא להסתכל על הנתונים של הידבקות בקהילה כדי לקבל תובנות לגבי האפקטיביות של צעדי סגר ובידוד, ולקבל החלטות מושכלות לגבי המשך קיומם, אז הוספתם של 47% החולים בחו"ל לא סתם שלא עוזרים לנו, הם מייצרים רעש רב בגרף ומפריעים להבין איפה במרחב שלנו ישנה בעיה.

אז כן, כתבתי כאן פעמים רבות על הבעיה של קיצוץ בסיס הצירים כטכניקה שמעצימה הבדלים או נותנת לנתון אחד תחושה שהוא עצום, בעוד הוא רק טיפה יותר גדול מאחרים. וגם כאן, אפשר לראות שכשמוסיפים עוד נתונים אז ההבדלים בין בתי כנסת למלונות, נגיד, מרגיש קצת פחות דרמטי. אבל גם קיצוץ מערכת הצירים הוא כלי. כשהוא נעשה בצורה מושכלת ולא בהסתר, כפי שכתבתי כאן, אז הוא כלי אפקטיבי בלהדגיש את מה שאנחנו רוצים להדגיש בסיפור שלנו, ובמסקנות שלנו.

לפעמים הטיה היא רק הדגשה

דובי קננגיסר, מיקירי (וכותבי) הבלוג, נתקל היום בכתבה (ישנה, אמנם) בויינט, והזדעק על הגרף שצורף אליה. ובצדק:

arab_hazbaa

הגרף הזה סובל מלא מעט מהבעיות שכבר דיברנו עליהן בעבר כאן בבלוג: קיצוץ בסיס הצירים כדי ליצור הדגשה של הבדלים, ולא סדר גודל אמין. הטעיות בוטות במיקום על מערכת הצירים – אחוז ההצבעה ב-1949 שעומד על 79%, נמצא נמוך יותר על הגרף מאשר ה-77% ב-1996. קפיצות לא פרופורציונאליות בין נקודות מידע שונות, גם בציר ה-Y (המרחק בין 83% ל-85% גדול ביותר מפי שתיים מהמרחק בין 82% ל-83%) וגם בציר ה-X (הציר לא מתקדם באופן רציף, אלא בקפיצות של בין שנתיים לארבע שנים).

אבל מה שמעניין, לדעתי, הוא הדיון שהתפתח בעמוד הפייסבוק של דובי סביב הגרף הזה, שבו הבחינו המשתתפים ברוב הבעיות שבגרף. הגדיל לעשות אחיעד גבריאל לוי והזין את הנתונים לאקסל כדי לצייר גרף עמודות אמין יותר, שזו הטכניקה המומלצת של הבלוג הזה כשהנתונים לא מסתדרים באינפוגרפיקה – מיד אחרי ספירת פיקסלים, כמובן.

הטיה כהטיה, הטיה כהדגשה

אבל חשוב מכך, אני חושב שבדיון עלתה אחת הנקודות החשובות בדיון על אינפוגרפיקה, והיא לשאול מתי הטיה היא הטיה, ומתי היא בחירה לגיטימית שמשרתת את הצגת האינפורמציה?

בתחילת הפוסט קישרתי לגרף שהוצג בערוץ Fox News שמקצץ את מערכת הצירים בגרף אבטלה בארה”ב כדי להפוך תנודה קלה לשינוי משמעותי. שם, לדעתי, יש מניפולציה ברורה והטיה מכוונת. אבל במקרים רבים יכולה להיות הצדקה לגיטימית לקיצוץ מערכת הצירים כשהדיון שהאינפוגרפיקה באה לשרת הוא סביב השינויים, לא סביב סדרי הגודל. אם אני אומר במפורש “בהינתן שלא היו שינויים עצומים בין נקודת המידע שלי, אבל מעניין אותי להסתכל על התנודות אז בואו נעשה zoom in”, זה לגיטימי לחלוטין להתמקד רק בחלק מהגרף. אבל כאן עובד קו עדין מאד בין אותו zoom in שממקד את הדיון, לבין צמצום השיח בצורה שמעלימה נתונים חשובים, או (גרוע מכך), מרמזת על נתונים שלא באמת נמצאים שם, כמו אותו גרף של Fox News.

איך מבדילים בין הדגשה לגיטימית לבין הטיה מניפולטיבית? לא תמיד יש הוכחות ברורות, אבל אחת הדרכים היעילות היא לדבר מפורשות על היעדים שלך. אם לגרף תתלווה פסקת הסבר בה יאמר כי “בגרף הזה בחרנו להתחיל את מערכת הצירים מ-18% כי הדגש שלנו הוא על התנודות”, אז שיתפנו את הקוראים בהחלטות שלנו, הנכחנו את השינויים שעשינו לגרף, וצמצמנו את המניפולטיביות שלו.

כל אינפוגרפיקה תמיד מנסה להעביר מסר, לא רק נתונים יבשים. תמיד יש מידע שמישהו בחר כן לכלול או לא לכלול, כן להדגיש או לא להדגיש. ולא צריך להתבייש זה – אחרי המסר הזה הוא הסיבה שאנחנו בכלל כותבים. אבל ככל שכותבי האינפוגרפיקה יהיו שקופים במניעים ובמטרות שלהם, כך האמינות שלהם תגדל. וככל שאנחנו נדע לקרוא אינפוגרפיקות, כך נוכל לדרוש מהכותבים שלהן את השקיפות הזו.

הצירים הנבחרים

באופן דומה גם הנושא השני שנידון בפתיל אצל דובי יכול להתפרש כהטיה או כבחירה לגיטימית. ציר ה-X, שכאמור מתקדם בקפיצות של מערכות בחירות ולא של שנים, יכול להתפרש כמה דרכים. דובי רואה בזה בחירה לגיטימית – שכן לא ניתן לצייר גרף רציף על אירועים דיסקרטיים שמתרחשים אחת לשנתיים עד ארבע שנים. נמרוד אבישר, מולו, גורס שהעלמת המרחקים האמיתיים בין הנקודות על הגרף מעלימה מידע, שכן תלילות הגרף בין הנקודות גם הוא מידע, והוא הולך לאיבוד – או, גרוע יותר, מציג מיצג שווא – כשאנחנו לא מייצגים את ציר ה-X כראוי.

שתי הגישות תקפות, אבל אנחנו חוזרים לשאלה של מה השאלה שהגרף מנסה להגיד, והאם לשאלת הזמן יש תפקיד כאן או לא. אם הוא לא רלבנטי, כפי שדובי מאמין, אז מוטב היה שהגרף היה מייצג את ציר ה-X לא בשנים, אלא במערכות בחירות (הכנסת השנייה, העשירית, וכו’), כי זו יחידת המידה שנבחרה לייצג את השינוי. אבל אם כבר בחרו לייצג בשנים, כנראה ראוי גם היה לרווח אותם בהתאם. הבחירה לא צריכה להיות בחירה אסטתית – יש משמעות לגרף שמוגדר ע”פ מערכות בחירות (אשר מתייחס, כנראה, למערכת הבחירות כיחידת ההתקדמות הרלבנטית ביחס של ערביי ישראל לבחירות), לבין גרף שמוגדר ע”פ שנים, שכנראה ינסה לטעון ששינויים רציפים לאורך העשורים, גם כשאינם קשורים ישירות למערכת הבחירות, הוא המדד הרלבנטי.

בכל מקרה אני מאד מרוצה מהדיון אצל דובי. לא במעט מכיוון שהם עשו כבר בשבילי את רוב העבודה, אבל גם כי הוא מציג כמה נקודות גישה שונות לקריאה, פרשנות וביקורת על אינפוגרפיקה. וכמה שיש יותר מזה, יותר טוב.

Two Wrongs Don’t Make A Right

לפעמים צריך למצוא את הגאווה הלאומית שלנו איפה שאפשר. בחודש יולי האחרון שבר הגרף של ישראל היום שיאים של עיוות ומניפולציה עם שנתות שלא תואמות לקווים של הגרף וירידות שמוצגות כעליות. ועכשיו אנחנו מקבלים גרף דומה גם מרשת פוקס ניוז האמריקאית, שגם היא שמה את האמת – שלא לומר, הדיוק הכמותי – כנר לרגליה:

image

אז מה יש לנו כאן? הטיה אחת בסיסית ופופולרית, והיא קיצוץ מערכת הצירים, שמתחילה מ-8 במקום מ-0, על מנת להדגיש הבדלים קטנים. 0.4% מאוכלוסיית ארה”ב זה אולי מעל מיליון איש, אבל במונחים סטטיסטיים זה לא שינוי מאד גדול.

הבעיה הגדולה יותר, כפי שאתר FlowingData מציג, היא במשחקי הלמעלה-למטה, שבהם ירידה בגרף מוצגת כעליה, או במקרה הזה, כהשארות במקום. האתר כבר עשה את הצעד המתבקש ובנה באקסל את הגרף כמו שהוא אמור להיות, כמובן, אבל מה שהפריע לי כאן זה לא סתם המניפולציה של המספרים, אלא כמה היא עשויה בצורה פשטנית וחובבנית. אם הגרף של ישראל היום היה מלא עומס של פרטים ונקודות וקווים, עם המון בלבול וטעויות וטשטוש, אז הגרף של פוקס הוא, לעומתו, פשוט וישיר. חוץ מנקודת המידע האחרונה, הגרף הוא מדויק ואמין, כמו שאפשר לראות מהקווים הצהובים ששרטטתי למעלה. ה-9.0 הוא 9.0 לאורך כל הגרף, וההפרשים בינו לבין ה-8.8 או ה-9.2 הם שווים והגיוניים. רק ה-8.6 הסופי הוזז בצורה גסה כלפי מעלה. אם כבר עושים הומאז’, לכל הפחות אפשר לעשות אותו בצורה פחות חובבנית!

אבל מה שהפריע לי עוד יותר בגרף הזה הוא איך שתי ההטיות שהצגתי לעיל מתנגשות אחת בשניה, באופן שמראה שמי שהכין את הגרף לא ממש ידע מה הוא עושה. הטיה השניה, השקר הבוטה, נועד לצמצם את ירידת היקף האבטלה בחודש נובמבר, נכון? אבל ההטיה הראשונה עושה בדיוק להפך: קיצוץ מערכת הצירים תמיד תדגיש את ההבדלים בין נקודות המידע. נראה שבפוקס קיצצו את מערכת הצירים, כנראה מתוך שיקולי אסתטיקה בשביל לא להשאיר הרבה שטח מת על הגרף, ואז שמו לב שהם מחמיאים לממשל, במקום לבקר אותו. אני מדמיין בשלב הזה את העורך הזועם פורץ למחלקת הגרפיקה ומנופף בדף המודפס (למה דף מודפס בגרף לתוכנית טלוויזיה? לא יודע. הדמיון שלי מוזר ככה), ודורש מהגרפיקאי לתקן את זה, עכשיו! במצב כזה, יותר פשוט להקפיץ את הנקודה האחרונה למעלה, במקום לחשוב מחדש על איך לבנות את הגרף כדי שיעביר את המסר שרוצים להעביר.