לפעמים הטיה היא רק הדגשה

דובי קננגיסר, מיקירי (וכותבי) הבלוג, נתקל היום בכתבה (ישנה, אמנם) בויינט, והזדעק על הגרף שצורף אליה. ובצדק:

arab_hazbaa

הגרף הזה סובל מלא מעט מהבעיות שכבר דיברנו עליהן בעבר כאן בבלוג: קיצוץ בסיס הצירים כדי ליצור הדגשה של הבדלים, ולא סדר גודל אמין. הטעיות בוטות במיקום על מערכת הצירים – אחוז ההצבעה ב-1949 שעומד על 79%, נמצא נמוך יותר על הגרף מאשר ה-77% ב-1996. קפיצות לא פרופורציונאליות בין נקודות מידע שונות, גם בציר ה-Y (המרחק בין 83% ל-85% גדול ביותר מפי שתיים מהמרחק בין 82% ל-83%) וגם בציר ה-X (הציר לא מתקדם באופן רציף, אלא בקפיצות של בין שנתיים לארבע שנים).

אבל מה שמעניין, לדעתי, הוא הדיון שהתפתח בעמוד הפייסבוק של דובי סביב הגרף הזה, שבו הבחינו המשתתפים ברוב הבעיות שבגרף. הגדיל לעשות אחיעד גבריאל לוי והזין את הנתונים לאקסל כדי לצייר גרף עמודות אמין יותר, שזו הטכניקה המומלצת של הבלוג הזה כשהנתונים לא מסתדרים באינפוגרפיקה – מיד אחרי ספירת פיקסלים, כמובן.

הטיה כהטיה, הטיה כהדגשה

אבל חשוב מכך, אני חושב שבדיון עלתה אחת הנקודות החשובות בדיון על אינפוגרפיקה, והיא לשאול מתי הטיה היא הטיה, ומתי היא בחירה לגיטימית שמשרתת את הצגת האינפורמציה?

בתחילת הפוסט קישרתי לגרף שהוצג בערוץ Fox News שמקצץ את מערכת הצירים בגרף אבטלה בארה”ב כדי להפוך תנודה קלה לשינוי משמעותי. שם, לדעתי, יש מניפולציה ברורה והטיה מכוונת. אבל במקרים רבים יכולה להיות הצדקה לגיטימית לקיצוץ מערכת הצירים כשהדיון שהאינפוגרפיקה באה לשרת הוא סביב השינויים, לא סביב סדרי הגודל. אם אני אומר במפורש “בהינתן שלא היו שינויים עצומים בין נקודת המידע שלי, אבל מעניין אותי להסתכל על התנודות אז בואו נעשה zoom in”, זה לגיטימי לחלוטין להתמקד רק בחלק מהגרף. אבל כאן עובד קו עדין מאד בין אותו zoom in שממקד את הדיון, לבין צמצום השיח בצורה שמעלימה נתונים חשובים, או (גרוע מכך), מרמזת על נתונים שלא באמת נמצאים שם, כמו אותו גרף של Fox News.

איך מבדילים בין הדגשה לגיטימית לבין הטיה מניפולטיבית? לא תמיד יש הוכחות ברורות, אבל אחת הדרכים היעילות היא לדבר מפורשות על היעדים שלך. אם לגרף תתלווה פסקת הסבר בה יאמר כי “בגרף הזה בחרנו להתחיל את מערכת הצירים מ-18% כי הדגש שלנו הוא על התנודות”, אז שיתפנו את הקוראים בהחלטות שלנו, הנכחנו את השינויים שעשינו לגרף, וצמצמנו את המניפולטיביות שלו.

כל אינפוגרפיקה תמיד מנסה להעביר מסר, לא רק נתונים יבשים. תמיד יש מידע שמישהו בחר כן לכלול או לא לכלול, כן להדגיש או לא להדגיש. ולא צריך להתבייש זה – אחרי המסר הזה הוא הסיבה שאנחנו בכלל כותבים. אבל ככל שכותבי האינפוגרפיקה יהיו שקופים במניעים ובמטרות שלהם, כך האמינות שלהם תגדל. וככל שאנחנו נדע לקרוא אינפוגרפיקות, כך נוכל לדרוש מהכותבים שלהן את השקיפות הזו.

הצירים הנבחרים

באופן דומה גם הנושא השני שנידון בפתיל אצל דובי יכול להתפרש כהטיה או כבחירה לגיטימית. ציר ה-X, שכאמור מתקדם בקפיצות של מערכות בחירות ולא של שנים, יכול להתפרש כמה דרכים. דובי רואה בזה בחירה לגיטימית – שכן לא ניתן לצייר גרף רציף על אירועים דיסקרטיים שמתרחשים אחת לשנתיים עד ארבע שנים. נמרוד אבישר, מולו, גורס שהעלמת המרחקים האמיתיים בין הנקודות על הגרף מעלימה מידע, שכן תלילות הגרף בין הנקודות גם הוא מידע, והוא הולך לאיבוד – או, גרוע יותר, מציג מיצג שווא – כשאנחנו לא מייצגים את ציר ה-X כראוי.

שתי הגישות תקפות, אבל אנחנו חוזרים לשאלה של מה השאלה שהגרף מנסה להגיד, והאם לשאלת הזמן יש תפקיד כאן או לא. אם הוא לא רלבנטי, כפי שדובי מאמין, אז מוטב היה שהגרף היה מייצג את ציר ה-X לא בשנים, אלא במערכות בחירות (הכנסת השנייה, העשירית, וכו’), כי זו יחידת המידה שנבחרה לייצג את השינוי. אבל אם כבר בחרו לייצג בשנים, כנראה ראוי גם היה לרווח אותם בהתאם. הבחירה לא צריכה להיות בחירה אסטתית – יש משמעות לגרף שמוגדר ע”פ מערכות בחירות (אשר מתייחס, כנראה, למערכת הבחירות כיחידת ההתקדמות הרלבנטית ביחס של ערביי ישראל לבחירות), לבין גרף שמוגדר ע”פ שנים, שכנראה ינסה לטעון ששינויים רציפים לאורך העשורים, גם כשאינם קשורים ישירות למערכת הבחירות, הוא המדד הרלבנטי.

בכל מקרה אני מאד מרוצה מהדיון אצל דובי. לא במעט מכיוון שהם עשו כבר בשבילי את רוב העבודה, אבל גם כי הוא מציג כמה נקודות גישה שונות לקריאה, פרשנות וביקורת על אינפוגרפיקה. וכמה שיש יותר מזה, יותר טוב.

Two Wrongs Don’t Make A Right

לפעמים צריך למצוא את הגאווה הלאומית שלנו איפה שאפשר. בחודש יולי האחרון שבר הגרף של ישראל היום שיאים של עיוות ומניפולציה עם שנתות שלא תואמות לקווים של הגרף וירידות שמוצגות כעליות. ועכשיו אנחנו מקבלים גרף דומה גם מרשת פוקס ניוז האמריקאית, שגם היא שמה את האמת – שלא לומר, הדיוק הכמותי – כנר לרגליה:

image

אז מה יש לנו כאן? הטיה אחת בסיסית ופופולרית, והיא קיצוץ מערכת הצירים, שמתחילה מ-8 במקום מ-0, על מנת להדגיש הבדלים קטנים. 0.4% מאוכלוסיית ארה”ב זה אולי מעל מיליון איש, אבל במונחים סטטיסטיים זה לא שינוי מאד גדול.

הבעיה הגדולה יותר, כפי שאתר FlowingData מציג, היא במשחקי הלמעלה-למטה, שבהם ירידה בגרף מוצגת כעליה, או במקרה הזה, כהשארות במקום. האתר כבר עשה את הצעד המתבקש ובנה באקסל את הגרף כמו שהוא אמור להיות, כמובן, אבל מה שהפריע לי כאן זה לא סתם המניפולציה של המספרים, אלא כמה היא עשויה בצורה פשטנית וחובבנית. אם הגרף של ישראל היום היה מלא עומס של פרטים ונקודות וקווים, עם המון בלבול וטעויות וטשטוש, אז הגרף של פוקס הוא, לעומתו, פשוט וישיר. חוץ מנקודת המידע האחרונה, הגרף הוא מדויק ואמין, כמו שאפשר לראות מהקווים הצהובים ששרטטתי למעלה. ה-9.0 הוא 9.0 לאורך כל הגרף, וההפרשים בינו לבין ה-8.8 או ה-9.2 הם שווים והגיוניים. רק ה-8.6 הסופי הוזז בצורה גסה כלפי מעלה. אם כבר עושים הומאז’, לכל הפחות אפשר לעשות אותו בצורה פחות חובבנית!

אבל מה שהפריע לי עוד יותר בגרף הזה הוא איך שתי ההטיות שהצגתי לעיל מתנגשות אחת בשניה, באופן שמראה שמי שהכין את הגרף לא ממש ידע מה הוא עושה. הטיה השניה, השקר הבוטה, נועד לצמצם את ירידת היקף האבטלה בחודש נובמבר, נכון? אבל ההטיה הראשונה עושה בדיוק להפך: קיצוץ מערכת הצירים תמיד תדגיש את ההבדלים בין נקודות המידע. נראה שבפוקס קיצצו את מערכת הצירים, כנראה מתוך שיקולי אסתטיקה בשביל לא להשאיר הרבה שטח מת על הגרף, ואז שמו לב שהם מחמיאים לממשל, במקום לבקר אותו. אני מדמיין בשלב הזה את העורך הזועם פורץ למחלקת הגרפיקה ומנופף בדף המודפס (למה דף מודפס בגרף לתוכנית טלוויזיה? לא יודע. הדמיון שלי מוזר ככה), ודורש מהגרפיקאי לתקן את זה, עכשיו! במצב כזה, יותר פשוט להקפיץ את הנקודה האחרונה למעלה, במקום לחשוב מחדש על איך לבנות את הגרף כדי שיעביר את המסר שרוצים להעביר.