ProPublica – פשוט ואפקטיבי

שלשום, ה-18 לינואר, היה יום החשכת האינטרנט הגדול, כשויקיפדיה, רדיט ואתרים רבים אחרים סגרו את שעריים באופן מלא או חלקי, או רק פרסמו באנרים וקישורים שמסבירים על התנגדותם לצמד הצעות החוק האמריקאיות נגד פיראטיות וגניבת זכויות יוצרים באינטרנט, SOPA ו-PIPA.

רבים וטובים כבר כתבו על SOPA ו-PIPA והבעייתיות של שתיהן, אבל בעזרת אתר ProPublica, שעוקב אחר הצבעותיהם של חברי קונגרס וסנאט, אפשר לראות את ההשפעה של ההשבתות על דעותיהם של הנציגים הנבחרים, כמו שהגרף ההשוואתי הזה, שהכין Newsweek, מציג:

Infographic of the Day

בלי קשר לדיון על האפקט של יום ההשבתות על העלאת המודעות בקרב חברי הקונגרס, אני רציתי להתייחס לאפקטיביות של האינפוגרפיקה הזו, ועוד יותר מכך, על התצוגה המקורית של הנתונים.

נתחיל מהמקרה הפשוט, והיא ההשוואה. הטכניקה כאן מאד פשוטה – עמודה אחת לתומכים, ואחד למתנגדים. גרף עמודות פשוט שמבהיר את היחס בין צד אחד לשני. ואז, העדכון של ה-19 לחודש, שמראה איך מספר התומכים הצטמצם, אבל יותר מזה – איך מספר המתנגדים זינק פי שלוש. אין ספק שלגרף הזה יש אג’נדה: הוא בא להראות איך קמפיין מודעות באינטרנט, בקרב חברות טכנולוגיה ואתרים פופולריים, גורמים לתגובה בקרב מחוקקים. לאו דווקא לשינוי עמדות – רק 15 חברי קונגרס ביטלו את תמיכתם בחוק – אלא בלגרום לאלה שהתנודדו, או ישבו על הגדר, או שלא ראו סיבה להתערב – גרו להם לנקוט עמדה ולהתנגד, כי הם ראו שזה מה שהקהל רוצה. האג’נדה לא מוסתרת, לא מוסווית, ומועברת מצוין בגרף.

ועכשיו, למקרה המעניין יותר, והוא הממשק של אתר ProPublica עצמו:

image

חתכתי כאן רק את החלק העליון של המסך, שממשיך למטה כמו שרואים בגרף ההשוואתי, בשביל להדגיש את הפילטרים שמופיעים בצד שמאל של המסך. הם מאפשרים לסנן את הרשימה על פי מפלגה ובית מחוקקים, ולמיין על פי מספר מאפיינים מעניינים. הפשוטים מביניהם, כמו המדינה המיוצגת, הגיל או השם, מאפשרים לקבל חיתוכים מעניינים (כמו העובדה שכשליש מהמתנגדים הם בני 50 ומטה, לעומת כעשירית מהתומכים). אבל העבודה העיתונאית המעניינת היא בשלושת המיונים האחרונים, שמציגים את היקף התרומות שקיבל כל מחוקק מחברות תקשורת (שתומכות בחוק, ברובן) לעומת חברות טכנולוגיה ואינטרנט (המתנגדות), וההפרש ביניהן. זה נותן פילוח מעניין של ההשפעה של התרומות על הדיעות של המחוקקים.

המנגנון הזה הוא דוגמא נהדרת, לדעתי, איך אמצעים להמחשה וויזואליזציה של מידע – לאו דווקא בצורה של גרפים – יכולים להיות גם כלים מצוינים להעברת מידע מורכב, או מידע שמפוזר בין מספר מקורות, בצורה בהירה ונוחה.

הצבא צועד על… מה בדיוק?

וומבט

וומבט, גם לא קשור. מתוך האתר wombat.net

"לפי נתונים שנאספו במפקדת קצין המילואים הראשי, בפיקודו של תת-אלוף שוקי בן ענת, כבר היום כ-84% מהיישובים שמהם באים חיילי המילואים הם יישובים קטנים שבהם פחות מ-2,000 תושבים. אמנם בצה"ל מסבירים כי רישום זה מבוסס על נתונים הנשמרים במאגרי המידע הצבאיים, ולאו דווקא מתאימים למקום מגורי חייל המילואים, אך עדיין מדובר בנתון שמעמיד בסכנה את התפישה של צה"ל כצבא העם – גם במילואים." (הארץ, קצין בכיר: "שירות המילואים גולש לפריפריה החברתית והגיאוגרפית", כותרת ראשית ביום שישי האחרון).

אולי תרצו לדעת בהקשר זה שלפי נתוני הלמ"ס מ-2010, 80.1% מהישובים בישראל הם ישובים קטנים של פחות מ-2,000 תושבים (ליתר דיוק: 951 מתוך 1186 יישובים).

אתם מוזמנים לחפש בכתבה נתונים שבעצם קשורים לכותרת הסנסציונית על הגלישה לפריפריה. אולי זה שלרוב הגדול של המילואימניקים השכלה על-תיכונית.

(תודה לעפר)

איך קוראים לגרף שלא מבוסס על מידע?

השאלה שבכותרת עלתה לאחר שנתקלתי לאחרונה בטור השבועי "המדד" במוסף של עיתון "הארץ". כל שבוע נבחר שם נושא ונאספים פרטים עליו, כאשר חלק מהמידע מוצג על גבי גרף.

בואו נסתכל על דוגמא אחת, מנושא שהיה בכותרות הרבה לאחרונה. על רקע פניה של טניה רוזנבליט, אנחנו רואים נקודות ציון בנושא מעמדן של נשים במרחב הציבורי בישראל לאורך השנים. הנקודות מחוברות להן בקו, להלן הגרף.

מתוך אתר "הארץ"

יש כמה דברים מוזרים בגרף הזה[1], אבל כולם זניחים מול מהותו של הציר האנכי: למעשה זהו גרף ללא נתונים. או יותר נכון – ללא נתונים מספריים. למרות שעל הציר יש מספרים מ-0 עד 100, גובה הנקודות בציר האנכי לא מחושב בשום צורה או לקוח מאיזשהו נתון. הכותב למעשה הצמיד ערך לכל נקודה על פי דעתו, דרג אותם על פי איזשהו מדד נעלם. ובמקרה הזה לפחות (ובעוד שראיתי) שיקוליו לא לחלוטין ברורים. למשל ב-1949, 11 חברות כנסת דורגו כ- "50", אבל ב- 2009 21 חברות באותו בית נבחרים קיבלו רק את המדד "30". האם זה בגלל שבתקופה זאת אנו מצפים להרבה יותר ייצוג לנשים בפוליטיקה? אולי, אין לנו דרך לדעת. לגרף אין כל כותרת. הטקסט שמלווה את הגרף הזה בעיתון, מעניין ואינפורמטיבי בזכות עצמו, לא מתייחס לגרף בשום צורה.

ועולה השאלה- האם יש פה באמת בעיה.

ומסתבר שהתשובה תלויה בנקודת המבט, כפי שהבנתי משיחה שלי עם דפנה. זאת אינפוגרפיקה, אבל בניגוד לאחרות שנותחו פה בבלוג, המטרה העיקרית שלה היא לא להציג נתונים אלא את דעתו של הכותב. ניתן להסתכל על הגרף הזה בתור המקבילה הגרפית של טור דעה. הכותב רוצה להראות לנו, הקוראים, מה דעתו על התמורה במעמדן הציבורי של נשים במרחב הישראלי, ומשתמש במטאפורה החזותית של גרף שמוכרת לכולנו. ולפיכך, אם אין פה נתונים או התיימרות לנתונים, הרי אין פה שקר (יפה או שלא יפה).

אני חושב אחרת. הגרפיקה איננה ניטרלית, היא מגיעה עם האסוציאציות שלה. ישנן השלכות על צריכת המידע לשימוש באובייקטים גרפים מסוימים, וספציפית גרפים עם שנתות, צירים וקווים בין נקודות. כשאנו רואים ייצור גרפי כזה אנו מיד מניחים כמה דברים. למשל, אנו מניחים קשר בין פרטי המידע שמייצגות הנקודות, אנחנו מניחים שהם יכולים להימדד על אותה סקלה, אנחנו מניחים שהם אכן נמדדו ושהתוצאות מוצגות לנו, במידה זו או אחרת של דיוק. גרף הוא יותר משרבוט, הוא הייצוג הגרפי של מידע, ולפיכך, הוא יוצר אצלנו מראית עין של מידע. קודם כל זה מטעה, כי אין פה באמת מידע. ומעבר לכך, לדעתי האפקט חזק מספיק כדי לגרום גם לקורא המודע להתייחס לגרף בצורה יותר אובייקטיבית מפסקה של טקסט.

אבל ייתכן שהעמדה שלי נובעת מיותר מדי שנים של הסתכלות על גרפים מדעיים. אז מה אתם אומרים? האם הגרף מטעה או תמים?



[1] למשל, הסקלה על ציר הזמן לא אחידה – למרות שכל הנקודות במרחקים זהים, בין שתי הנקודות הראשונות יש מרווח של 37 שנה, אך מיד לאחר מכן אנו יורדים לתשע שנים וממשיכים באותה מגמה עד מצב של כמה נקודות באותה שנה ואף שתי נקודות באותו חודש, נובמבר 2011. טריק ידוע בעיוות שיפועים.

אינפוגרפיקה מסוף-שבוע חורפי

הפעם לא ממש שקר, רק הצעת ייעול לויזואליזציה אהובה. החורף והגשם מביאים איתם את אחת ההנאות הקטנות של החיים: בהייה במפת מכ"ם העננים של השירות המטרולוגי. דרך החלון העננים נראים אפורים, אבל על המסך, באנימציה הפרימיטיבית, הם מופיעים בצבעוניות מהפנטת.

צילוםן מסך ממכ"ם גשם של השירות המטראולוגי

צילוםן מסך ממכ"ם גשם של השירות המטראולוגי

טוב, אולי לא הכי מהפנטת, בדרך כל בעיקר כחול וירוק ומבלבל.

צבע הענן מבטא את עוצמת הגשם שהוא ממטיר. סקלת הצבעים נראית לי שרירותית: כחול בהיר < ירוק כהה < ירוק בהיר < צהוב וכו'. כדי להבין איזה ענן יותר כבד, אני חייבת להתעמק במקרא שמופיע מעל המפה (ושגם הוא מבלבל כי הוא מסודר מימין לשמאל). זה חבל, כי אפשר באמצעים פשוטים לבנות מפה שאפשר יהיה להבין במבט אחד.

מאיפה בכל זאת באה סקלת הצבעים? חדי העין, וחובבי צפיה בקשתות בענן, יבחינו שהסקלה לא באמת שרירותית – זאת (פחות או יותר) סקלת אורכי הגל של הצבעים. אבל המח שלנו לא בנוי לחשוב על צבע כעל משתנה סדור. הנה הדגמה מושקעת. אני מניחה שתסכימו איתי שהקלפים הבאים מסודרים לפי הסדר:

קלפים עם כוכבים שנבדלים זה מזה בגודל הכוכב

זה בגלל שגודל הוא משתנה סדור. גם הקלפים הבאים מסודרים פי הסדר:

קלפי הנבדלים זה מזה בבהירות הכוכב

וזה בגלל שמידת כהות היא משתנה סדור. אבל האם הקלפים הבאים מסודרים לפי הסדר? או שלא?

ארבעה קלפים עם כוכבים בצבעים שונים

התשובה: לא ברור. תלוי. לצבע אין סדר טבעי. צריך מקרא.

במקרים מסוימים סקלת אורכי הגל עובדת. לדוגמה, במפות טמפרטורה:

מפת טמפרטורות - ארצות הברית

מפת טמפרטורות של ארה"ב, מתוך הבלוג של Dylan Vester

הסיבה העיקרית שהיא עובדת כאן היא שאנחנו מקשרים היטב בין אדום לחום ובין כחול לקור. אבל כשאנחנו עוזבים את העולם הבטוח של טמפרטורות, ואפילו לעולם הסמוך של כמויות משקעים, הקישור הטבעי הזה אובד (מה גם, שלא ברור עד כמה אפילו מפת החום היתה ברורה אם לא היה בה שום חלק אדום או כתום).

הצעה לפיתרון? להשתמש במידת בהירות של צבע (כמו בדוגמת הקלפים האמצעית) או ברוויה (saturation) של צבע, במקום בכמה צבעים. ערך מוסף הוא שהויזואליזציה יוצאת יותר יפה.

והנה שתי התמונות (שגנבתי מכאן) שמדגימות את הרעיון. מה יותר אינפורמטיבי, ככה:

פסיכדליה בים יפן

או ככה:

תכלת וחום, הצבעים של העונה

ביבי פחוס

אין דבר שמוציא מעורכי עיתונים דחף לגרפים יותר מאשר סקרי בחירות וניחושי מנדטים. ושום דבר לא אחר מוציא מעורכי עיתונים דחף כזה להטות תוצאות ולעוות תפיסות. גרף עמודות פשוט מספק כר מרעה עשיר למשחקים כאלה, כמו שכבר ראינו. אבל מעריב (או אתר האינטרנט שלו, nrg) סיפק לנו דוגמה יפה נוספת:

900

הסיפור של הגרף הזה ברור. יאיר לפיד נכנס למערכת הפוליטית וטורף את הקלפים, ופתאום המירוץ נהיה צמוד. קדימה יורדים מהמקום הראשון לשלישי, העבודה מתחזקת, ואפילו הליכוד נכנס כאן למירוץ. אבל האם זה באמת המצב? זה הזמן להכניס את אחד מכלי הבילוש המתוחכמים שבהם אנחנו כאן בשקרים יפים משתמשים לזיהוי תרמיות עדינות וזיופי בחירות. אני מתכוון, כמובן, לתוכנת Paintbrush שמגיעה עם חלונות.

מה העלנו בחכתנו, אם כך? ראינו שבעוד ארבעת העמודות הימניות שומרות על יחס של פחות-או-יותר 10-11 פיקסלים למנדט, העמודה של הליכוד עומד על כ-7 פיקסלים למנדט בלבד. כלומר ההישגים האלקטורליים של הליכוד הומעטו בהמחשה הגרפית, נדחסו ל-207 פיקסלים בלבד. אמנם מספר המנדטים מצוין במפורש, אבל הרבה יותר קל לנו לקלוט מידע השוואתי באופן גרפי מאשר במספרים. בשביל הרי נולדו האינפוגרפיקות מלכתחילה, לא?

כך הגרף היה נראה אם גם הליכוד היה נהנה מ-10.4 פיקסלים מרווחים לכל מנדט, שוב, תודות לכלי העריכה המתקדמים והמקצועיים שלנו (עדיין Paintbrush):

image

נותן תחושה קצת שונה, לא?

כל העניין הזה מצער, כי חוץ מהסיפור של דחיסתו של ביבי, הגרף די אפקטיבי. צבעים ברורים ובולטים, מספרים מסומנים בבירור, ושימוש בקריקטורות מזוהות + שם מפלגה צמוד לכל עמודה כדי שיהיה ברור מי זה מי. ואז מגיעה הדחיסה.

ולפני שיבוא איזה אפולוגיסט ויגיד שהגרף, במתכונתו המדויקת יותר, לא נראה טוב על העמוד עם הרבה שטח לבן מת ולכן היה צריך לדחוס את זה, אני אזכיר שהתפקיד של האינפוגרפיקה היא להעביר מידע, לא למלא שטח מת בעמוד. לדחוס עמודה בשביל קומפוזיציה יפה יותר זה כמו להשמיט את המילה “איראן” מכותרת כמו “איראן: בכיר בתכנית הגרעין חוסל בפיצוץ”. זה היה מונע מהכותרת לגלוש לשורה השניה, שזה דבר רע (כך לימדו אותי), אבל לא ממש לגיטימי, נכון?

המלחמה נגד האינפוגרפיקה

זה תמיד נחמד לדעת שיש אנשים אחרים שחולקים את האובססיות שלך. לפני כשבועיים פירסמה מיגן מקרדל, עורכת בכירה במגזין ה-Atlantic, רשומה ארוכה שכותרתה “לעצור את מגיפת האינפוגרפיקה”, בו היא עושה, ובכן, מה שהבלוג הזה שם לעצמו לעשות: להביא דוגמאות לאינפוגרפיקות מטעות, מוטות ומעוותות ולהסביר איפה נפלה בהם הטעות. אהבתי למשל את הקטע הזה, מתוך אחת האינפוגרפיקות שהיא מביאה:

image

דוגמה קלאסית לנתון מטעה. זה אולי נכון שהסיכוי למות עקב טעות בבית החולים גבוה מהסיכוי למות בהתרסקות מטוס (מדובר כאן על הסיכוי הכולל שתהיה התרסקות, כן? לא הסיכוי לשרוד אם המטוס כבר התרסק). אבל הוא מתעלם לחלוטין מנתון מאד בסיסי, והוא שמי שנמצא בבית חולים, הוא גם ככה חולה ונמצא בסיכון למות. זו בדיוק אופן הצגת הנתונים שאינפוגרפיקות מצטיינות בהן – הבאת נתונים מספריים השוואתיים בלי הקשר, בלי הסבר, בלי הבנה של המשמעות שלהם.

יש למקרדל עוד כמה הפרכות נחמדות שם, אם כי הפוקוס שלה הוא יותר על העלמות מכוונות של נתונים בין הנתונים הגולמיים לבין הייצוג בגרף, ולאו דווקא על ייצוגים גרפיים מטעים, אבל בכל זאת טוב לראות אנשים נוספים בתחביב.

ולסיום, אינפוגרפיקה קטנה של מקרדל:

infogrinfographic.png