סחרחורת עמודות

פורסם בתאריך 8 במרץ 2016 על ידי אבנר שחר קשתן

רוב הדוגמאות שעלו כאן בבלוג סביב גרף עמודות נסובות סביב הטריק הקלאסי של קיצוץ בסיס הצירים, מה שמקצין שונוּת ומכפיל הבדלים. לפעמים גם אפשר להנות מבחירה מפוקפקת של סדר העמודות שנועד גם הוא לטשטש את הסיפור – כולן דוגמאות שכבר היו לנו. ואני שמח שכעיוותים כאלה צצים, יש אנשים טובים שכבר רגישים לנושא ומעמתים את המפרסמים עם זה.

לכן שמחתי כשקיבלתי דוגמא לסוג חדש של הטיה בגרף עמודות. לא עוד קיצוץ בסיס הצירים (טוב, יש גם את זה). לא עוד סדר עמודות לא ברור (האמת? זה גם). לא, כאן יש לנו דוגמא נהדרת לאיך אפקט תלת-מימד לא רק שלא עוזר, הוא אקטיבית מפריע.

הנה גרף שפורסם בעמוד הפייסבוק של המתפ”ש – גוף תיאום פעולות הממשלה בשטחים, המציג תנועת משאיות במעבר כרם שלום (השארתי רק את הגרף – את התמונה המלאה אפשר לראות בקישור)

על פי הכותרת, מדובר על נתונים שנאספו בין ה-28.2 ל-03.3, כלומר חמישה ימים, מה שמרמז שהעמודות מייצגות את הימים, וכנראה מסודרות כרונולוגית, אבל באיזה סדר? מימין לשמאל? שמאל לימין? התמונה כולה באנגלית, מה שגורם לי לחשוב שהמוקדם יותר הוא משמאל, אבל טווח התאריכים בכותרת דווקא רשום מימין לשמאל, מה שמבלבל. בהתחלה חשבתי שהמספרים בתחתית הגרף הם השנתות של הציר, אבל הן לא – הן סתם עוד פריט מידע נוסף.

אבל סדר העמודות הוא בעיה פחותה יחסית, וגם הקיצוץ המתבקש בבסיס הצירים הוא מהצפויים. הבעיה הראשית היא שהגרף מוצג בהיטל איזומטרי לא ברור, שגם מעוות במעין עדשת עין-דג. הטכניקה קבועה שלי של מדידת פיקסלים ב-Paintbrush נהיית מסובכת כשהקווים כולם אלכסוניים, ולא באותה זווית כולם!

העקמומיות הזו של הקווים, העובדה שהעמודות לא מוצגות באופן ישר אחד ליד השניה, אלא שהבסיס של כל אחת נמצא בגובה שונה, בהיטל שונה, בזווית שונה אחד מהשני, מאפס את המטרה הרשמית, הראשית והמפורשת של גרף עמודות, שהיא לאפשר השוואה ויזואלית ואינטואיטיבית של גדלים. במקום זה יש לנו שתי עמודות המבוססות על אותו נתון (749 משאיות) שהפרש הגדלים בין שתי פינות שלהן גדול יותר מאשר ההפרש בין עמודת ה-749 השניה לבין ה-743 שאחריה. וההפרש בין 749 ו-753 מיוצג בכ-20 פיקסלים –פי ארבע מה-5 פיסקלים של ההפרש בין 749 ו-743. וזה, כמובן, בלי שדיברנו על הצניחה הקיצונית ל-714.

וכמו במקרים רבים, לא מדובר כאן על חוסר הקפדה על יצוג הנתונים. מדובר על גרף שנוצר ע”פ נתונים, אולי, אבל שאז ישב מעצב גרפי והיטה כל עמודה בפני עצמה (מה שבכלל לא אפשרי בפונקציית העמודות התלת מימדיות של אקסל, לפחות במהדורת 2007 שמותקנת אצלי) או שהשתמש בפונקציית היטל שמתעלמת מהאספקטים האינפוגרפיים של הציור. יכול להיות שזה נעשה משיקולי אסתטיקה. יכול להיות שמשיקולי “גם ככה זה לא משנה”. בכל מקרה, זה מבהיר שיצור מדויק של המספרים לא היה השיקול הבולט.

כשמאה הוא לא מאה (אחוז)

פורסם בתאריך 28 באוגוסט 2015 על ידי אבנר שחר קשתן

הקורא יובל הפנה אותי לכתבה הזו בויינט, על הרגלי המשפחתיות הישראלים:

סקר: כמה פעמים בחודש ישראלים נפגשים עם הסבתא?

ובו שני גרפים מרתקים:

כמה פעמים אנחנו נפגשים? ()

זה הראשון, המציג את תכיפות הפגישות של סבים וסבתות עם נכדיהם. הוא יחסית פשוט וברור, בלי משחקי פיקסלים וסדרי גודל, אבל זה לא משנה את העובדה שכשאנחנו סוכמים את כל העמודות, אנחנו נשארים עם 88% בלבד. אני לא יודע אם המשמעות היא שה-12% הנותרים לא ענו על השאלה (ואם כך, למה לא להוציא אותם מתוך השקלול בכלל?) או שהיו עוד תשובות אפשריות (למרות שתשובות הקצה כאן הן פתוחות), או שסתם מישהו זרק מספרים, אבל ל-100% זה לא מגיע.

ובכיוון השני, יש לנו את העוגה הזו, לאופי הפעילויות המשותפות:

מה אנחנו עושים ביחד ()

שוב, בלי יותר מדי מניפולציות (חוץ מההטיה הבסיסית של עוגה תלת מימדית). למען האמת, זה נראה כמו גרף שיצא ישירות מאקסל (גרסאות 2003-2010, לפחות). אבל שוב, אם נסכום את כלל האחוזים בהתפלגות, נגיע ל-196% מלאים! כמעט פי שתיים מהאנשים שבעצם היו בסקר!

במקרה כאן, אני חושב שהבעיה היא בהתאמה בין סוג הויזואליזציה לבין סוג הנתונים. גרף עוגה נועד להראות התפלגות מתוך שלם, אבל לא מדובר כאן, כמו בגרף הראשון, על אפשרויות שמהן אפשר לבחור רק אחת. אני מניח שהמשיבים יכלו לתת יותר מתשובה אחת – גם שיחות טלפון, גם בילויים, גם ארוחות – וכך נוצר מצב שהיו יותר תשובות מאשר משיבים. כנתון, זה הגיוני לחלוטין. כגרף עוגה? מפספס את הנקודה.

מה שהייתי עושה כאן הוא פשוט להחליף את הייצוגים הויזואליים של שני הגרפים. את הראשון, שאכן מציג התפלגות של בחירות חד-ערכיות מתוך רשימה, הייתי מציג כעוגה. ואת השני, שמראה את הפופולריות היחסיות של אפשרויות שונות בלי קשר למכלול, הייתי מציג בגרף עמודות:

עונת בחירות, עונת הטעיות

פורסם בתאריך 11 בדצמבר 2014 על ידי אבנר שחר קשתן

עם ההכרזה על פיזור הכנסת והליכה לבחירות, ידעתי שהגיע הזמן להעיר את הבלוג ממרבצו ולהתחיל לפרסם שוב. עם הבחירות באים הסקרים – אפילו שעוד מוקדם לסקרים רציניים – ועם הסקרים מגיעות האינפוגרפיקות המטופשות, מוטות וסתם שגויות.

הקוראים ענבר רובין ואסף שרייבר שלחו לי, כל אחד בנפרד, פוסטים בפייסבוק של בוז’י הרצוג ושל ציפי לבני, כל אחד בנפרד, ובו תמונת מסך מחדשות ערוץ 2 והסקר החדש שלו:

כאן אנחנו, כמובן רואים את מיטב הפספוסים המוכרים לנו – החל מסידור של עמודות שלא בסדר עולה וכלה בעמודה אחת שלגמרי לא פרופורציונאלי למספר שלה – בעוד כל העמודות נעות בסביבות 3.4-3.8 פיקסלים למנדט, ישראל ביתנו מיוצגת בכ-6.6 פיקסלים למנדט.

אבל אני די משוכנע שלא היתה כאן כוונת זדון או הטעיה. לא מצד חדשות ערוץ 2, שם כבר יש גרף מתוקן שבו כל העמודות משחקות באותו מגרש, ולא מצד הרצוג ולבני, שסביר להניח שכ”כ התרגשו מתוצאות הסקר שבכלל לא הסתכלו על שלושת המפלגות בצד שמאל, והתמקדו במאבק של הרשימה המשותפת שלהם מול הליכוד.

אני מקווה לראות בעונת הבחירות הזו הרבה גרפים גרועים, ואני שמח לראות שאנשים קשובים יותר מתמיד. שלחו לי דוגמאות גרועות במיוחד, ואני אשמח לפרסם אותן!

ביט אחד של אינפורמציה

פורסם בתאריך 8 בינואר 2014 על ידי אבנר שחר קשתן

קצת רקע למי שפחות שוחה בטרמינולוגיה של תקשורת דיגיטלית ומחשוב: ביט (או bit, או סיבית, במקור Binary Digit, או ספרה בינארית) היא יחידת האינפורמציה הקטנה ביותר במחשב. היא מייצגת נתון בינארי אחד – או 0, או 1. אם יש לי נתון בודד שאני רוצה לאחסן או לייצג, כמו אם הפוסט הזה פורסם או לא פורסם, אבל לייצג אותו עם ביט אחד. או 0, או 1. ברגע שנרצה לייצג מידע מורכב קצת יותר (נגיד, רק השעה שבה הפוסט פורסם) אנחנו נצטרך, כמובן, הרבה יותר מביט אחד.

למה אני מספר לכם את זה? בגלל אינפוגרפיקה בויינט אותה שלח לי נדב פרץ-וייסוידובסקי, שמצליחה להציג כל כך הרבה, אבל להגיד כל כך מעט.

זה החלק הראשון שלה: (צילום: shutterstock)

בהתחלה הגרף הזה רק קצת צרם לי. לא סתם שהעמודות של 2000 ו-2012 לא פרופורציונליות בשום צורה למידע שמוצג ליד הגף – היחס בין העמודה האדומה לכחולה הוא בערך 1:1.4, בעוד היחס בין הנתונים הוא בערך 1:1.1. אבל אם זה לא מספיק, הגרף הוא גם הפוך – העמודה הקטנה יותר, של 2000, מייצגת מס’ גדול יותר של רופאים ואחיות. אז למה העמודה הכחולה גדולה יותר? לא ברור.

אבל אז דפדפתי במורד העמוד, ועיני חשכו עוד יותר (או, ליתר דיוק, אדמו וכחלו):

(צילום: אבישג שאר-ישוב, shutterstock)

כאן סדר העמודות התחלף, והכחול הארוך מייצג את שנת 2000, בעוד האדום הקצר את 2012. זה נראה טיפה יותר הגיוני – העמודה הקטנה יותר מייצגת מספרים קטנים יותר – ואפשר אולי להתלונן על חוסר האחידות בצבע, אבל יש כאן משהו הרבה יותר בסיסי ויותר עקרוני, שאני בטוח שקפץ גם לעיניכם כשראיתם את הגרף הזה:
כל העמודות הן באותו באורך.
כל העמודות הן באותו האורך, ולא משנה מה הנתון שאליו הן מוצמדות. כל העמודות הן באותו האורך, ולא משנה מה היחס בין הנתונים או היחס בין העמודות. כל העמודות הן באותו האורך.

בהמשך העמוד, עוד גרף. הפעם של דברים שהשתנו לטובה, או לפחות גדלו, בין 2000 ל-2012:

(צילום: shutterstock)

ושוב, אותן עמודות, מסודרות הפעם הפוך. הצבעים שוב השתנו, בשביל לוודא שלא תהיה להם שום משמעות. אדום כבר לא מייצג את 2000 או את 2012, אלא את העמודה הקטנה יותר תמיד – אבל מכיוון שהציר בין אדום וכחול לא מקושר אצלנו אינטואיטיבית עם “גבוה ונמוך” או אפילו עם “טוב ורע”, הבדלת הצבעים הזו חסרת משמעות אינפורמטיבית.

ההגדרה של אינפוגרפיקה היא לקחת נתונים ולייצג אותם בצורה גרפית. הנחת היסוד היא שיש קשר כלשהו בין הנתון לבין הגרפיקה. אבל כאן העמודות (והאם אפשר בכלל לקרוא להן עמודות? זה פשוט בלוק של צבע רקע ליד השנים) לא מביאות לנו סדרי גודל, או יחסים, או השוואה של ממש. העמודות שלנו כאן מבטאות רק פריט מידע אחד: האם הנתון בשנת 2000 הוא גדול או קטן יותר – מספרית, אבסולוטית – מאשר זה שבשנת 2012. זה הכל. פריט מידע אחד, בודד, ובינארי. ביט אחד של אינפורמציה.

אינפוגרפיקה היא כלי חזק ביותר. היא יכולה לדחוס מסר לתוך פיקסלים ספורים, להכניס מידע של מחקר שלם לתוך גרף אחד. אבל כל הכח הזה, הקילובייטים של קובץ התמונה בעמוד, העבודה של הגרפיקאים – כל זה בשביל להעביר ביט אחד, יחיד, בודד של אינפורמציה.

ובגרף הראשון – אפילו את זה הם לא מעבירים נכון.

אינפוגרפיקה מתחת לפנס

פורסם בתאריך 1 באפריל 2012 על ידי אבנר שחר קשתן

אתמול, בחצות, עלה מחיר הדלק בישראל ל-8 שקלים לליטר. כך זועקות הכותרות. וכותרות המשנה. וההפניות, והלינקים, והציוצים והסטטוסים בפייסבוק. זו העובדה הבסיסית שכולם יודעים. 8 שקלים לליטר. זה מחיר הדלק בישראל.

בטמקא לא פספסו את ההזדמנות, כמובן, ~~לניתוח מעמיק~~ דיווח שטחי וסנסציוני של הנושא, דיווח שבולט במיוחד מהאינפוגרפיקה שליוותה את הכתבה:

עליית מחירי הדלק

מה אנחנו לומדים מהאינפוגרפיקה הזו? בגדול, שמחיר הדלק עלה ל-8 שקלים לליטר, בעוד שבעבר הוא היה נמוך יותר.

מה היינו רוצים לקבל מהאינפוגרפיקה? קצת יותר מידע, אולי. לא רק את המחירים ב-2001, אלא גם את היחס שלהם לאינפלציה, ליוקר המחיה, לכח הקניה של השקל. את היחס של מחיר הדלק מהמשכורת הממוצעת במשק, וגם של החציונית. את החלק שהדלק תופס במדד המחירים לצרכן, וכמה הוא משפיע על מדד המחירים.

היינו רוצים לדעת כמה מהמחיר הזה מגיע מהנפט הגולמי שנרכש בחו”ל, כמה נובע מעיבוד וזיקוק בארץ, וכמה מגיע ממיסי מדינה. הייתי רוצה להצליב את המחיר הזה, אולי, עם שינויים שעברו על תעשיית הרכב בעשור-וחמישית שמתוארים בכתבה, על ההבדלים בצריכת הדלק של הרכב הממוצע. הייתי רוצה לקבל השוואה למדינות אחרות, שגם בהן (כך שמעתי את שר האוצר טוען בטלוויזיה בסוף השבוע) מחירי הדלק הרקיעו שחקים. האם גם שם העליה היתה באותו היקף?

הייתי שמח גם לניתוחים מעמיקים יותר, למידע מסדר שני ושלישי. מה היחס בין העליה במחירי הדלק לאורך העשור האחרון לבין חלקו היחסי של המיסוי? מה חלקו של המיסוי במדינות אירופה? בארה”ב? האם מחירי הדלק הושפעו מהמשבר הכלכלי שמלווה אותנו בארבע השנים האחרונות?

את כל הנתונים הללו אין לי בגרף של טמקא. ממנו אני יכול רק לדעת שהמחירים עלו. והם עומדים על 8 שקלים לליטר. מחירים עלו. 8 שקלים לליטר. כל הגרף הזה, וזה כל מה שאני יכול ללמוד. מחירים עלו. 8 שקלים לליטר.

סוג של נצחון

פורסם בתאריך 12 בפברואר 2012 על ידי אבנר שחר קשתן

הקורא גיא הפנה אותי לאינפוגרפיקה הבאה, הבאה להקביל את הרווחים הרבעוניים של אפל לעומת משכורת ממוצעת של עובד בפוקסקון, המפעל המייצר עבור אפל את מרבית המכשירים:

מה שמעניין כאן הוא לא האינפוגרפיקה עצמה, אלא ההערה, באדום בקטן, בפינה הימנית התחתונה של הגרף: “הנה גרף שמציג את המספרים ביחסים האמיתיים שלהם, למקרה שמישהו ישלח את זה למיגן מקרדל”. מקרדל, למי ששכח, היא עורכת בכירה במגזין ה-Atlantic שפתחה לפני זמן מה במלחמה נגד אינפוגרפיקות מטעות, לשמחתנו הרבה. מה שזה אומר הוא שאנשים מתחילים להיות מודעים לבעייתיות של האינפוגרפיקות שלהם. גם אם הם מביעים את המודעות הזו בצורה צינית ולעגנית, לפחות הם מרגישים צורך להתנצל על כך.

לא שההתנצלות הזו חפה מבעיות. הגרף “התקין” שלהם מבלבל לא פחות, בכך שהוא הופך את הסדר של העמודות (רווחי אפל היו משמאל, עכשיו הם מימין), ומשווה דברים שונים (רווחי אפל לעומת סך כל המשכורות בפוקסקון, לא של עובד בודד), אבל כאן יש הסבר אסתטי: היחס האמיתי בין רווחי אפל לבין משכורת של עובד בודד הוא חסר משמעות, שכן המשכורת תאלץ להיות מיוצגת בפס הדק יותר מפיקסל בודד. ובכל מקרה, המטרה של ההשוואה היא מול סך התשלום של אפל, לא מול עובד בודד.

ביבי פחוס

פורסם בתאריך 11 בינואר 2012 על ידי אבנר שחר קשתן

אין דבר שמוציא מעורכי עיתונים דחף לגרפים יותר מאשר סקרי בחירות וניחושי מנדטים. ושום דבר לא אחר מוציא מעורכי עיתונים דחף כזה להטות תוצאות ולעוות תפיסות. גרף עמודות פשוט מספק כר מרעה עשיר למשחקים כאלה, כמו שכבר ראינו. אבל מעריב (או אתר האינטרנט שלו, nrg) סיפק לנו דוגמה יפה נוספת:

הסיפור של הגרף הזה ברור. יאיר לפיד נכנס למערכת הפוליטית וטורף את הקלפים, ופתאום המירוץ נהיה צמוד. קדימה יורדים מהמקום הראשון לשלישי, העבודה מתחזקת, ואפילו הליכוד נכנס כאן למירוץ. אבל האם זה באמת המצב? זה הזמן להכניס את אחד מכלי הבילוש המתוחכמים שבהם אנחנו כאן בשקרים יפים משתמשים לזיהוי תרמיות עדינות וזיופי בחירות. אני מתכוון, כמובן, לתוכנת Paintbrush שמגיעה עם חלונות.

מה העלנו בחכתנו, אם כך? ראינו שבעוד ארבעת העמודות הימניות שומרות על יחס של פחות-או-יותר 10-11 פיקסלים למנדט, העמודה של הליכוד עומד על כ-7 פיקסלים למנדט בלבד. כלומר ההישגים האלקטורליים של הליכוד הומעטו בהמחשה הגרפית, נדחסו ל-207 פיקסלים בלבד. אמנם מספר המנדטים מצוין במפורש, אבל הרבה יותר קל לנו לקלוט מידע השוואתי באופן גרפי מאשר במספרים. בשביל הרי נולדו האינפוגרפיקות מלכתחילה, לא?

כך הגרף היה נראה אם גם הליכוד היה נהנה מ-10.4 פיקסלים מרווחים לכל מנדט, שוב, תודות לכלי העריכה המתקדמים והמקצועיים שלנו (עדיין Paintbrush):

נותן תחושה קצת שונה, לא?

כל העניין הזה מצער, כי חוץ מהסיפור של דחיסתו של ביבי, הגרף די אפקטיבי. צבעים ברורים ובולטים, מספרים מסומנים בבירור, ושימוש בקריקטורות מזוהות + שם מפלגה צמוד לכל עמודה כדי שיהיה ברור מי זה מי. ואז מגיעה הדחיסה.

ולפני שיבוא איזה אפולוגיסט ויגיד שהגרף, במתכונתו המדויקת יותר, לא נראה טוב על העמוד עם הרבה שטח לבן מת ולכן היה צריך לדחוס את זה, אני אזכיר שהתפקיד של האינפוגרפיקה היא להעביר מידע, לא למלא שטח מת בעמוד. לדחוס עמודה בשביל קומפוזיציה יפה יותר זה כמו להשמיט את המילה “איראן” מכותרת כמו “איראן: בכיר בתכנית הגרעין חוסל בפיצוץ”. זה היה מונע מהכותרת לגלוש לשורה השניה, שזה דבר רע (כך לימדו אותי), אבל לא ממש לגיטימי, נכון?

שקרים יפים

על נתונים, אינפוגרפיקות, ומה שהולך לאיבוד בדרך

ארכיון תגיות: עמודות