לקרוא מתחת לפנס

האינפוגרפיקה החביבה הזו צצה לי בפייסבוק לאחרונה, וגררה הרבה תגובות – בעיקר מחובבי פנטזיה שמרוצים מכך שהז’אנר שלהם (בין אם נכליל בו את התנ”ך או לא) מככב ברשימת עשרת הספרים הנקראים ביותר בעולם. האינפוגרפיקה עצמה חביבה מאד –שימוש בשפה העיצובית של עולם התוכן, במקרה הזה מדף ספרים, בצורה שמשלבת גרף עמודות בצורה ברורה. יש לי קצת בעיה עם קנה המידה, שסובל כאן מבעיה הפוכה מזו הנפוצה של קיצוץ מערכת הצירים: המעצב בחר להתחיל את מערכת הצירים באמצע הגרף, בשביל שאפשר יהיה להכניס את שם הספר המלא, ורק אז להתחיל ולספור, וזאת בשביל שאפשר יהיה להכנס את השמות בנוחות בלי אילוצים של הגרף. אבל המשמעות כאן היא צמצום-יתר של ההבדלים בין העמודות השונות, כך שבפועל, אין שום הבדל גרפי בין מקומות 4-10, ורק שלושת המקומות הראשונים בעצם מקבלים משמעות שלא נובעת מהסדר של העמודות.

אבל הבעייתיות היותר גדולה כאן היא בנתונים עצמם, כמו שאפשר לראות מהדיונים סביב שני המקומות הראשונים, התנ”ך וספרו הציטטות של מאו, כשהטענה היא ששניהם ספרים שרבים יחזיקו בבית, אבל לא באמת יקראו. אני חושב שהבעיה כאן בסיסית יותר, והיא שהגרף בכלל לא מודד את מה שהוא מתיימר למדוד.

הגרף מתבסס על רשימה שפורסמה באתר Squidoo, שמתיימרת להתבסס על מחקר מעמיק (כי ככה הוא אמר!) לגבי היקפי הדפסה ומכירות של ספרים ב-50 השנה האחרונות. שני הנתונים הללו קשורים אחד לשני, ללא ספק, אבל הם לחלוטין לא מקבילים. מצד אחד, לא מפתיע שיש ייצוג יתר לתנ”ך – לא רק שהוא ספר שאנשים רבים ירצו בביתם בלי קשר לקריאתו, יש גם מיליוני עותקים של התנ”ך שמפוזרים בחדרי מלון, כאלה שמחולקים ע”י מיסיונרים, ועוד. ארגון Gideon’s מתהדר שמאז 1908 הוא חילק 1.7 מיליארד(!) עותקים של התנ”ך. כמה מהם בעצם נקראו? לא ברור.

ובנוסף לייצוג-יתר הזה של ספרים שמודפסים כדי שיחולקו, לא כדי שיקראו, יש לנו גם תת-ייצוג של ספרים בספריות ציבוריות ובספריות של בתי ספר. אם מאות מיליוני תלמידים קוראים שייקספיר כל שנה, איך הוא לא ברשימה? כי הוא ב-Public domain, ועותקים ישנים נמצאים בכל בית ספר, כך שהוא לא מודפס ונמכר כ”כ הרבה. ומה עם חנויות יד שניה? ומה עם ספרים אלקטרוניים? מה עם ספרים שעוברים מיד ליד? כל אלה לא נכנסו לחישוב.

שוב, זה ברור למה הנתון שנבחר הוא זה שנבחר. “נקראות” זה לא משהו מדיד, אלא אם תראיין כל אדם ברחבי העולם. אז אתה בוחר נתון שכן ניתן לכימות – כמות עותקים שהודפסו וכמות עותקים שנמכרו. וגם לנתונים הללו יש ערך. אבל אסור לבלבל ביניהם לבין “הספרים הנקראים ביותר”. ובטח שלא כמו שעורך המחקר עושה, לחשוב שיש קשר בין המצאותו של ספר ברשימה הזו, לבין היותו ספרות טובה.