כך התחיל הסדק באמון במחקר הפסיכולוגי
בשנת 2011 התפרסם מאמר קצר יחסית בכתב העת Psychological Science, אך ההדים שלו חרגו הרבה מעבר לגבולות העולם האקדמי. שלושת מחבריו, בהם פרופ' ליף נלסון, בחרו להאיר תופעה שרבים הכירו אך מיעטו לדבר עליה: הגמישות הרבה שמאפשרת סטטיסטיקה למחקר להיראות "משמעותי", גם כשהוא אינו כזה. המאמר לא חשף תרמית מכוונת, אלא תיאר מציאות יומיומית שבה חוקרים, בלחץ לפרסם, עושים בחירות מתודולוגיות שנראות לגיטימיות אך מעוותות את האמת. בכך, הוא סימן התחלה של תנועה שקראה תיגר על עצם יסודות המהימנות המדעית.
הרקע לפרסום המאמר היה תחושת אי נוחות שהלכה והתגברה בקרב חלק מהחוקרים. מדוע ממצאים מפתיעים מתקבלים שוב ושוב, אך כשהם נבחנים מחדש הם פשוט לא חוזרים על עצמם? איך ייתכן שתחום שמבוסס על שיטות מדעיות מניב תוצאות שנשברות ברוח קלה של ביקורת? מאחורי הקלעים, היו לא מעט חוקרים שידעו את התשובות, אך לא רבים העזו לומר אותן בקול רם. נלסון ועמיתיו החליטו לשבור את השתיקה.
המאמר, שכותרתו "False-Positive Psychology", הציג הדגמה ברורה: כיצד ניתן להגיע לתוצאה "משמעותית" סטטיסטית גם כשאין באמת אפקט ממשי. כל מה שצריך הוא קצת גמישות בבחירת נקודת הסיום של האיסוף, בהחלטה אילו מדדים לנתח, או באילו תנאים להשוות. הדברים האלה אמנם מוכרים לחוקרים, אך כשהם הוצגו בצורה כל כך שקופה, בלתי ניתן היה עוד להתעלם מהם. המאמר הניח מראה מול עולם שלם של מחקר אמפירי, והתמונה שהשתקפה ממנה הייתה מטרידה.
חשוב להבין שהמטרה של החוקרים לא הייתה לערער את יסודות הפסיכולוגיה, אלא להציל אותם. הם עצמם היו חלק מהמערכת, הם חוו את הלחצים, הם ידעו כמה קשה לפרסם תוצאה "שלילית" או לא חד-משמעית. ולכן, דווקא מבפנים, הם ביקשו לעורר שינוי. התחושה שלהם הייתה ברורה: אם לא נעצור לרגע לבחון את הכלים שבהם אנחנו משתמשים, נמשיך לייצר תוצאות מבריקות שאי אפשר לבנות עליהן כלום.
מהר מאוד הפך המאמר לכלי נשק בדיונים אקדמיים, ואז גם לשם שגור בשיח הרחב. הוא לא רק הציג בעיה אלא גם העניק לה שם, שפה ודוגמה חיה. במובן הזה, הוא לא סתם חרג מהשורה. הוא היה הקריאה הראשונה שסדקה את הקונצנזוס ופתחה פתח לספק. ומשם, לא היה עוד דרך חזרה
כשהמספרים הפסיקו לספר את האמת
אחת הסיבות המרכזיות לכך שהמאמר זכה להד כה עמוק נעוצה בפשטות המדויקת שבה המחברים חשפו את "הטריקים" הסטטיסטיים השכיחים. הם לא האשימו איש בשקר. להפך, הם הדגישו שהבעיה היא במערכת, לא באנשים. מערכת שמעודדת תוצאות מובהקות, שמתמרצת פרסום של ממצאים חדשים ומקוריים, אך לא בהכרח נכונים. בתוך המציאות הזו, המספרים הפכו מגורם שמסייע לחשוף את האמת, לכלי שמאפשר להלביש כמעט כל ממצא במעטפת של תקפות מדעית.
מה שזעזע את הקוראים לא היה עצם קיומה של תופעת ה־P-hacking, אלא ההבנה כמה היא נפוצה וכמה בקלות היא יכולה להתרחש. החוקרים הראו, באמצעות ניסוי הדגמה, שאפשר "לגלות" אפקטים מגוחכים – כמו קשר בין הקשבה למוזיקת הביטלס לבין גיל – וכל זה תוך שמירה לכאורה על כללים מדעיים מקובלים. כשהתהליך הזה פורק לגורמיו, היה קשה להישאר אדיש. כל מי שהתבסס על מובהקות סטטיסטית ככלי קבלת החלטות נאלץ לשאול את עצמו שאלות נוקבות.
בקהילה האקדמית החלו לנשוב רוחות חדשות. מחקרים החלו להיבדק מחדש, ניסיונות שחזור התפשטו, וחוקרים החלו לדבר על "משבר שחזור" שמטלטל את הפסיכולוגיה כולה. מאמרים שהיו עמודי תווך התבררו כבלתי ניתנים לשחזור. עבור הציבור הרחב, זו הייתה תזכורת מטרידה לכך שגם "מדע" אינו חסין מהטיות, לחצים ואינטרסים. עבור הקהילה המדעית, זו הייתה קריאת השכמה.
במקביל לביקורת, התחילו להתגבש פתרונות. כתבי עת החלו לאמץ כללי שקיפות חדשים. דרישות לרישום מוקדם של ניסויים ולשיתוף נתונים הפכו לסטנדרט בבמות רבות. ארגונים של חוקרים צעירים קידמו יוזמות לשיפור האתיקה המחקרית. התחום לא נותר אדיש – אך הדרך עוד הייתה ארוכה.
המספרים עצמם לא השתנו. הם לא שקרנים ולא דוברי אמת. מה שהשתנה היה הדרך בה מביטים עליהם. אחרי המאמר ההוא, קשה היה עוד לראות תוצאה מובהקת בלי לשאול: מה קרה מאחורי הקלעים? איך נאספו הנתונים, כמה ניתוחים נעשו לפני שהתקבלה התוצאה הרצויה, ומה נשאר מחוץ לדו"ח הסופי? השאלות האלה, שלא תמיד נשאלו קודם לכן, הפכו פתאום לבלתי נמנעות.
השינוי דופק בדלת אבל יש מי שמעדיף להתעלם
המאמר של נלסון, סימונס וסיימונסון היה זרז חשוב, אבל הדרך לשינוי עמוק לא הייתה חלקה. לצד קולות שתמכו בביקורת ובקריאה לשקיפות מדעית, נשמעו גם תגובות חריפות מהכיוון ההפוך. היו חוקרים שראו בביקורת איום אישי, היו מוסדות שחששו מערעור על סמכויות מחקריות מבוססות, והיו כאלה שפשוט לא האמינו שיש באמת בעיה. גם כשמתחילים לדבר על אמת מדעית, לא כולם מוכנים להקשיב.
הקהילה האקדמית התבקשה להשתנות – ולא כל חלקיה יכלו או רצו לעשות זאת. היו כתבי עת שעדיין העדיפו לפרסם תוצאות "חיוביות" בלבד, והיו גופי מחקר שנמנעו מלממן ניסיונות שחזור. בתוך כל זה, גם חוקרים צעירים מצאו את עצמם נעים בין ערכים של דיוק ואחריות לבין מציאות תחרותית שמתגמלת תוצאה ולא תהליך.
למרות הקשיים, משהו בכל זאת התחיל לזוז. יותר ויותר כתבי עת אימצו כללים חדשים של דיווח מלא, שיתוף נתונים ורישום מוקדם של שאלות המחקר. יוזמות בינלאומיות לשכפול מחקרים קיבלו חשיפה ומימון. סטודנטים לתארים מתקדמים הוכשרו בגישות ביקורתיות יותר. בעידן שבו מהימנות הפכה לשחקן מרכזי במחקר, גם סטודנטים לתארים ראשונים נדרשים לדיוק ולחשיבה שיטתית כבר מהשלבים הראשונים של הלימודים. רבים מהם פונים לקבלת עזרה בכתיבת עבודה סמינריונית, לא רק כדי לעמוד בדרישות האקדמיה, אלא כדי להבין כיצד מנסחים שאלת מחקר תקפה, בוחרים מתודולוגיה ראויה, ומזהים מוקדם את הטעויות שיכולות להטות תוצאות.
גם מחוץ לתחום הפסיכולוגיה, התחוללו שינויים. בתחום כמו שיווק, שבו עוסק פרופ’ נלסון, החלו להופיע מדדים חדשים לאיכות מחקרית, מדדים שאינם נשענים רק על מובהקות סטטיסטית אלא גם על שקיפות, עקביות ואפשרות לשחזור. המוסדות האקדמיים החלו להבין שלא מספיק לפרסם – צריך גם לסמוך. מהימנות הפכה ממונח שולי ליסוד מרכזי בתהליך ההכשרה המדעית.
ועדיין, הדרך רחוקה מסיום. פרקטיקות בעייתיות לא נעלמות ביום אחד. יש תחומים שבהם הגמישות הסטטיסטית עדיין חיה ובועטת. יש חוקרים שממשיכים להעדיף "סיפורים טובים" על פני ממצאים יציבים. אבל את הספק כבר אי אפשר להסיר. הוא כאן, שותק אולי, אך נוכח.
עשר שנים לאחר פרסום המאמר, קיבלו מחבריו את פרס "עשור של השפעה" מטעם Sage Publishing. הפרס הזה לא רק חותם את חשיבותו של המאמר, אלא גם מזכיר שהשינוי האמיתי מתחיל לא במעבדה ולא בגרף, אלא בשאלה הפשוטה שמישהו מעז לשאול בקול: האם מה שאנחנו עושים באמת נכון. השינוי דופק בדלת. והשאלה הגדולה היא מי יבחר לפתוח.