ShookRun.com

With Knowledge comes Opportunity
With Opportunity comes Success

Technical Analysis Portal Financial Analysis Value Investing Behavioral Finance Portal

הטיית כורי המידע - Data-Snooping Bias

"בהינתן מספיק זמן, מספיק נתונים ומספיק ניסיונות, ניתן "לגלות" תבניות שונות בכל קבוצת נתונים רנדומלית שהיא"- פרופ' אנדרו לו.

כריית מידע היא התעסקות במציאת מודלים לחיזוי עתידי דרך נבירה במאגרי נתונים, בחיפוש אחר קורלציות, תבניות או כללי מסחר. לאחר חיפוש במספיק נתונים ומשתנים, החוקר ימצא (בצורה רנדומלית לחלוטין) סדר מסויים - מערך מסויים של כללי מסחר שיניבו רווחים במדידה על אותו מאגר נתונים ספיציפי.

כריית מידע הפכה קלה במיוחד לאור זמינות מאגרי המידע וכח המחשוב הזול שעומד לרשות הסוחרים. ההתקדמות האדירה בטכנולוגיית המחשוב נתנה לסוחרים המקצועיים (וגם לחובבים) יכולות להשיג ולנתח כמויות עצומות של נתונים פיננסיים. ואולם, אותה קלות חשפה את כורה-המידע ההדיוט לסיכונים רבים.

המשקיע הקטן יכול לעשות היום שימוש בתוכנות ניתוח רבות. אותו משקיע, בטוח ביכולתו האדירה למצוא את "הגביע הקדוש" - אותו סט כללים (סיסטם) שבנוי משילוב מספר משתנים (טכניים/פנדמנטלים) שיביא לו רווחים גדולים ויאפשר לו להכות את תשואת השוק. אותו משקיע, לא יקבל את העובדה שטובי המוחות בעולם הפיננסי מתקשים בכך. מכאן, הדרך של אותו משקיע להפסדים כואבים, קצרה.

הוא יעשה למשל שימוש במסד הנתונים של אינדקס כלשהו או מנייה כלשהי בפרק זמן כלשהו ויתחיל לשנות, להתאים ולווסת סוגים שונים של משתנים עד להשגת התוצאה הרווחית הרצויה. אולי יעשה שימוש בחציית ממוצע-נע יומי 50. לא עובד? ישנה לממוצע-נע 47. גם לא עובד. אולי ינסה ממוצע-נע 41 יחד עם משתנה נוסף - ימתין ל-RSI שיחצה את רמת ה-60 יחד עם חציית הממוצע-הנע הקודם. אולי יוסיף עוד משתנה - MACD 12,36 עם עוד ממוצע יומי כלשהו, אולי יחפש קורלציה מסויימת עם מדד שני ושלישי ואולי, לקינוח, יוסיף גם את מתנד ה-ADX ברמה מסויימת. המשקיע יוסיף ויוריד מתנדים, יווסת כל אחד ואחד מהם, יעביר לילות כימים - עד שישיג את התוצאה הרצוייה, את הרווחיות המיוחלת. ואולם, אם יחשוב לרגע מה בעצם עשה - יבין את הטעות הגדולה, את חוסר התועלת וחוסר התוחלת במעשיו. כל מה שהשיג הוא התאמה של סט כללים מסויים לאותו מסד נתוני עבר. אין לאותו סיסטם שום יכולת לגבי העתיד.

ג'ייסון זווייג, העיתונאי הפיננסי המפורסם, נגע בנקודה זו במאמר (False Profits) שפורסם בשנת 1999. "בדיוק כמו שאנחנו יכולים "לנתח" את מזג-האוויר של יום האתמול בדיוק של 100%, כך אנחנו מסוגלים לדעת בדיוק אלו מניות השיגו תשואת יתר בעבר. אם נבחן את התנהגותן במשך מספיק זמן, נמצא בהכרח מספר מאפיינים משותפים - אבל ללא ביסוס הגיוני זה יהיה רק עניין של מזל".

על מנת להראות עד כמה קל לבדות "תבניות" בסדרת נתונים רנדומלית לחלוטין, זווייג בחן נתונים של 10500 מניות שנפרסו על תקופה בת 20 שנה. הוא "גילה" שניתן היה להכות את השוק "בקלות". כל שהיה על הסוחר הממוצע לעשות הוא לקנות מניות שאין בשמן אותיות החוזרות על עצמן. לעזאזל השיטות המורכבות. Texaco - לקנות (אין אותיות כפולות). Exxon - לא לקנות (שני Xים). הוא קרא לאסטרטגיה הזו "המודל הטיפשי מאוד". במהלך שנת 1999 "המודל הטיפשי מאוד" השיג תשואות מדהימות במניות כמו ניומקס (316%), גריי-וולף (208%) ואולטראפם (100%). בשנת 1998, "המודל הטיפשי מאוד" היה קונה את ג'אם (4,900%), איי.אף.אקס (409%) ואת גאפ (138%). במהלך 20 שנות הבדיקה, משקיע שיישם את "המודל הטיפשי מאוד" היה מכה את השוק ב-1.3% בשנה. אבל המשקיע הקטן לא רוצה רק להכות את השוק, הוא חולם להשיג תשואה ממש מדהימה מעל תשואת השוק. אז זווייג שיחק קצת עם הפרמטרים של המודל, שינה אותם במקצת, וויסת והתאים אותם עד שהגיע ל"מודל המטומטם ביותר". על-פי אותו מודל יש להחזיק רק את אותן המניות ללא אותיות כפולות שנמצאות ברבע הנמוך מבחינת שווי שוק. האסטרטגיה הזו היתה ממש מדהימה והכתה את השוק ב-6% לשנה במהלך 20 שנות הבדיקה.

חושבים שמדובר בבדיחה? לא! הנתונים אמיתיים - משקיע שיישם את "המודל הטיפשי מאוד" או את "המודל המטומטם ביותר" יכל היה להכות את השוק ב-20 השנים האחרונות. אבל בין זה לבין הטענה שהמודלים תקפים לעתיד - המרחק רב. כאשר מווסתים את הפרמטרים על סדרת נתונים כלשהי על-מנת להגיע לתוצאה הרצוייה, בסופו של דבר "תתגלה" תבנית כלשהי שתהיה תקפה בדיוק גבוה. מבחינה סטטיסטית פשוטה - "התגלית" מחוייבת המציאות מפאת גודל בסיס הנתונים והפרמטרים האפשריים. כל שאפשר לומר על "התגלית" הוא שסדרת משתנים מסויימת התאימה למסד נתוני עבר מסויים ותו לא - לא יהיה בה שום תועלת לעתיד.

הסטטיסטיקאים נוהגים לומר שאם מענים (torture) את המידע לזמן ארוך מספיק, המידע יודה (confess) בכל. גם ילד שיביט בעננים מספיק זמן יצליח לראות באחד מהם שפן. אחת הדוגמאות המפורסמות ביותר להטיית כורי-המידע נמצאת במחקר סאטירי שערך דייויד לינוובר ("טריקים טפשיים לכורי-מידע"). שם הוא נבר במאגרי המידע של האו"ם ומצא שמחירי החמאה בבנגלדש יכולים לחזות נכונה את מרבית התנועות במדד ה-S&P.

הנקודה שחשוב לזכור מכל האמור היא שאם אדם בוחן את כל ההקשרים האפשריים בין הנתונים הנמדדים, הוא ימצא, בהכרח, מספר קורלציות שייראו משמעותיות, אבל אם לא ניתן להסביר ולבסס את הקורלציות או את המודלים מבחינה הגיונית, אם השינויים בפרמטרים שמרכיבים את האסטרטגיות מבוצעים רק כדי להתאימם לקבוצת הנתונים הנבדקת - האסטרטגיות חסרות תוקף ושגויות, מזל סטטיסטי ותו לא. אסטרטגיית מסחר תקינה חייבת להתבסס על תיאוריה סבירה או נימוק הגיוני. שינוי המשתנים כדי ללכוד תבנית מסויימת לא מהווה בסיס הולם. השאלה היא למה לדוגמא נבחר המשתנה המסויים הזה על פני האחרים (למה לדוגמא דווקא ממוצע-נע 47 ולא ממוצע-נע אחר, למה דווקא ייצור חמאה בבנגלדש ולא כמות הבשר בגיניאה החדשה)? בלי ביסוס הגיוני - מדובר רק בהתאמה מקרית למסד נתוני עבר, ללא תועלת עתידית כלשהי.

עקב בעיית כריית-המידע תתקלו למשל במילות האזהרה הנפוצות: "הצלחות העבר אינן ערובה להצלחות העתיד". לכן גם חשוב יותר לדעת מדוע סיסטם מסויים הינו רווחי, מאשר לדעת עד כמה הוא רווחי. פעמים רבות מספור נתקלתי בסיסטמים, הן של משקיעים חובבנים והן של מנהלי כספים מקצועיים, שהוצגו לי באמצעות גרפים בהם נראים סימני כניסה ויציאה מושלמים (המשתנים בדר"כ נותרים עלומים הואיל ואותם מפתחים בטוחים שהם מחזיקים "בגביע הקדוש"). מציג הסיסטם הגרפי מצא התאמה מסויימת בין סדרת משתנים ולדעתו אותה התאמה יכולה להביא לתוצאות חיוביות באופן עקבי - "כאשר משתנה א' נמצא מתחת למשתנה ב' ומשתנה ג' נמצא מעל רמה ז' - אני נכנס לשורט". מציג הסיסטם יטען שיש לו משמעת עצמית והוא תמיד עוקב אחר הסיסטם שלו. אבל אז, כשכסף אמיתי נכנסת למערכה, הסיסטם כושל. מה קרה? לא היה כל ביסוס הגיוני פיננסי למערכת המשתנים. ההתאמה עשוייה להיות עניין של מזל סטטיסטי - כמו אותה קורלציה בין חמאה בנגלדשית לבין ה-S&P. תמיד ימצא מערך מסויים של משתנים שיתאים למאגר נתוני עבר כלשהם. זו עובדה סטטיסטית פשוטה שנגזרת מסדרת משתנים פוטנציאלית בלתי מוגבלת למעשה ומסד נתוני עבר עצום בגודלו.

כאשר נתקלים במערך משתנים מסויים שנראה רווחי, תמיד יש לשאול מדוע דווקא מערך זה נבחר. מה מיוחד כל כך במערך. מה הנימוק ההגיוני שדווקא סט משתנים זה ולא אחר נמצא מתאים. יש להביא ביסוס פיננסי הולם. בכל מקרה, יש להעמיד את מערך המשתנים שנבחר תחת ביקורת ספקנית נוקשה - למשל, לנסות לבחון את ההתנהלות העתידית שלו במשך פרק זמן סביר, לבחון אותו על מערך נתונים דומה אחר וכיוצ"ב. מבחן ביקורתי טוב למדי יהיה שימוש במסד נתונים מוגבל כלשהו, שלא מגיע עד לזמן הווה (לדוגמא - ניתוח מסד נתוני המעוף עד לשנת 2002 ומציאת סט משתנים "רווחי" ואז לבדוק את אותו סט משתנים "רווחי" על פרק הזמן בין 2002 עד לזמן הווה).

מבחנים נוספים להטיית כורי-המידע וכיצד ניתן להתמודד עם ההטייה ואולי למנוע אותה, ניתן למצוא במחקר שפורסם בשנת 1999 במגזין לניתוח פיננסי, בו נבדק מודל מסויים מול מבחני ההטייה:
Mining Fool's Gold, McQueen and Thorley, 1999

המחקרים המפורסמים ביותר בנושא, יצאו לאור בשנת 1997 ו-1998, ע"י החוקרים סאליבן, טימרמן וווייט:
Data-Snooping, Technical Trading Rule Performance, and the Bootstrap - בהקשר של כללי מסחר טכניים.
Dangers of Data-Driven Inference: The Case of Calendar Effects in Stock Returns - בהקשר של אנומליות קלנדריות.

מחקר מעניין נוסף, בהקשר של אנומליות פוליטיות (המחזור הנשיאותי והפרמייה הדמוקרטית), יצא לאור בשנת 2006:
Real-time forecasting and political stock market anomalies: evidence for the U.S

ריכוז חומר בנושא זה, לרבות הדוגמא המפורסמת של הקוד התנכ"י, מצוי באתר InvestorHome.