רועי שילקרוט
20 בדצמבר 2021

מכורים להימורים: כך הפכו מהנדסי הלמידה החישובית לשחקנים במכונת מזל

כשמריצים מודלים ללמידה חישובית על מידע חדש ומחכים שהם ייתנו תוצאות יפות ונכונות - אנחנו למעשה מצפים לראות האם הייתה לנו יד מוצלחת, ממש כמו בקזינו. בעולם האמיתי - נספוג כמובן אכזבות. כך תיגמלו מדפוסי החשיבה שמעכבים אתכם

Contributors

בספר רב המכר "The Power of Habit" ("כוחו של הרגל") של הסופר צ'ארלס דוהיג, מסופר את סיפורם של מכורים להרגלים, וביניהם גם מכורים להימורים. התמכרות להימורים, על פי דוהיג, נובעת בין היתר מהנטייה האישית של כל אדם להתמכר. אצל אחדים מדובר בנטייה גדולה בעוד אצל אחרים – פחות. אבל ההתמכרות נובעת גם מההאופן של המשחק ולאו דווקא אופיו של השחקן, ואת זה ניתן לזקוף בעיקר לרגעי ה-"כמעט ניצחון".

דוהיג טוען שמחקרים הראו שהתנהגות המוח של המכורים ובייחוד ברגעים שקרובים לניצחון (אבל הם בהחלט הפסד), דומה להתנהגות המוח ברגעי ניצחון גדול. עם העיקרון הזה, ממציאי משחקי המזל משחקים עם מוחם של המשתתפים – מייצרים הרבה רגעי "כמעט" וכך גורמים להם לשחק שוב ושוב עד שיבזבזו את כל כספם ואת חסכונותיהם.

איך כל זה קשור ללמידה חישובית? כשאנחנו מריצים מודל למידה חישובית על מידע חדש ומחכים שהוא ייתן לנו תוצאות יפות ונכונות – אנחנו למעשה משחקים במכונת מזל. אם המודל נתן תוצאה יפה – נשמח, אם הוא טעה אבל "כמעט הצליח" – אנחנו מקבלים את אותו אפקט שמקבלים המכורים להימורים. כך, בלי ששמנו לב, הפכו מהנדסי הלמידה החישובית למכורים להימורים ולרגעי הניצחון של המודלים שאנחנו מאמנים.

באופן קומי כמעט, המושג של "השודד בעל היד האחת" (The One Armed Bandit, הכינוי למכונות מזל שבהן מושכים בידית בקזינו), הוא מושג ממשי בעולם התאוריה של הלמידה החישובית. המושג נמצא בשימוש במידול של אופטימיזציה של תהליך על-ידי "משיכה בידן" של מכונות מזל מרובות, כאשר כל מכונה שולפת ערך באקראי מהתפלגות שאינה ידועה לשחקן. בחלק מהמשיכות השחקן יקבל פרס ובחלק לא, בהינתן הערך האקראי (ממש כמו בקזינו).

על השחקן למקסם את רווחיו כאשר הוא יכול לבחור באיזה מכונה ישחק ובאיזה סדר. ניתן לשחק במכונה אחת פעמים רבות כדי ללמוד את ההתפלגות שלה, אבל מספר המטבעות בידו של השחקן מוגבל – אלא אם ימצא דרך עקבית להרוויח. המודל התאורטי שופך אור על תהליכים בהם יש יחסי גומלין בין ניצול (Exploitation) ומחקר (Exploration). האם יש לנצל מכונה אחת שההתפלגות שלה כבר ידועה או שיש לצאת לחקור מכונות נוספות וללמוד את ההתפלגות שלהן ואולי שם למצוא רווח גדול יותר? המודל הוא גם מטפורה מעולה לבעיות רבות שאנו נתקלים בהן בחיים.

כשאנחנו מריצים מודל למידה חישובית על מידע חדש ומחכים שהוא ייתן לנו תוצאות יפות ונכונות – אנחנו למעשה משחקים במכונת מזל

אך בעולם האמיתי שאינו רק תאורטי, אנחנו בונים למעשה מכונות מזל וקוראים להן מודלים של למידה חישובית. לכל מודל שאנחנו מאמנים יש את מדדי היעילות שלו בפתרון הבעיה, כמו למשל אחוזי דיוק. את המדד אנחנו מודדים על מאגר מידע שהמודל לא ראה ומדמה את המידע שהוא יראה בעולם האמיתי (או כך אנו מקווים).

לא נרצה שאף מודל שאימנו יגיע ל-100 אחוזי דיוק. למעשה, אם נקבל אחוז דיוק מושלם על מאגר הבדיקה, ככל הנראה נחשוב שהמודל נמצא ב-Overfitting וננסה לפתור את הבעיה ולהפחית את האחוזים. אם כך, בכל מודל למידה חישובית יש אלמנט של מזל. לפעמים המודל יטעה איפה שלא היה צריך, ולפעמים הוא יחזיר תוצאה נכונה "במקרה", למרות שעל מידע דומה הוא יחזיר תוצאה לא נכונה.

אם יש אלמנט של מזל – הרי שמדובר במכונת מזל. מכונת מזל שאמנם תשלם לנו כסף, לתקוותנו, ביותר מ-90% מהפעמים שנמשוך בידית, אבל באותן 10% מהפעמים – אנחנו נתאכזב. אבל האם באמת נתאכזב? כאן נכנס לתמונה האלמנט הרגשי, בו אנחנו משליכים על המודל (המורכב ממשקולות ופעולות אריתמטיות ולוגיות), תכונות של אדם. אדם שמנסה בכל כוחו להצליח במשימה שנתנו לו. כמו כל אדם, לפעמים הוא מצליח, לפעמים נכשל, ולפעמים הוא "כמעט מצליח".

כשהוא "כמעט מצליח" אנחנו שמחים, כי אנחנו יודעים שהוא קרוב לפתרון וסביר להניח שהוא יצליח בפעם הבאה. אבל האמת היא שברוב המקרים אין "כמעט הצלחה". או שהתוצאה נכונה או שהיא לא. ברגעי האמת, כשהמערכת רצה בפרודקשן, אנחנו לא נהיה שם כדי לעודד את האדם הקטן במכונה שיצליח יותר בפעם הבאה.

כשאנחנו מריצים את המודל שלנו במעבדה ומסתכלים על התוצאות כדי להבין איך נוכל להשתפר, אנחנו מפתחים התמכרות קלה לניצחונות של המודל. "כאן הוא כמעט הצליח" או "זה כבר ממש קרוב" – אלה משפטים שכנראה כל אחד מאיתנו אמר בשלב מסוים. אך כפי שאמרנו, בפרודקשן אין "כמעט". או שזה נכון או שזה טעות. ובחלק מהאפליקציות – אין מקום לטעויות.

אז איך נגמלים מההתמכרות שלנו להימורים? הפתרון הטוב ביותר הוא להתנתק רגשית ולא לנתח את התוצאות של המודל אחת אחת, אלא רק להתבונן רק על התוצאות הסופיות שלו ולמדוד את מדדי היעילות על מאגר הבדיקה.

מדידת הצלחה באופן אובייקטיבי ואוטומטי זה רעיו טוב באופן כללי, ככל שזה נוגע למודלים של למידה חישובית. במקרה הספציפי שלנו, ננסה להפחית את מה שנקרא ה-Cherry Picking Fallacy – הנטייה האנושית שלנו להשליך ממספר מידעים מצומצם על התנהגות של כלל עולם הבעיה, כך שתאשרר את הרצונות או התקוות שלנו.

בנוסף, אם אפשר לייצר הרבה אלטרנטיבות לפתרון הבעיה, כמו למשל מספר מודלים אפשריים, זה עוזר לניתוק רגשי מכל מודל יחיד ומאפשר להסתכל על הבעיה והפתרון שלה באופן עקרוני יותר. זה גם עולה בקנה אחד עם עקרון ה-Exploitation vs. Exploration, בו עדיף לייצר אפשרות לצאת ולבדוק מודלים אחרים שאולי ישלמו לנו יותר.

לכן, ברגע שתמצאו את עצמכם אומרים: "בפעם הבאה הוא יצליח", תעצרו ותפנימו שנפלתם קורבן להתמכרות להימורים במודלים של למידה חישובית, תעשו כל מה שאפשר כדי להיגמל.

ד”ר רועי שילקרוט הוא מדען ראשי בחברות בארה”ב ובישראל, עמית מחקר במכון הטכנולוגי של מסצ’וסטס (MIT) בו הוא מרצה בנושאי בינה מלאכותית, ובעבר פרופ’ למדעי המחשב באוניברסיטת סטוני ברוק בניו יורק. הוא פרסם מאמרים וספרים בנושא והוא חתום על מספר פטנטים בתחום.

ה- Contributors של פורבס ישראל הם כותבים עצמאיים שנבחרו על ידי מערכת פורבס, מומחים בתחומם, המספקים פרשנות וסקירת תופעות עכשוויות בתחום התמחותם. התוכן הוא מטעמם ובאחריותם והוא אינו תוכן ממומן.

מכורים להימורים: כך הפכו מהנדסי הלמידה החישובית לשחקנים במכונת מזל

הרשמה לניוזלטר

באותו נושא

"כן, אבל" נגד "לא, אבל": מה המשא ומתן בעזה יכול ללמד אותנו על תקשורת עסקית

״זה היה אמור להיות פרויקט צדדי״: מאור שלמה על הסטארט-אפ שהקים לבד – ותוך חצי שנה נמכר ל-WIX

מגע של זהב: הישראלים שמככבים ברשימת משקיעי ההון סיכון הטובים בעולם