רועי שילקרוט
9 בספטמבר 2021

עברית שפה קשה: מדוע אין ניתוח שפה במודל ארץ-ישראלי?

אנו רגילים לדבר לאלכסה או לסירי בקלות, אך בשפה האנגלית. פיתוח מודל דומה ומותאם לקהל הישראלי ימנע את בריחת המוחות וייפתח את התעשייה המקומית - אז למה אף אחד לא מרים את הכפפה?

Contributors

בשנת 2010 עברתי לארצות הברית לטובת לימודי דוקטורט. הייתי בטוח בכישורי האנגלית שרכשתי במשך עשרות שנות עבודה בהייטק, אך כשנחתי, חשתי במחסום שפה לא מבוטל. מאז חלפו 11 שנה, ועדיין אני לא יודע בוודאות איך אומרים "משולש שווה שוקיים" בלי לחפש קודם בגוגל טרנסלייט. מחסום שפה דומה חל עכשיו גם על מודלי שפה של למידה עמוקה ואלגוריתמים לניתוח שפה טבעית בעברית.

עולם ניתוח השפה הטבעית הוא במקורו בשפה האנגלית. שפת המחקר, שפתם הראשונה של החוקרים העיקריים, שפתם של הקורפוסים הגדולים ביותר, ואף שפתם של היישומים. לכן המודלים חווים קשיי קליטה וקשיי עלייה לארץ כשהם נתקלים בשפה העברית.

מאחר ומדובר בכמות אדירה של מידע שיש לאמן מראש (pretraining), משאבי המחשוב הגדולים והמוטיבציה אינם בנמצא באופן דומה בארצות הניכר. אמנם ישנן קבוצות מחקר עיבוד שפה טבעית חזקות מאוד בארץ, כמו פרויקט "מילה" של הטכניון, המעבדה של פרופ' יואב גולדברג באוניברסיטת בן-גוריון ומעבדות אחרות באוניברסיטה העברית ובאוניברסיטת תל-אביב. כמו כן, קיימות גם חברות ישראליות הפעילות בתחום כגון Suridata.ai. עם זאת, כל אלה מחווירים בגודלם לעומת הפרויקטים העצומים בארה"ב ובאירופה, הקיימים עשרות שנים וממומנים ביד נדיבה על ידי המדינה והתעשייה.

בשלב מסוים, מישהו הבין שניתוח שפה טבעית הוא עסק טוב. היישומים בכל תחומי החיים הם עתירי השפה, גם באינטרנט אך גם ומחוצה לו. כך למשל, בתחומי הבריאות, החוק והמשפט, הרשתות החברתיות, החינוך, המדעים והמדיה – ישנם יישומים עתירי שפה. זו הסיבה שהשקעה בעיבוד שפה תוביל לצמיחה וקידמה הנוגעות לכלל הציבור.

בשנים האחרונות ראינו קפיצה חסרת תקדים ביכולות האלגוריתמים לעיבוד שפה – בעיקר באנגלית | צילום: Shutterstock

ואכן, בשנים האחרונות ראינו קפיצה חסרת תקדים ביכולות של האלגוריתמים לעיבוד שפה לייצר תוצאות מדהימות, בשפה האנגלית. אחד היישומים החזקים מכולם הוא התרגום האוטומטי (NMT – NEURAL MACHINE TRANSLATION).

קיימים עוד עשרות יישומים מעניינים ומובילים בתחום, המסוגלים לערוך חיפושים מוקפדים במסמכים או לתקן שגיאות בטקסט, אך התרגום האוטומטי הוא יישום שכולנו משתמשים בו באופן יומיומי, בכוונה תחילה או שלא. כיום פייסבוק, גוגל ודפדפן כרום של גוגל מתרגמים אוטומטית פוסטים הנכתבים בשפה זרה, כך שהאוטופיה בתחום השפה כבר מתרחשת.

לא רק בעיה באלגוריתם

כאמור, לצד כל אלו – ניתוח השפה בעברית עודנו מדשדש. לא מדובר בבעיה אלגוריתמית, משום שאת השיטות לייצור ואימון מודלים גדולים כבר גילינו. הבעיה נעוצה, אם כך, במאגרי המידע הקטנים יחסית. מעבר לכך, ישנו היעדר תנופה מסחרית ודרישה תעשייתית, שני גורמים שיכולים להוביל לזינוק בתחום.

כדי לסבר את האוזן, מודל השפה GPT-3, האחרון בסדרה של מודלים מפלצתיים בגודלם שאימנה חברת OPEN AI, ובוודאי אחד המודלים הגדולים בעולם, התאמן על קורפוס בגודל 500 מיליארד מילים (טוקנים), ומכיל כ-175 מיליארד פרמטרים.

נאמר שכדי לאמן את המודל נדרשו בין 3-12 מיליון דולר בשעות מחשוב, המיתרגמות לבין 300-600 שנים על מעבד גרפי גדול אחד. מאיפה יגיע מימון בסדר גודל כזה בארץ, רק כדי לאמן מודל מותאם לעברית?

אילון מאסק. מקדיש את מגרש משחקי ה-AI שלו למודלים של למידה חישובית | צילום: Shutterstock

כאמור, המודל המדובר אומן על ידי חברה מסחרית, שהיא במקרה גם מגרש משחקי ה-AI של אילון מאסק, שמעולם לא הציג מטרות רווח ברורות או אמתיות, וכל קיומו ומטרתו הוא לבחון עד כמה רחוק ניתן להגיע.

כיום, מודלים כדוגמת GPT-3 מוצעים בקוד פתוח על ידי חברות מסחריות מהשורה הראשונה, כמו חברות בת של גוגל ושל מיקרוסופט כמו XLnet, BERTו-T-NLG.

מודלים גדולים ומאומנים מראש (pretrained) הם למעשה בגדר טכנולוגיות מאפשרות – Enablers. חברות מסחריות גדולות לא חוששות לפרסם את המודלים האלו באופן פתוח כדי להאיץ את התעשייה והמחקר בתחום השפה.

המודל של אילון מאסק מעולם לא הציג מטרות רווח ברורות או אמתיות – וכל קיומו ומטרתו היא לבחון עד כמה רחוק ניתן להגיע בתחום

ישנן משמעויות רבות לכך שמרחיקות הרבה מעבר לזמינות המודל עצמו ופרסום בכנסים אקדמיים, כמו היכולת לאפשר לסטארט-אפים להיכנס במהירות ובעוצמה לתחום ובכך לתרום לקידום בכל תחומי החיים.

דבר נוסף שישתפר הוא מניעת תהליך בריחת המוחות. דוקטורנטים לניתוח שפה באוניברסיטאות המובילות בארץ לא ירגישו צורך 'לברוח' עם סיום הדוקטורט לחברות ענק כמו אמזון או גוגל בסיליקון וואלי אם יהיה להם מקומות עבודה מתאימים בחיפה ובבאר-שבע.

להפך, הם יישארו כדי לבנות את מודלי השפה הענקיים הראשונים בעברית, יגדלו את הקורפוסים ויפתחו חברות המתמחות בניתוח השפה העברית עם יישומים המוקדשים לקהל הישראלי, כך שגם הם לא יצטרכו ללמוד איך אומרים משולש שווה שוקיים באנגלית (התשובה היא, אגב, Isosceles).

ד”ר רועי שילקרוט הוא מדען ראשי בחברות בארה”ב ובישראל, עמית מחקר במכון הטכנולוגי של מסצ’וסטס (MIT) בו הוא מרצה בנושאי בינה מלאכותית, ובעבר פרופ’ למדעי המחשב באוניברסיטת סטוני ברוק בניו-יורק. הוא פרסם מאמרים וספרים בנושא והוא חתום על מספר פטנטים בתחום.

ה-Contributors של פורבס ישראל הם כותבים עצמאיים שנבחרו על ידי מערכת פורבס, מומחים בתחומם, המספקים פרשנות וסקירת תופעות עכשוויות בתחום התמחותם. התוכן הוא מטעמם ובאחריותם והוא אינו תוכן ממומן.