דלג לתוכן
Nivision
חזרה לבלוג

למה תמלול עברית קשה יותר מאנגלית? המדריך הטכני

מאת Nivision2 דק' קריאה
תמלול שיחותSpeech-to-Textטכנולוגיהעברית

כל מי שניסה לתמלל שיחות בעברית עם כלי גנרי - Whisper open-source, שירות STT ענן בינלאומי או כלי תמלול AI ל-podcasters - נתקל באותה תופעה: דיוק טוב באנגלית, דיוק בינוני בעברית. זה לא "פחות דאטה אימון". יש כמה אילוצים לשוניים וטכניים אמיתיים שהופכים תמלול עברית לבעיה הרבה יותר קשה.

1. מורפולוגיה עשירה

באנגלית רוב המילים שומרות על הצורה הבסיסית שלהן. "go" נשאר "go" כמעט תמיד. בעברית, אותה מילת בסיס מופיעה בעשרות צורות: "הלך", "הולך", "תלך", "ילכו", "ללכת", "הליכה". המודל צריך לקשר כל אחת מהן לאותה משמעות.

המורכבות הזו דורשת מודל שאומן על הצורות המגוונות של עברית - לא מודל שבונה הכל מהצליל בלבד.

2. סדר מילים גמיש

באנגלית סדר המילים די נוקשה - subject, verb, object. "I want coffee" לא הופך ל-"Want I coffee". בעברית סדר המילים גמיש בהרבה: "אני רוצה קפה", "רוצה אני קפה", "קפה אני רוצה" - שלושתם תקינים, רק בדגשים שונים.

מודל תמלול חייב להתמודד עם כל הצורות האלה ולהוציא את אותה תוצאה. מודל שאומן בעיקר על אנגלית מנסה לכפות את הסדר האנגלי על עברית - וטועה.

3. אוצר מילים מעורב

שיחות בעברית במוקדים ישראלים כמעט תמיד מערבבות עברית עם מילים באנגלית. "תעשה לי quick check בבקשה", "המוצר על stand-by", "צריך approval מהמנהל". זה לא קוד-סוויצ'ינג אקזוטי - ככה מדברים בעסקים בישראל.

מודל תמלול חייב לזהות שמדובר בשיחה בעברית בעיקרה, לתמלל את החלקים בעברית בעברית, ולהשאיר את המילים באנגלית כפי שהן (לא לתעתק לעברית). זה דורש מודל שמודע למבנה הדו-לשוני של הדיבור הישראלי.

4. דיבור מהיר וקיצורים

ישראלים מדברים מהר. במוקדים זה אפילו יותר קיצוני - נציגים שעוברים מאות שיחות ביום מאמצים קיצורים, חזרות ו"מצמוצים" של הברות. "כן בסדר אז נקבע ל-12 וחצי" נאמר ב-2 שניות בלי הפסקות ברורות בין מילים.

מודל שאומן על דיבור פורמלי או על audiobook יוציא הרבה פעמים "כןבסדאזקבעלשנים וחצי" כי הוא לא מזהה את הגבולות בין המילים. מודל שאומן על דיבור מוקדים אמיתי לומד אותם.

5. אקוסטיקה של טלפוניה

רוב מודלי ה-STT מאומנים על אודיו באיכות סטודיו - 16kHz ומעלה, ללא רעש. שיחות טלפון הן 8kHz, דחוסות, עם רעש רקע ועיוותים. מודל שאומן על audiobook באנגלית לא יתמודד טוב עם דיבור על שיחה ניידת.

לעברית השילוב הזה גרוע במיוחד: גם השפה קשה, וגם האודיו דחוס. מודל ייעודי לטלפוניה בעברית מטפל בשני הדברים יחד.

6. הקשר תרבותי ומונחים עסקיים

מודל גנרי לא יודע מה זה "מקדמה", "פוליסת מנהלים", "ביטוח חיים פרטי", "תעודת זהות", "תמ"א 38". זה לא רק אוצר מילים - זה הקשר תרבותי שמשפיע על דיוק הזיהוי. מודל שאומן ייעודית על שיחות מוקד ישראליות מזהה את המונחים האלה ומתמלל אותם נכון.

סיכום

תמלול בעברית קשה יותר מתמלול באנגלית לא כי השפה "פחות חשובה" או "פחות מתויגת" - אלא בגלל אילוצים לשוניים אובייקטיביים. מודלים גנריים עושים מאמץ סביר, אבל לא יכולים להגיע לדיוק של מודל שאומן ייעודית.

Speech-to-Text בעברית במערכת Hebrew-first מטפל בכל שש הבעיות האלה - לא כתוסף, אלא כליבת המוצר. זו הסיבה שמוקדים שעבדו עם כלים גנריים ועברו לפלטפורמה ייעודית רואים קפיצה משמעותית בדיוק.

תקבלו תובנות על בינת שיחות

כתיבה מעשית על ביצועי מוקד, בקרת איכות ואימון - ישר לתיבה שלכם.

מתחילים

הפכו את השיחות שלכם לפעולה.

ראו את Nivision מנתחת שיחות כמו אלה שהצוות שלכם מנהל כל יום. הדגמה של 30 דקות, בלי שקפים.

דברו איתנו