דלג לתוכן
Nivision
חזרה לבלוג

תמלול שיחות בעברית: למה רוב הכלים נכשלים

מאת Nivision5 דק' קריאה
תמלול שיחות בעבריתSpeech-to-Textטכנולוגיהעברית

הסיפור חוזר אצל כל מנהל מוקד שניסה תמלול AI גנרי בעברית: Whisper מהקוד הפתוח, Google Speech-to-Text או AWS Transcribe. הדמו עובד, התמלול של איזה podcast נשמע סביר, ואז מריצים על שיחה אמיתית מהמוקד - והתוצאה מאכזבת. שמות לקוחות מעוותים, מילים באנגלית מתועתקות לעברית, מספרים שגויים. הסיבה היא לא "פחות דאטה אימון" - היא מבנית.

הציפייה מול המציאות

הציפייה מ-Whisper-class או מ-STT ענן בינלאומי: דיוק של 95% גם בעברית, כמו באנגלית.

המציאות בשטח: 70-85% על שיחות טלפון מהמוקד הישראלי הממוצע - וזה רק במידת אחוזי המילה הכולל. ברמת המילים שנושאות משמעות (שמות, מספרים, מונחים מקצועיים), הדיוק לרוב נמוך יותר. וזה בדיוק המקום שבו תמלול חייב להיות נכון - כי סיכום שיחה שמפספס את שם הלקוח או את סכום העסקה הוא סיכום מזיק.

שורש הבעיה: למה הכלים הגנריים נכשלים

יש חמש סיבות מבניות שמסבירות למה כלי STT גנרי לא יכול להגיע לדיוק שמוקד ישראלי דורש.

1. מורפולוגיה עברית עשירה

עברית בנויה אחרת מאנגלית. שורש אחד מייצר עשרות צורות: "כתב", "כותב", "כתבה", "ייכתב", "נכתב", "הכתבה", "כותרת". מודל אקוסטי באנגלית רגיל לראות צורת בסיס יציבה - בעברית הוא צריך להתמודד עם וריאציות מורפולוגיות בלי סוף, ולקשר את כולן לשורש אחד.

מודל שאומן בעיקר על אנגלית עם תוספת עברית לא מצליח לבנות מפה מורפולוגית מספיק מדויקת. הוא טועה בדיוק במילים שהכי משתנות.

2. מילים באנגלית מתועתקות לעברית

ככה מדברים בעסקים בישראל: "תעשה לי quick check", "המוצר על stand-by", "צריך approval מהמנהל". זה לא קוד-סוויצ'ינג נדיר - זה הדיבור היומיומי במוקד.

מה שקורה אצל מודל גנרי: הוא מזהה את הצליל האנגלי אבל מתעתק אותו לעברית בכתב - "קוויק צ'ק", "סטנדבאיי", "אפרובל". התמלול נראה רע, החיפוש לא עובד ("חפש את כל השיחות שבהן עלה approval" לא ימצא כלום), והסיכום ב-LLM מבולבל.

מודל שמודע למבנה הדו-לשוני של הדיבור הישראלי משאיר את האנגלית באנגלית - כי ככה הנציג והלקוח באמת התכוונו.

3. אקוסטיקה של טלפוניה (8kHz)

רוב מודלי ה-STT אומנו על אודיו באיכות סטודיו - 16kHz ומעלה, ללא רעש. שיחות טלפון הן 8kHz, דחוסות בקודקים כמו G.711, עם הד, ניתוקים קצרים ורעש רקע ברור.

זה לא "אודיו פחות טוב" - זו תפלגות שונה לחלוטין שהמודל לא נחשף אליה. השילוב של עברית קשה + אודיו 8kHz הוא הצלב שבו רוב הכלים הגנריים נשברים.

4. אוצר מילים מקצועי

מודל גנרי לא יודע מה זה "פוליסת מנהלים", "מע"מ תשומה", "תמ"א 38", "כרטיס מילואים", "תעודת זהות 9 ספרות". זה לא רק אוצר מילים - זה הקשר שמשפיע על הזיהוי האקוסטי עצמו. מודל ייעודי לשיחות עסקיות ישראליות יודע מראש שכאשר השומע מזהה משהו שנשמע כמו "פולסת" - בהסתברות גבוהה זו "פוליסת".

5. מבטאים ישראליים מגוונים

עברית מדוברת בישראל היא לא מקטע אחד. יש מבטא ישראלי "סטנדרטי", מבטא אשכנזי, ספרדי, רוסי, אתיופי, אנגלי-ילידי, ערבי. במוקד טיפוסי כל אחד מהם מופיע. מודל גנרי שאומן על "עברית סטנדרטית" יורד בדיוק על כל מי שלא נשמע כמו קריין חדשות.

איך זה נראה במספרים

הטבלה הבאה מבוססת על השוואות שטח של כלים שלקוחות שלנו ניסו לפני שעברו ל-Nivision:

סוג כלידיוק מילים על podcast עברידיוק על שיחת מוקד 8kHzדיוק על שמות + מספרים
Whisper (large)88-92%70-78%נמוך
Google Speech-to-Text (he-IL)85-90%72-80%נמוך-בינוני
AWS Transcribe (he-IL)80-87%65-75%נמוך
מנוע ייעודי לעברית92-95%90-93%גבוה

הפער בעמודה האמצעית הוא הסיפור האמיתי. רוב הכלים מעריכים את עצמם על "תמלול עברית" כללי - אבל מוקד מתמלל שיחות טלפון, לא podcast.

הפתרון: מנוע Hebrew-first

מנוע שמסוגל לתת תוצאות אמינות במוקד ישראלי נבנה מאפס סביב כמה החלטות:

  • אומן על עברית טלפונית - דאטה אמיתי של שיחות מוקד ב-8kHz, לא הרצאות TED.
  • מודל לשוני שיודע אנגלית-בתוך-עברית - שיודע להשאיר "approval" באנגלית.
  • מילון מונחים עסקיים ישראליים - פוליסות, מע"מ, תעודות זהות, פרטי מוצרים נפוצים.
  • דיאריזציה ייעודית לשיחות 2 דוברים - מוקדמת ויציבה, גם כשיש דיבור חופף קל.
  • fine-tuning per-vertical - מוקד ביטוח, מוקד פיננסים ומוקד שירות לא נשמעים אותו דבר. מנוע ייעודי מתכוונן.

ב-Nivision כל אלה אחוז בליבת המוצר - לא תוסף. זו הסיבה שלקוחות שעברו מ-Whisper או מ-STT ענן רואים קפיצה מיידית בדיוק על שיחות אמיתיות.

למה זה לא "סתם עוד קצת אימון"

יש הבדל מהותי בין "להוסיף עברית למודל אנגלי" לבין "לבנות מודל עברי מההתחלה". כשמודל גדול אומן בעיקר על אנגלית, ההיררכיות הפנימיות שלו (איך הוא מייצג צלילים, הקשר ומבנה משפט) מותאמות לאנגלית. הוספת דאטה עברי בסוף האימון משפרת קצת - אבל לא משנה את ההיררכיה. זה כמו לחנך אדם מבוגר לשפה חדשה: ישיג שטף סביר, אבל ההגייה והמבנה המקוריים נשארים.

מודל שאומן על עברית מההתחלה, או שעבר fine-tuning עמוק על דאטה עברי גדול ואיכותי, בונה את ההיררכיות הפנימיות שלו סביב עברית. זו ההכרעה המבנית שעושה את ההבדל.

רוצים לבדוק את ההפרש בעצמכם?

הדרך הטובה ביותר לבדוק היא לקחת 3-5 שיחות אמיתיות מהמוקד שלכם, להריץ אותן בכלי שאתם שוקלים, ולהשוות:

  • כמה שמות לקוח עברו נכון?
  • כמה מילים באנגלית הושארו באנגלית?
  • כמה מספרים (סכומים, ת"ז, מספרי מוצר) נקלטו במדויק?
  • כמה השיחה התחלקה נכון בין נציג ולקוח?

זה מספיק כדי לדעת אם הכלי עובד באמת או רק נשמע טוב בדמו. יש לנו רשימת 5 שאלות שמסייעת לעבור על ההערכה הזו בצורה מסודרת.

שאלות נפוצות

האם Whisper לא חינמי וטוב מספיק?

Whisper open-source הוא נקודת פתיחה מצוינת לפרויקטים קטנים, אבל על שיחות מוקד בעברית הדיוק שלו נופל מתחת לרף שמאפשר ניתוח אמין. בנוסף, Whisper לבדו לא נותן הפרדת דוברים, סנכרון ל-CRM או דשבורד תפעולי - הוא רק מודל STT אחד.

האם הבעיה לא תיפתר בעוד שנה כש-Whisper יקבל גרסה טובה יותר?

Whisper משתפר עם הזמן, אבל הפער המבני נשמר. גם Whisper v4 לא יעצב את הארכיטקטורה הפנימית שלו סביב עברית - ולא יידע על מונחים עסקיים ישראליים ספציפיים. מודל ייעודי שומר על יתרון מבני.

מה לגבי GPT-4o / Gemini? הם לא יותר טובים בעברית?

מודלים גדולים כמו GPT-4o ו-Gemini טובים מאוד בהבנת עברית טקסטואלית. אבל תמלול דיבור הוא בעיה שונה ממודל שפה - הוא דורש מודל אקוסטי שאומן ספציפית על אודיו. ה-LLM נכנס לתמונה אחרי התמלול, לסיכום ולניתוח.

מתי בכל זאת כלי גנרי מספיק?

לתמלול חד-פעמי של ראיון, podcast באולפן, או הרצאה - כלי גנרי בהחלט יכול לעבוד. הבעיה היא ספציפית לשיחות מוקד: 8kHz, דיבור מהיר, מונחים עסקיים, מילים באנגלית בתוך עברית.

רוצים לראות את ההפרש על שיחות אמיתיות?

Nivision היא פלטפורמת AI ישראלית לתמלול, סיכום וניתוח שיחות בעברית. אנחנו עובדים יום-יום מול מוקדים שעברו מכלים גנריים ושיפרו את הדיוק בעשרות אחוזים על שיחות אמיתיות.

קבעו פגישה קצרה - 30 דקות, בלי שקפים. הביאו 3 שיחות מהמוקד שלכם, ונראה לכם בזמן אמת איך המנוע שלנו מתמלל אותן. או השאירו פרטים ונחזור אליכם תוך יום עסקים.

תקבלו תובנות על בינת שיחות

כתיבה מעשית על ביצועי מוקד, בקרת איכות ואימון - ישר לתיבה שלכם.

מתחילים

הפכו את השיחות שלכם לפעולה.

ראו את Nivision מנתחת שיחות כמו אלה שהצוות שלכם מנהל כל יום. הדגמה של 30 דקות, בלי שקפים.

דברו איתנו