התמלול קול ווידאו של מנועי החיפוש כל עוד קליינטים

המלץ אודות קישור עמוד תלונות הדפס מאמרשתף עמוד זה הזמן בפייסבוקשתף עמוד זה הזמן בטוויטרשתף מאמר זה ב-Linkedinשתף לינק זה הזמן ב-Deliciousשתף עמוד הגיע ב- Diggשתף מאמר זה ב-Redditשתף קישור הגיע ב-Pinterest
במשך השבוע הראשוני על ידי מאי, 2010 גוגל הכריזה הכול על שחרור בסדר גודל עולמי בקרב מתן התמלול הווידאו שלה ביוטיוב. בזמן שפורסמה בלב ליבו של 2009, גרסת הבטא בקרב תמלול קבצי אודיו סרטוני YouTube הינה נוכחת למס’ אוניברסיטאות נבחרות, שדרני חדישות וסוכנויות ממשלתיות.

ההיסטוריה בקרב טכנולוגיית זיהוי הדיבור החלה מסוף שנות ה-30, כאשר מעבדות AT&T Bell פיתחו טלפון פרימיטיבי שידע לראות שיחה. החוקרים ידעו כיצד שהשימוש הנרחב בזיהוי שיחה יהיה עומד ביכולת לתפוס אם אמין ומקצועי ועקבי קלט מילולי שברירי עשוי. אולם אירועים מכיוון שטכנולוגיית המחשוב אינם נתפסה די טובה, הפיתוח אצל זיהוי דיבור ניצור בקצב חילזון.

חמישים שנים מעתה והלאה, הכישורים אצל מכונות אלקטרוניים דיגיטליים רבים עלו בכלל המתארת את הטכנולוגיות המתאימות והיקרות מאד של שנות ה-30. הגיע התאפשר בשל חדירות הדרך שנעשו בייצור שבבים ומוליכים למחצה. המחסומים הרציניים מאד למהירות ולדיוק אצל זיהוי שיחה – מהירות המחשב והכוח – באופן מיידי הן לא שיש מקרה.

שיש להן עוצמת מחשוב יקר יותר (נמדד ביחידות בקרב FLOPS) מהיכן שמדעני הרשת על ידי שנות ה-30 של העסק שלכם יכלו לדמיין, מתכנתים זכאים מעכשיו להשלים אלגוריתמים לקוד ולפענוח אצל 5 מצויין בידי דפוסי קול. מעשית הם יכלו מעכשיו לבנות מסד פרמטרים אצל מאות רבות של דפוסי קול שונים, להמיר אותם לגלי סינוס דיגיטליים ולנתח סימנים בדבר סמך המתמטיקה על ידי אותות דפוסי קול. לתקופה של כמה זמן מוגדרת, כאשר מכשירי הדיבור לכתב הפכו לשימושיות; פירמות רבות התחילו להציע זיהוי קולי לרוכשים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס אחרות.

אם כן עתה נשאלת השאלה – עד הרגע כמה הטכנולוגיות הללו העולות על כל הציפיות, יחסית תמלול קבצי אודיו יוטיוב של גוגל ואם הנישות יתחרו בעבר אחרת יעלו על דיוק תמלול קבצי אודיו האנושי?

אדם שאוהב לראות מקרוב בסרטוני יוטיוב אלו שיש להן כיתובים מופעלים, כנראה תראה שהדיוק אצל הכתוביות מקבל מימדים בגודל קיפולים בזמן החודשים האחרונים. הדיוק צץ מעת עבור יום והוא רק מתעתד להשתפר ככל שיותר עוזרות משתמשים בשירות. כמו שאריק שמידט, מנכ”ל אינטרנט בע”מ כל הזמן -‘ התמלילים של העסק שלכם ב-YouTube אצל Google ישתפרו במהלך כמה זמן, ככל שיותר ויותר משתמשים יעשו שימוש ש, שכן זאת פיתוח בקרב לימוד עצמית”


אולם אירועים אכן מתופעל מספר פגמים מהותיים שכדאי לצפות מבעוד ועד למרות מכיוון שזאת טכנולוגיה על ידי למוד עצמית –

1. כיתוב אמין אפשרי לא מורכב במקרה שבו הדובר מסביר בהסתכלות על בצורה משמעותית ברורה וברורה.


2. הסביבה וכרחה לשכור ירוקה כמעט מכל ניתוח של הפרעה

3. שגיאות מתגנבות מפאת סימבולים שנשמעות דומות כגון – שמיים וגבוהים – שאנחנו מדברים בפרק זמן קצר, המערכת אינן יתכן ותהיה להפריד בין השניים.

4. תמלול הקלטות ביניים – לעתים קרובות כמו זה עוצרים או גם משמיעים צלילי חזות תוך כדי הזמן נאומים – האלו מכילים בתוכם אה, המממ, אהה וכדומה. תוכנת הזיהוי יכול לעשות מאמצים לתמלל וכדלקמן רק את אלה, ולעתים נותנת השפעה מצחיקות. (חפש ביוטיוב עבור תמלול קולי גורם חיוך בקרב גוגל)

ולבסוף עובר להתגורר החיסרון הממשי יותר מכל

5. שביעות רצון פסיכולוגית – לאחר שהכתוביות בוצעו באמצעות הרובוטים בקרב אינטרנט, אם מאמיר הסרטון אפשרי בטוח במידת הדיוק? ברורה ובאופן מיוחד שמומלץ לברר רק את הכתוביות המתומללות לאיתור שגיאות ולהגהה מיקרים. הגיע אומר להמשיך המתאימים לכל הסרטון פעמים, לסדר את כל המילים אם וכאשר ידני, לתפעל רק את החלק הדקדוק חוקי פסיקים, מקפים, מרכאות וכדומה ולהעלות כש. תהליך שלוקח ימים.

קדימה מה התשובה המוצלח לתמלול קבצים אחר טכנולוגיית זיהוי קול לטקסט?

הפתרון הנו נוחה, הדרכים במדינה קבצים דיגיטליים ואנלוגיים תומללו ב-50 עם הזמן האחרונות – בני אדם.

ארבע על חברת התמלול ותמלול מסה ב-Etranscriber תמלול הקלטות .