چکیده
سیستم های تشخیص گفتار، داده های صوتی را به داده های متنی تبدیل می کنند یعنی توالی کلمات را به عنوان نتایج تشخیص گفتار ارائه می کنند. این توالی از کلمات، معمولا بر اساس مدل زبانی در سیستم تشخیص گفتار تعریف می شوند. ازین رو، ظرفیت سیستم تشخیص گفتار برای تبدیل کردن داده های صوتی به دست آمده از کلماتی با تلفظ عادی به توالی کلماتی که مطابق با کلمات اصلی باشد و مورد قبول مدل زبانی باشد را می توان به عنوان ظرفیت شناسایی پایه سیستم تشخیص گفتار، در نظر گرفت. این کار، یک روش تست برای بررسی این مفهوم ارائه می کند که نشان میدهد آیا سیستم های تشخیص گفتار این ظرفیت پایه شناسایی را دارند یا خیر. این روش، با اجرا کردن تست هایی به صورت مجزا برای بررسی قدرت شناسایی، ظرفیت پایه را تایید می کند. همچنین این تست به صورتی است که کاملا خودکار اجرا می شود. ما یک سیستم خودکار سازی تست را ایجاد کرده و آن را از طریق آزمایش های مختلف بررسی کردیم تا ببینیم که آیا می تواند نقص های موجود در سیستم شناسایی گفتار را تشخیص دهد یا خیر. نتایج نشان میدهد که این سیستم تست خودکار می تواند به صورت موثر، نقص های پایه در فاز توسعه و یا اصلاح اولیه سیستم را شناسایی کند.
تست شناسایی پایه برای ASR
این بخش اول فرآیند و بخش های مرتبط با سیستم های ASR را از نقطه نظر مهندسی نرم افزار ارائه کرده و سپس دیدگاه مرتبط با تست را برای ارزیابی ظرفیت های شناسایی پایه برای ASR معرفی می کند.
الف) مروری بر سیستم های ASR
مروری بر بخش ها و داده های مدل مورد استفاده در سیستم های ASR معمولی و پردازش های آن ها در شکل 1 ارائه شده است. به صورت کلی، گفتار اول به صورت داده های سیگنال توالی زمانی دیجیتالی می شود ( که با نام داده های صوتی و یا توالی صوتی شناخته می شوند) و سپس با استفاده از بخش استخراج ویژگی، این داده ها را به صورت سری های زمانی از بردار های ویژگی تبدیل می کند. بعد از آن، بردار های ویژگی به صورت توالی هایی از کلمات بر اساس زبان شناسایی ASR تبدیل می شوند. هر کدام از توالی کلمات ایجاد شده دارای یک شاخص می باشد که نشان دهنده احتمال نتایج می باشد و توالی کلماتی که بهترین شاخص را داشته باشد به عنوان خروجی سیستم تشخیص گفتار مورد استفاده قرار می گیرد. به عنوان مثال، فرض می کنیم ما یک سیستم ASR داریم که گفتاری مانند « sheez oe flou-er tuh izhous» را پردازش می کند. این سیستم، این گفتار رابه کلمات مختلف احتمالی تبدیل می کند مانند این کلمات [She is the flower to his house: 0.8] و [She is the flour to his house: 0.1]. سیستم جمله اول را به عنوان خروجی در نظر می گیرد زیرا شاخص بهتری دارد. بخش شناسایی که در شکل 1 نشان داده شده است با نام دکودر (کد گشا) شناخته می شود. این بخش، سری های زمانی بردار های ویژگی را به صورت توالی کلمات تبدیل می کند و این فرآیند شامل سه مدل می باشد: مدل صوتری، که شامل نگاشت تصادفی از واج ها به صورت سری های زمانی در بردار ویژگی می باشد، و یک لغت نامه، که شامل اطلاعاتی در رابطه با نگاشت تصادفی از کلمات بر روی رشته های واج ها می باشد ( که شامل تلفظ هر کلمه است) و یک مدل زبانی، که دستور گرامر متن شناسایی شده را مشخص می کند ( یعنی توالی کلمات) و احتمال هر کدام از متونی که با گرامر تطابق داشته باشند را بررسی می کند. در این قسمت، ما از متغیر های کلی v، x و w استفاده می کنیم که در سری زمانی بردار ویژگی ، توالی واج ها و توالی کلمات تغییر می کنند. سپس ما میتوانیم این مدل های صوتی، لغت نامه ها و مدل های زبانی را به صورت احتمالات شرطی ، و ارائه کنیم. این دکودر به در واقع توالی کلمات به صورت w را محاسبه می کند که با استفاده از معادله های زیر به دست می آید و در واقع احتمال موخر را به حداکثر رسانده و به صورت همزمان، سه مدل را هم در نظر می گیرد [4]: