ترجمه مقاله نقش ضروری ارتباطات 6G با چشم انداز صنعت 4.0
- مبلغ: ۸۶,۰۰۰ تومان
ترجمه مقاله پایداری توسعه شهری، تعدیل ساختار صنعتی و کارایی کاربری زمین
- مبلغ: ۹۱,۰۰۰ تومان
تست شناسایی پایه برای ASR
این بخش اول فرآیند و بخش های مرتبط با سیستم های ASR را از نقطه نظر مهندسی نرم افزار ارائه کرده و سپس دیدگاه مرتبط با تست را برای ارزیابی ظرفیت های شناسایی پایه برای ASR معرفی می کند.
الف) مروری بر سیستم های ASR
مروری بر بخش ها و داده های مدل مورد استفاده در سیستم های ASR معمولی و پردازش های آن ها در شکل 1 ارائه شده است. به صورت کلی، گفتار اول به صورت داده های سیگنال توالی زمانی دیجیتالی می شود ( که با نام داده های صوتی و یا توالی صوتی شناخته می شوند) و سپس با استفاده از بخش استخراج ویژگی، این داده ها را به صورت سری های زمانی از بردار های ویژگی تبدیل می کند. بعد از آن، بردار های ویژگی به صورت توالی هایی از کلمات بر اساس زبان شناسایی ASR تبدیل می شوند. هر کدام از توالی کلمات ایجاد شده دارای یک شاخص می باشد که نشان دهنده احتمال نتایج می باشد و توالی کلماتی که بهترین شاخص را داشته باشد به عنوان خروجی سیستم تشخیص گفتار مورد استفاده قرار می گیرد. به عنوان مثال، فرض می کنیم ما یک سیستم ASR داریم که گفتاری مانند « sheez oe flou-er tuh izhous» را پردازش می کند. این سیستم، این گفتار رابه کلمات مختلف احتمالی تبدیل می کند مانند این کلمات [She is the flower to his house: 0.8] و [She is the flour to his house: 0.1]. سیستم جمله اول را به عنوان خروجی در نظر می گیرد زیرا شاخص بهتری دارد. بخش شناسایی که در شکل 1 نشان داده شده است با نام دکودر (کد گشا) شناخته می شود. این بخش، سری های زمانی بردار های ویژگی را به صورت توالی کلمات تبدیل می کند و این فرآیند شامل سه مدل می باشد: مدل صوتری، که شامل نگاشت تصادفی از واج ها به صورت سری های زمانی در بردار ویژگی می باشد، و یک لغت نامه، که شامل اطلاعاتی در رابطه با نگاشت تصادفی از کلمات بر روی رشته های واج ها می باشد ( که شامل تلفظ هر کلمه است) و یک مدل زبانی، که دستور گرامر متن شناسایی شده را مشخص می کند ( یعنی توالی کلمات) و احتمال هر کدام از متونی که با گرامر تطابق داشته باشند را بررسی می کند. در این قسمت، ما از متغیر های کلی v، x و w استفاده می کنیم که در سری زمانی بردار ویژگی ، توالی واج ها و توالی کلمات تغییر می کنند. سپس ما میتوانیم این مدل های صوتی، لغت نامه ها و مدل های زبانی را به صورت احتمالات شرطی ، و ارائه کنیم. این دکودر به در واقع توالی کلمات به صورت w را محاسبه می کند که با استفاده از معادله های زیر به دست می آید و در واقع احتمال موخر را به حداکثر رسانده و به صورت همزمان، سه مدل را هم در نظر می گیرد [4]: