ترجمه مقاله بازشناسی گفتار بیماران مبتلا به اختلال تکلم با استفاده از شبکه های عصبی – نشریه الزویر

عنوان فارسی: | بازشناسی گفتار بیماران مبتلا به اختلال تکلم با استفاده از شبکه های عصبی: شناسایی بهترین مجموعه از پارامترهای MFCC و مطالعه یک روش مستقل از گوینده |
عنوان انگلیسی: | Artificial neural networks as speech recognisers for dysarthric speech: Identifying the best-performing set of MFCC parameters and studying a speaker-independent approach |
تعداد صفحات مقاله انگلیسی : 9 | تعداد صفحات ترجمه فارسی : 23 |
سال انتشار : 2014 | نشریه : الزویر - Elsevier |
فرمت مقاله انگلیسی : PDF | فرمت ترجمه مقاله : ورد تایپ شده |
کد محصول : 8484 | رفرنس : دارد |
محتوای فایل : zip | حجم فایل : 1.26Mb |
رشته های مرتبط با این مقاله: مهندسی کامپیوتر |
گرایش های مرتبط با این مقاله: مهندسی الگوریتم ها و محاسبات و هوش مصنوعی |
مجله: انفورماتیک مهندسی پیشرفته - Advanced Engineering Informatics |
دانشگاه: گروه مهندسی نرم افزار، دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه مالایا، مالزی |
کلمات کلیدی: دیزارتیا، تشخیص گفتار خودکار، شبکه های عصبی مصنوعی، MFCC |
وضعیت ترجمه عناوین تصاویر و جداول: ترجمه شده است |
وضعیت ترجمه متون داخل تصاویر: ترجمه نشده است |
وضعیت ترجمه متون داخل جداول: ترجمه شده است |
وضعیت فرمولها و محاسبات در فایل ترجمه: به صورت عکس، درج شده است |
چکیده
1- مقدمه
2- نگاهی به گذشته
3- روش ها
الف - مواد و شرکت کنندگان
ب- مدل ASR مبتنی بر شبکههای عصبی مصنوعی برای کاربران مبتلا به اختلال تکلم
ج- معیارهای ارزیابی
4- آزمایشها و نتایج
5- آزمایش1: شناسایی بهترین مجموعه از پارامترهای MFCC
6- آزمایش2: ASR مبتنی بر شبکه عصبی مستقل ازگوینده
7- بحث
8- نتیجه گیری
Abstract
Dysarthria is a neurological impairment of controlling the motor speech articulators that compromises the speech signal. Automatic Speech Recognition (ASR) can be very helpful for speakers with dysarthria because the disabled persons are often physically incapacitated. Mel-Frequency Cepstral Coefficients (MFCCs) have been proven to be an appropriate representation of dysarthric speech, but the question of which MFCC-based feature set represents dysarthric acoustic features most effectively has not been answered. Moreover, most of the current dysarthric speech recognisers are either speaker-dependent (SD) or speaker-adaptive (SA), and they perform poorly in terms of generalisability as a speakerindependent (SI) model. First, by comparing the results of 28 dysarthric SD speech recognisers, this study identifies the best-performing set of MFCC parameters, which can represent dysarthric acoustic features to be used in Artificial Neural Network (ANN)-based ASR. Next, this paper studies the application of ANNs as a fixed-length isolated-word SI ASR for individuals who suffer from dysarthria. The results show that the speech recognisers trained by the conventional 12 coefficients MFCC features without the use of delta and acceleration features provided the best accuracy, and the proposed SI ASR recognised the speech of the unforeseen dysarthric evaluation subjects with word recognition rate of 68.38%.
چکیده
Dysarthria، یک بیماری عصبی است که به سیستم کنترلکننده اداء کلام آسیب رسانده و موجب لطمه زدن به سیگنال صحبت میشود. بازشناسی گفتار خودکار (ASR) ، میتواند برای اشخاص مبتلا به اختلال تکلم بسیار مفید باشد، زیرا اشخاص با معلولیت گفتاری، اغلب دچار نقص فیزیکی نیز هستند. MFCC برای ارائه نمایش مناسبی از سیگنال گفتار، به وجود آمده است، اما این سئوال که کدام یک از مجموعه پارامترهای اصلیMFCC، به شکل مفیدتری قادر به ارائه پارامترهای آوایی گفتار هستند، هنوز پاسخ داده نشده است. علاوه بر این، بیش تر بازشناسندههای فعلی گفتار، متکی به گوینده (SD) یا منطبق برگوینده (SA) هستند، وبرای تعمیم یافتن به مدل مستقل از گوینده (SI)، خوب عمل نمیکنند. این مقاله، نخست با مقایسه نتایج حاصل از 28 بازشناسنده گفتار متکی بر گوینده، بهترین مجموعه از پارامترهای MFCC که قادر به ارائه ویژگیهای آوایی گفتار مورد استفاده در بازشناسی گفتار خودکار مبتنی بر شبکه عصبی (ANN) هستند را معرفی کرده، سپس کاربرد شبکههای عصبی به عنوان یک بازشناسی گفتار خودکار مستقل از گوینده، کلمه مجزا با طول ثابت، مخصوص بیماران مبتلا به اختلال تکلم را بررسی میکند. نتایج نشان میدهد که بازشناسندههای گفتاری که توسط 12 ضریب ویژگیهای MFCC بدون استفاده از دلتا و پارامترهای افزاینده، آموزش دیدهاند بهترین دقت را ارائه داده؛ و بازشناسنده گفتار خودکار مستقل از گوینده پیشنهادی، گفتار افراد بیمار مورد ارزیابی را با نرخ بازشناسی کلمه 38/68 درصد، بازشناسی کرد.