Abstract Computational Auditory Scene Analysis (CASA) has been the focus in recent literature for speech separation from monaural mixtures. The performance of current CASA systems on voiced speech separation strictly depends on the robustness of the algorithm used for pitch frequency estimation. We propose a new system that estimates pitch (frequency) range of a target utterance and separates voiced portions of target speech. The algorithm, first, estimates the pitch range of target speech in each frame of data in the modulation frequency domain, and then, uses the estimated pitch range for segregating the target speech. The method of pitch range estimation is based on an onset and offset algorithm. Speech separation is performed by filtering the mixture signal with a mask extracted from the modulation spectrogram. A systematic evaluation shows that the proposed system extracts the majority of target speech signal with minimal interference and outperforms previous systems in both pitch extraction and voiced speech separation.
نمونه چکیده ترجمه متن فارسی
چکیده
در ادبیات اخیر برای جداسازی گفتار از ترکیبات تک صوتی ، از روش تجزیه و تحلیل صحنه شنوایی محاسباتی (CASA) استفاده شده است. عملکرد سیستم های CASA کنونی در خصوص جداسازی گفتار صدادار عمدتاً به توانمندی الگوریتم به کارگرفته شده برای برآورد فرکانس گام بستگی دارد. ما در اینجا سیستم جدیدی پیشنهاد می کنیم که رنج فرکانس گام مخاطب هدف را تخمین زده و بخشهای صدادار گفتار هدف را از هم تفکیک می کند. الگوریتم مذکور ابتدا رنج گام گفتار هدف در هر فریم از داده ها در حوزه فرکانس مدولاسیون را تخمین زده و سپس، از رنج گام برآورد شده برای تجزیه گفتار هدف استفاده می کند. روش تخمین و برآورد رنج گام بر اساس یک الگوریتم آنست و آفست عمل می کند. جداسازی گفتار به روش فیلتر بندی سیگنال مرکب با ماسک استخراج شده از اسپکتوگرام (طیف نگار) مدولاسیون انجام شده است. ارزیابی سیستماتیک نشان می دهد که سیستم پیشنهاد شده، بخش عظیمی از سیگنال گفتار هدف را با حداقل تداخل استخراج کرده و از لحاظ استخراج گام و جداسازی گفتار صدادار ، برتر از سیستم های پیشین عمل می کند.