بخشی از مطالب و تصاویر استفاده شده در این مخزن، از دوره پردازش سیگنال برداشته شده است و با هماهنگی و اجازه مدرس دوره (Valerio Velardo) در اینجا قرار داده شده. همچنین بخشی از مطالب متعلق به دوره مبانی پردازش زبان و گفتار، تدریس شده توسط استاد معطر میباشد.
به طور کلی ویژگیهای سیگنال صوت (در حوزه سیگنال) میتوانند در سه دستهی زیر قرار گیرند:
۱. ویژگیهای حوزه زمان (Time domain features):
این ویژگیهای قابل استخراج از شکل موج در حوزه زمان ( Waveform
) میباشند.
Amplitude envelope
Root-mean square energy
Zero crossing rate
- ...
اما بدیهی است که فرکانس نیز تا حد زیادی میتواند توصیف کننده سیگنال صوت باشد. بنابراین دسته دیگری از ویژگیها نیز مورد نیاز میباشند.
۲. ویژگیهای حوزه فرکانس (Frequency domain features):
میتوان با اعمال تبدیل فوریه بر روی سیگنال در حوزهی زمان، سیگنال را در حوزهی فرکانس نمایش داد. در اینصورت برخی از ویژگیهایی که از این نمایش قابل استخراج میباشند عبارتند از:
Band energy ratio
Spectral centroid
Spectral flux
- ...
همانطور که گفته شد، در هر یک از حوزههای بالا، تنها ویژگیهای مربوط به همان حوزه قابل استخراج است. اما دستهی دیگری از ویژگیها وجود دارند که اطلاعاتی را در هر دو این حوزهها در اختیار ما قرار میدهند.
۳. ویژگیهای حوزهی زمان-فرکانس (Time-frequency features):
برای استخراج اینگونه ویژگیها میتوان از نمایشهای حوزهی زمان-فرکانس استفاده نمود:
Spectrogram
Mel-Spectrogram
Constatn-Q transform
- ...
۱. ابتدا سیگنال آنالوگ طی فرآیند Analog to digital conversion (ADC)
به سیگنال دیجیتال تبدیل میگردد. این فرآیند خود شامل دو مرحله نمونه برداری (sampling)
و چندی سازی (quantization)
میباشد.
۲. سپس سیگنال دیجیتال حاصل فریم بندی (framing
) میشود.
معمولا برای سرعت بخشیدن به فرآیند تبدیل فوریه سریع، تعداد نمونههای موجود در هر فریم توانی از دو میباشد. مدت یک فریم برابر است با:
که در آن sr برابر با فرکانس نمونهبرداری (sampling rate) و K برابر با تعداد نمونههای موجود در یک فریم (frame size) میباشد.
۳. در این مرحله آمادهی محاسبه ویژگیهای حوزهي زمان در هر یک از فریمها هستیم.
۴. پس از محاسبه ویژگیها می توان با ترکیب آنها، یک بردار یا ماتریس ویژگی برای کل سیگنال تشکیل داد.
این فرآیند در شکل زیر به خوبی قابل مشاهده میباشد:
مراحل ابتدایی مانند روال قبل اجرا میشوند
۱. ابتدا سیگنال آنالوگ طی فرآیند Analog to digital conversion (ADC)
به سیگنال دیجیتال تبدیل میگردد.
۲. سپس سیگنال دیجیتال حاصل فریم بندی (framing
) میشود.
سپس باید سیگنال را از حوزهی زمان وارد حوزهي فرکانس کنیم. این فرآیند معمولا با استفاده از تبدیل فوریه انجام میگردد. حاصل نموداری است که نشان دهندهی تأثیر فرکانسهای مختلف در سیگنال میباشد.
اما پیش از انجام این تبدیل باید مسئله ای به نام `spectral leakage(نشت طیفی)` مورد بررسی قرار گیرد. ---زمانی که تبدیل فوریه سیگنالی را محاسبه میکنیم که تعداد تناوبهای آن عددی صحیح نمیباشد، با این مسئله روبرو میشویم. بنابراین واضح است که این مسئله بسیار در فریمها رخ میدهد، زیرا وجود فریمی که شامل تعداد صحیحی تناوب باشد بسیار نادر است. اتفاقی که معمولا رخ میدهد این است که ابتدا و انتهای سیگنال نامتناوب است ( زیرا یک تناوب کامل را تشکیل نمیدهند ). این نواحی زمانی که به حوزهی فرکانس تبدیل میگردند، تبدیل به فرکانسهای بالا میشوند که در واقعیت وجود ندارند و صرفا حاصل نواحی نامتناوب ابتدا و انتها میباشند.
۳. برای حل این مشکل مرحلهی جدیدی به نام پنجره گذاری (windowing) انجام میشود. در این مرحله یک تابع پنجره گذاری بر روی هر فریم اعمال میگردد. پنجره گذاری در واقع نمونههای ابتدایی و انتهایی هر فریم را حذف میکند که سبب به وجود آمدن سیگنالی نسبتا متناوب میشود. در نتیجه نشت طیفی کاهش مییابد.
در شکل زیر یکی از توابع پنجره گذاری پر کاربرد قابل مشاهده است (تابعی از هر نمونه k):
این تابع به صورت زیر بر روی سیگنال اعمال میگردد (بر روی هر نمونه):
همانطور که در شکل قابل مشاهده است، ابتدا و انتهای سیگنال حذف شدهاند.
اما حالا با مشکل دیگری روبرو هستیم. برای درک این مشکل تصور کنید که چند فریم را در کنار یکدیگر قرار دادهایم، در اینصورت میتوانید در شکل زیر مشاهده کنید که در ابتدا و انتهای هر فریم ما سیگنال را در نتیجه فرآیند پنجرهگذاری از دست دادهایم و طبیعتا نمیخواهیم سیگنالی را از دست دهیم.
Overlapping Frames:
برای حل این مشکل فریمبندی را به گونهای انجام میدهیم که فریمها با همدیگر همپوشانی داشته باشند. در اینصورت میتوانیم تا حدی اطلاعات از دست رفته در شکل بالا را جبران نماییم. در شکل زیر فریم اول و دوم به با هم همپوشانی دارند. به تعداد نمونههایی که از ابتدا هر فریم تا ابتدا فریم بعدی قرار دارد مقدار شیفت یا پرش (hop length) گویند. اگر اندازه هر فریم را برابر با K در نظر بگیریم، اندازه همپوشانی برابر با
K - hop length
خواهد بود.
۴.در این مرحله تبدیل فوریه اعمال میگردد
مراحل بعدی مانند فرآیند قبلی در حوزه زمان انجام میشوند:
۵. محاسبه ویژگیهای حوزه فرکانس.
۶. پس از محاسبه ویژگیها می توان با ترکیب آنها، یک بردار یا ماتریس ویژگی برای کل سیگنال تشکیل داد.
این فرآیند نیز در شکل زیر به خوبی قابل مشاهده میباشد:
همانطور که گفته شد، هر یک از ویژگیهایی که در ادامه مورد بررسی قرار میگیرند را برای هر فریم محاسبه میکنیم و سپس میتوانیم تمام ویژگیهای محاسبه شده را ترکیب نماییم(به عنوان مثال با محاسبه میانگین آنها).
حداکثر مقدار دامنه در میان همه نمونه های موجود در یک فریم.
- این ویژگی میتواند ایدهای از بلندی صدا به ما بدهد.
- مشکل این ویژگی این است که بسیار حساس به نمونههای پرت (outliers) است. به عنوان مثال این امکان وجود دارد که در یک فریم، اکثر نمونهها دامنهای بسیار پایین داشته باشند اما به دلیل وجود یک نویز گمراه کننده واکدار، بلندی فریم به اشتباه بسیار زیادتر به نظر آید.
- از این ویژگی میتوان برای تشخیص شروع یک واج یا یک نت موسیقی (onset detection) و یا دسته بندی ژانر موسیقی (music genre classification) استفاده نمود.
- Root-mean-square energy (RMS):
جذر میانگین توان دو دامنه هر نمونه موجود در فریم (انرژی هر نمونه):
- این ویژگی نیز میتواند ایدهای از بلندی صدا بدهد.
- نسبت به ویژگی قبل حساسیت کمتری به نمونههای پرت دارد، زیرا تمام نمونههای موجود در یک فریم در محاسبه نقش دارند.
- میتواند برای تقسیم بندی صوت (audio segmentation) و یا تفکیک قسمتهای واکدار و بیواک سیگنال به کار برود (زیرا بخشهای واکدار سیگنال پرانرژی تر میباشند.
- مانند ویژگی قبل در دستهبندی ژانر موسیقی نیز قابل استفاده میباشد.
- Zero crossing rate (ZCR):
بیانگر تعداد دفعاتی است که سیگنال محور افقی را قطع کرده است (از صفر عبور کرده است). به عنوان مثال در شکل زیر نقاط سبز این مکان ها را علامت زده اند بنابراین برای این مثال نرخ عبور از صفر برابر با شش میباشد.
برای محاسبه ZCR میتوان از فرمول زیر استفاده نمود:
- از این ویژگی میتوان برای تشخیص صداهای ناگهانی و کوتاه مدت استفاده نمود
- همچنین میتوان در سیگنال گفتار قسمتهای بیواک و نویزی را از قسمتهای واکدار تشخیص داد. زیرا قسمتهای نویزی و بدون واک نرخ عبور از صفر بالاتری دارند.
نحوهی کار با سیگنال صوت و استخراج ویژگیهای معرفی شده حوزهی زمان در نوتبوک time_domain_features.ipynb به همراه توضیحات قرار گرفته.
ویژگیها و کاربردهای بسیار بیشتری در حوزهی زمان وجود دارند. در ادامه به بررسی و پیادهسازی یک مثال میپردازیم:
ابتدا باید با ضرایب اتوکورولیشن آشنا شویم:
اتوکورولیشن یک سیگنال میتواند شباهت یک سیگنال را در برابر نسخه تغییر یافته زمانی خود توصیف کند:
که در آن η برابر با میزانی از که سیگنال بر روی خودش شیفت داده شده است. به این مقدار پارامتر lag نیز گفتهمیشود. با توجه به فرمول قابل ملاحظه است که در η = 0 اتوکورولیشن بیشترین میزان خود را دارد. میتوان با پیدا کردن میزان η که ما را به بیشترین مقدار بعدی میرساند و سپس تقسیم فرکانس نمونه برداری بر η محاسبه شده، فرکانس گام را محاسبه نمود.
توجه داشته باشید که در صورت وجود نویزهای واکدار، امکان وقوع کورولیشنهای گمراه کننده افزایش مییابد، بنابراین بهتر است که پیش از محاسبه کورولیشن، سیگنال را کمی تمیز نماییم. برای اینکار میتوان از روش Center Clipping استفاده نمود: در این روش مقدار ماکسیمم مطلق در ۱/۳ اول و آخر فریم محاسبه میگردد و سپس ۷۰٪ مینیمم این دو به عنوان سطح برش محاسبه میگردد (Clipping Level). سپس با استفاده از تابع زیر مقادیر جدید محاسبه میگردند:پیاده سازی این تمرین در نوتبوک autocorrelation_and_pitch.ipynb قرار گرفته است.