اطلاعیه

**mechatronic90semnan** · 2013-08-16T19:45:07

پاسخ : پروژه پردازش گفتار با HMM

مشکل اینجاس که اصلا از HMM استفاده نکردم
یعنی نتونستم که استفاده کنم
اصلا میشه از اولش بفرمایید که چکار میکنید؟

**mechatronic90semnan** · 2013-08-17T10:34:17

پاسخ : پروژه پردازش گفتار با HMM

:angry:
دوستان ممکنه لطف بفرمایند وکمک کنند

**eehadi** · 2013-08-17T11:42:54

پاسخ : پروژه پردازش گفتار با HMM

ببین رضا جان تا شروع نکنی نباید انتظار نتیجه داشته باشی، فایلی که گذاشتم دانلود کن بخون و سعی کن بفهمی روالش چطوریه بعدش اگه توی کدنویسی مشکلی بود در خدمتم چون الان هر چی که بخوام بگم همون چیزیه که توی فایل هست.

**mechatronic90semnan** · 2013-08-17T14:06:16

پاسخ : پروژه پردازش گفتار با HMM

مهندس جان من فایلوخوندم
حالا 100% نه ولی تقریبا متوجه شدم داستان چی هست
الان سوالی که دارم اینه که اون برنامه رو اگر مطالعه بفرمایید یه ورودی داره یه خروجی
حالا من خودم اون برنامه رو ننوشتم ولی چطوری ربطش بدم به HMM ?
و اینکه اون خودش ورودی و خروجی خودشو داره
از اینکه راهنمایی میکنید کمال تشکر را دارم

**eehadi** · 2013-08-24T00:55:55

پاسخ : پروژه پردازش گفتار با HMM

سلام. بابت تأخیر در جواب شرمنده.
ورودی مدل مخفی مارکوف، مشاهدات O هستند که همون ویژگی های استخراج شده هستند، به دلیل ویژگی ساختاری مدل مخفی مارکوف لازم نیست که این بردارها هم طول باشند، برای هر کلاس یک مدل جداگانه آموزش داده می شود یعنی برای هر کلاس یک مجموعه A,B,PI داریم.
در مرحله تست، بردار ویژگی (مشاهده) به تمام مدل ها داده می شود و مدلی که بیشترین مقدار خروجی را داشته باشد، به عنوان کلاس ورودی در نظر گرفته می شود.

**hasting_m** · 2013-09-21T21:35:24

پاسخ : پروژه پردازش گفتار با HMM

نوشته اصلی توسط هـادی

سلام. بابت تأخیر در جواب شرمنده.
ورودی مدل مخفی مارکوف، مشاهدات O هستند که همون ویژگی های استخراج شده هستند، به دلیل ویژگی ساختاری مدل مخفی مارکوف لازم نیست که این بردارها هم طول باشند، برای هر کلاس یک مدل جداگانه آموزش داده می شود یعنی برای هر کلاس یک مجموعه A,B,PI داریم.
در مرحله تست، بردار ویژگی (مشاهده) به تمام مدل ها داده می شود و مدلی که بیشترین مقدار خروجی را داشته باشد، به عنوان کلاس ورودی در نظر گرفته می شود.

بردارهای استخراج شده از mfcc ورودی مدل مارکوف هستند؟
اینجوری که گفتین که میشه تشخیص با روش بیزین!دیگه hmm اش کجا بود؟

**eehadi** · 2013-09-22T21:19:25

پاسخ : پروژه پردازش گفتار با HMM

بله، ویژگی های استخراج شده از MFCC ورودی HMM هستند، البته لازمه که با GMM یا هر روش دیگه ای که راحت تری این ویژگی ها که تعداد نامحدود دارند به تعداد محدودی نماد به عنوان مشاهدات تبدیل کنی.
فکر می کنم باید از هر فریم صوت یک بردار ویژگی استخراج کنی، بعد از تبدیل هر کدام از این بردارها به یک مشاهده، توالی مشاهدات (به ترتیب زمانی) به عنوان ورودی به مدل مربوط به اون کلاس داده میشه.
منظور از این که همون بیزین هست رو نفهمیدم، از چه نظر؟

**hasting_m** · 2013-09-23T11:29:56

پاسخ : پروژه پردازش گفتار با HMM

نوشته اصلی توسط هـادی

بله، ویژگی های استخراج شده از MFCC ورودی HMM هستند، البته لازمه که با GMM یا هر روش دیگه ای که راحت تری این ویژگی ها که تعداد نامحدود دارند به تعداد محدودی نماد به عنوان مشاهدات تبدیل کنی.
فکر می کنم باید از هر فریم صوت یک بردار ویژگی استخراج کنی، بعد از تبدیل هر کدام از این بردارها به یک مشاهده، توالی مشاهدات (به ترتیب زمانی) به عنوان ورودی به مدل مربوط به اون کلاس داده میشه.
منظور از این که همون بیزین هست رو نفهمیدم، از چه نظر؟

ممنون
1)خب مگر در خود mfcc با گرفتن تبدیل DCT تعداد ویژگی ها رو محدود نمیکنیم؟که در قسمت بولد شده گفتین دوباره باز بردار های ویژگی که نامحدودند رو محدود کنیم؟(شاید منظورتون گسسته کردنه؟؟)

oo:
2)الان این بردارهای ویژگی میشند مشاهدات ما.خب برای تشخیص واج در hmm دیگه همین مشاهدات کافین؟حالت های مخفی و.بقیه رو از کجا در بیاریم؟یا نیاز نیست؟
ضمنا من برنامه نویسیشو هنوز شروع نکردم.که دارم اینا رو میپرسم
3)چون گفتین "بیشترین احتمال"گفتم این که میشه مثل بیزین.البته خود استادم هم یه اشاره ای به بیزین کرد.نمیدونم منظورش چی بود.شباهت؟

**eehadi** · 2013-09-24T20:26:07

پاسخ : پروژه پردازش گفتار با HMM

همون طور که قبلاً گفتم، این که ویژگی ها اعداد گسسته باشند کافی نیست (لازم هم نیست) و چیزی که مهمه اینه که تعداد (تنوع) اونها محدود باشه مثلاً بتونی مقادیر ویژگی رو از 1 تا n شماره گذاری کنی.
در مورد سوال دوم بهتره که اول فایل رو بخونید. برای آموزش و استفاده از HMM مثل بقیه روش های تشخیص الگو، به بردارهای ویژگی و همچنین برچسب داده های آموزشی نیاز داریم. تعدادی از پارامترها در ابتدا به صورت تصادفی مقداردهی میشن و بعد با آموزش، به مقدار واقعی نزدیک میشن.
بیزین یه جورایی یک بیس برای مباحث شناسایی الگو هست و همه روش های تشخیص الگو مثل شبکه عصبی، SVM، HMM، کلاسیفایرهای خطی و ... بر اساس احتمال کار می کنند.

**mechatronic90semnan** · 2014-03-27T15:20:30

پاسخ : پروژه پردازش گفتار با HMM

سلام دوستان
MFCC رو برای یک سیگنال نمونه حساب کردم
بنظر اساتید محترم کدامیک از خروجی های زیر را باید به HMM بدهیم برای پردازش گفتار؟
[left]
% Outputs
% CC is a matrix of mel frequency cepstral coefficients
% (MFCCs) with feature vectors as columns
%
% FBE is a matrix of filterbank energies
% with feature vectors as columns
%
% FRAMES is a matrix of windowed frames
% (one frame per column)

**eehadi** · 2014-03-27T23:37:51

پاسخ : پروژه پردازش گفتار با HMM

میشه ترکیبی از همه ویژگی ها رو بدین ولی چون به احتمال زیاد همه ویژگی ها ممکنه مفید نباشن (حتی بعضی موارد باعث کاهش نرخ شناسایی میشن) بهتره از یک روش انتخاب ویژگی استفاده کنی و در صورتی که با این روش ها آشنایی نداری، با سعی و خطا بهترین ویژگی ها رو انتخاب کنی. البته ویژگی سوم که فریم های پنجره بندی شده به صورت خام هست احتمالاً اطلاعات چندان ارزشمندی نداره.

**mechatronic90semnan** · 2014-03-28T06:58:05

پاسخ : پروژه پردازش گفتار با HMM

نوشته اصلی توسط هـادی

میشه ترکیبی از همه ویژگی ها رو بدین ولی چون به احتمال زیاد همه ویژگی ها ممکنه مفید نباشن (حتی بعضی موارد باعث کاهش نرخ شناسایی میشن) بهتره از یک روش انتخاب ویژگی استفاده کنی و در صورتی که با این روش ها آشنایی نداری، با سعی و خطا بهترین ویژگی ها رو انتخاب کنی. البته ویژگی سوم که فریم های پنجره بندی شده به صورت خام هست احتمالاً اطلاعات چندان ارزشمندی نداره.

هم با CC امتحان کردم هم با FBE در هر دو مورد loglik دارم
تو تستی که برای MFCC انجام دادم یه جمله 2.5 ثانیه ای انتخاب کردم. بقیه ماجرا Pre-emphasis, windowing ....
حالا میخوام اعداد 0 تا 9 رو انتخاب کنم :read: :nerd:
سوال اولی که داشتم اینه که باید برای چند نمونه فایل صوتی تهیه کنم؟ مثلا 3 نمونه از تلفظ 1 از سه شخص مختلف؟ و اینکه در همه این داده ها باید خروجی های MFCC جدا ذخیره شوند؟
سوال دومم : برای اعداد 0تا 9 مقادیر state و output symbol ( در کد مورفی برای HMM)رو باید به ترتیب 3 و 10 انتخاب کنم؟

ضرایبی که استفاده کردم در MFCC:

% Tw = 25; % analysis frame duration (ms)
% Ts = 10; % analysis frame shift (ms)
% alpha = 0.97; % preemphasis coefficient
% R = [ 300 3700 ]; % frequency range to consider
% M = 20; % number of filterbank channels
% C = 13; % number of cepstral coefficients
% L = 22; % cepstral sine lifter parameter

ضرایب HMM:

T = 8;
nex = 20;

**eehadi** · 2014-03-28T10:10:04

پاسخ : پروژه پردازش گفتار با HMM

1- HMM برای آموزش به تعداد خیلی زیادی نمونه نیاز داره و 3 نمونه اصلاً کفایت نمی کنه. خروجی های MFCC باید به HMM داده بشه، شما میتونی بدون ذخیره کردن هم این کارو بکنی ولی اگه ذخیره کنی بهتره.
2- otuput symbol درسته ولی state کاملاً مستقله، بستگی داره به نوع مسأله، پیچیدگی پترن، طول sequence ویژگی ها و ...، معمولاً به صورت [s]رندوم[/s] سعی و خطا انتخاب میشه رنج 3 تا 30 فکر می کنم مناسب باشه.
3- T و nex نماد چی هستن؟

**mechatronic90semnan** · 2014-03-29T06:51:23

پاسخ : پروژه پردازش گفتار با HMM

نوشته اصلی توسط هـادی

1- HMM برای آموزش به تعداد خیلی زیادی نمونه نیاز داره و 3 نمونه اصلاً کفایت نمی کنه. خروجی های MFCC باید به HMM داده بشه، شما میتونی بدون ذخیره کردن هم این کارو بکنی ولی اگه ذخیره کنی بهتره.
2- otuput symbol درسته ولی state کاملاً مستقله، بستگی داره به نوع مسأله، پیچیدگی پترن، طول sequence ویژگی ها و ...، معمولاً به صورت رندوم انتخاب میشه رنج 3 تا 30 فکر می کنم مناسب باشه.
3- T و nex نماد چی هستن؟

we sample next=20 sequence of length T=10 each from this model, to use as training data

بنظر شما برای آموزش چند نمونه کفایت میکنه؟ آیا بهتره افراد متفاوت باشند؟
راجع به ذخیره کردن :question: همه ماتریس های خروجی MFCC رو ذخیره کنم؟ یعنی هربار باید MFCC جداگانه ران بشه بعد HMM!! ب :question: نمیشه یباره کاری کرد دیتا بیسش کرد؟

**eehadi** · 2014-03-29T15:33:53

پاسخ : پروژه پردازش گفتار با HMM

با توضیحی که نوشتی باز هم متوجه نشدم که nex چیه.
چون از HMM استفاده می کنی، نیازی نیست طول بردارهای ویژگی مساوی باشه.
نمیدونم چند نمونه کافیه چون روی صوت کار نکردم ولی روی یک دیتابیس خروجی MFCC ارقام عربی موجود در اینترنت که تست کرده بودم، برای هر رقم (بین 0 تا 9) حدود 660 نمونه آموزشی داشتم که به بالای 90 درصد شناسایی صحیح رسیدم.
اگه افراد متفاوت باشن طبیعتاً کار سخت تر میشه و درصد تشخیص درست پایین میاد.
بله نظر من اینه که خروجی هر مرحله ذخیره بشه تا انعطاف پذیری، خطایابی و تحلیل نتایج هر مرحله امکان پذیر باشه.

اطلاعیه

پروژه پردازش گفتار با HMM

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه

دیدگاه