اطلاعیه

Collapse
No announcement yet.

پروژه پردازش گفتار با HMM

Collapse
X
 
  • فیلتر
  • زمان
  • Show
Clear All
new posts

    #16
    پاسخ : پروژه پردازش گفتار با HMM

    مشکل اینجاس که اصلا از HMM استفاده نکردم
    یعنی نتونستم که استفاده کنم
    اصلا میشه از اولش بفرمایید که چکار میکنید؟
    آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

    دیدگاه


      #17
      پاسخ : پروژه پردازش گفتار با HMM

      :angry:
      دوستان ممکنه لطف بفرمایند وکمک کنند
      آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

      دیدگاه


        #18
        پاسخ : پروژه پردازش گفتار با HMM

        ببین رضا جان تا شروع نکنی نباید انتظار نتیجه داشته باشی، فایلی که گذاشتم دانلود کن بخون و سعی کن بفهمی روالش چطوریه بعدش اگه توی کدنویسی مشکلی بود در خدمتم چون الان هر چی که بخوام بگم همون چیزیه که توی فایل هست.
        لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
        لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
        با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
        اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
        يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

        دیدگاه


          #19
          پاسخ : پروژه پردازش گفتار با HMM

          مهندس جان من فایلوخوندم
          حالا 100% نه ولی تقریبا متوجه شدم داستان چی هست
          الان سوالی که دارم اینه که اون برنامه رو اگر مطالعه بفرمایید یه ورودی داره یه خروجی
          حالا من خودم اون برنامه رو ننوشتم ولی چطوری ربطش بدم به HMM ?
          و اینکه اون خودش ورودی و خروجی خودشو داره
          از اینکه راهنمایی میکنید کمال تشکر را دارم
          آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

          دیدگاه


            #20
            پاسخ : پروژه پردازش گفتار با HMM

            سلام. بابت تأخیر در جواب شرمنده.
            ورودی مدل مخفی مارکوف، مشاهدات O هستند که همون ویژگی های استخراج شده هستند، به دلیل ویژگی ساختاری مدل مخفی مارکوف لازم نیست که این بردارها هم طول باشند، برای هر کلاس یک مدل جداگانه آموزش داده می شود یعنی برای هر کلاس یک مجموعه A,B,PI داریم.
            در مرحله تست، بردار ویژگی (مشاهده) به تمام مدل ها داده می شود و مدلی که بیشترین مقدار خروجی را داشته باشد، به عنوان کلاس ورودی در نظر گرفته می شود.
            لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
            لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
            با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
            اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
            يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

            دیدگاه


              #21
              پاسخ : پروژه پردازش گفتار با HMM

              نوشته اصلی توسط هـادی
              سلام. بابت تأخیر در جواب شرمنده.
              ورودی مدل مخفی مارکوف، مشاهدات O هستند که همون ویژگی های استخراج شده هستند، به دلیل ویژگی ساختاری مدل مخفی مارکوف لازم نیست که این بردارها هم طول باشند، برای هر کلاس یک مدل جداگانه آموزش داده می شود یعنی برای هر کلاس یک مجموعه A,B,PI داریم.
              در مرحله تست، بردار ویژگی (مشاهده) به تمام مدل ها داده می شود و مدلی که بیشترین مقدار خروجی را داشته باشد، به عنوان کلاس ورودی در نظر گرفته می شود.
              بردارهای استخراج شده از mfcc ورودی مدل مارکوف هستند؟
              اینجوری که گفتین که میشه تشخیص با روش بیزین!دیگه hmm اش کجا بود؟
              هرگز توان خودت را در تغيير دادن خويش،دست كم نگير!
              هرگز توان خودت را در تغيير دادن ديگران،دست بالا نگير!

              http://www.eca.ir/forum2/index.php?topic=112772.0

              دیدگاه


                #22
                پاسخ : پروژه پردازش گفتار با HMM

                بله، ویژگی های استخراج شده از MFCC ورودی HMM هستند، البته لازمه که با GMM یا هر روش دیگه ای که راحت تری این ویژگی ها که تعداد نامحدود دارند به تعداد محدودی نماد به عنوان مشاهدات تبدیل کنی.
                فکر می کنم باید از هر فریم صوت یک بردار ویژگی استخراج کنی، بعد از تبدیل هر کدام از این بردارها به یک مشاهده، توالی مشاهدات (به ترتیب زمانی) به عنوان ورودی به مدل مربوط به اون کلاس داده میشه.
                منظور از این که همون بیزین هست رو نفهمیدم، از چه نظر؟
                لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
                لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
                با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
                اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
                يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

                دیدگاه


                  #23
                  پاسخ : پروژه پردازش گفتار با HMM

                  نوشته اصلی توسط هـادی
                  بله، ویژگی های استخراج شده از MFCC ورودی HMM هستند، البته لازمه که با GMM یا هر روش دیگه ای که راحت تری این ویژگی ها که تعداد نامحدود دارند به تعداد محدودی نماد به عنوان مشاهدات تبدیل کنی.
                  فکر می کنم باید از هر فریم صوت یک بردار ویژگی استخراج کنی، بعد از تبدیل هر کدام از این بردارها به یک مشاهده، توالی مشاهدات (به ترتیب زمانی) به عنوان ورودی به مدل مربوط به اون کلاس داده میشه.
                  منظور از این که همون بیزین هست رو نفهمیدم، از چه نظر؟
                  ممنون
                  1)خب مگر در خود mfcc با گرفتن تبدیل DCT تعداد ویژگی ها رو محدود نمیکنیم؟که در قسمت بولد شده گفتین دوباره باز بردار های ویژگی که نامحدودند رو محدود کنیم؟(شاید منظورتون گسسته کردنه؟؟) oo:
                  2)الان این بردارهای ویژگی میشند مشاهدات ما.خب برای تشخیص واج در hmm دیگه همین مشاهدات کافین؟حالت های مخفی و.بقیه رو از کجا در بیاریم؟یا نیاز نیست؟
                  ضمنا من برنامه نویسیشو هنوز شروع نکردم.که دارم اینا رو میپرسم
                  3)چون گفتین "بیشترین احتمال"گفتم این که میشه مثل بیزین.البته خود استادم هم یه اشاره ای به بیزین کرد.نمیدونم منظورش چی بود.شباهت؟
                  هرگز توان خودت را در تغيير دادن خويش،دست كم نگير!
                  هرگز توان خودت را در تغيير دادن ديگران،دست بالا نگير!

                  http://www.eca.ir/forum2/index.php?topic=112772.0

                  دیدگاه


                    #24
                    پاسخ : پروژه پردازش گفتار با HMM

                    همون طور که قبلاً گفتم، این که ویژگی ها اعداد گسسته باشند کافی نیست (لازم هم نیست) و چیزی که مهمه اینه که تعداد (تنوع) اونها محدود باشه مثلاً بتونی مقادیر ویژگی رو از 1 تا n شماره گذاری کنی.
                    در مورد سوال دوم بهتره که اول فایل رو بخونید. برای آموزش و استفاده از HMM مثل بقیه روش های تشخیص الگو، به بردارهای ویژگی و همچنین برچسب داده های آموزشی نیاز داریم. تعدادی از پارامترها در ابتدا به صورت تصادفی مقداردهی میشن و بعد با آموزش، به مقدار واقعی نزدیک میشن.
                    بیزین یه جورایی یک بیس برای مباحث شناسایی الگو هست و همه روش های تشخیص الگو مثل شبکه عصبی، SVM، HMM، کلاسیفایرهای خطی و ... بر اساس احتمال کار می کنند.
                    لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
                    لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
                    با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
                    اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
                    يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

                    دیدگاه


                      #25
                      پاسخ : پروژه پردازش گفتار با HMM

                      سلام دوستان
                      MFCC رو برای یک سیگنال نمونه حساب کردم
                      بنظر اساتید محترم کدامیک از خروجی های زیر را باید به HMM بدهیم برای پردازش گفتار؟
                      [left]
                      % Outputs
                      % CC is a matrix of mel frequency cepstral coefficients
                      % (MFCCs) with feature vectors as columns
                      %
                      % FBE is a matrix of filterbank energies
                      % with feature vectors as columns
                      %
                      % FRAMES is a matrix of windowed frames
                      % (one frame per column)
                      آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

                      دیدگاه


                        #26
                        پاسخ : پروژه پردازش گفتار با HMM

                        میشه ترکیبی از همه ویژگی ها رو بدین ولی چون به احتمال زیاد همه ویژگی ها ممکنه مفید نباشن (حتی بعضی موارد باعث کاهش نرخ شناسایی میشن) بهتره از یک روش انتخاب ویژگی استفاده کنی و در صورتی که با این روش ها آشنایی نداری، با سعی و خطا بهترین ویژگی ها رو انتخاب کنی. البته ویژگی سوم که فریم های پنجره بندی شده به صورت خام هست احتمالاً اطلاعات چندان ارزشمندی نداره.
                        لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
                        لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
                        با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
                        اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
                        يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

                        دیدگاه


                          #27
                          پاسخ : پروژه پردازش گفتار با HMM

                          نوشته اصلی توسط هـادی
                          میشه ترکیبی از همه ویژگی ها رو بدین ولی چون به احتمال زیاد همه ویژگی ها ممکنه مفید نباشن (حتی بعضی موارد باعث کاهش نرخ شناسایی میشن) بهتره از یک روش انتخاب ویژگی استفاده کنی و در صورتی که با این روش ها آشنایی نداری، با سعی و خطا بهترین ویژگی ها رو انتخاب کنی. البته ویژگی سوم که فریم های پنجره بندی شده به صورت خام هست احتمالاً اطلاعات چندان ارزشمندی نداره.
                          هم با CC امتحان کردم هم با FBE در هر دو مورد loglik دارم
                          تو تستی که برای MFCC انجام دادم یه جمله 2.5 ثانیه ای انتخاب کردم. بقیه ماجرا Pre-emphasis, windowing ....
                          حالا میخوام اعداد 0 تا 9 رو انتخاب کنم :read: :nerd:
                          سوال اولی که داشتم اینه که باید برای چند نمونه فایل صوتی تهیه کنم؟ مثلا 3 نمونه از تلفظ 1 از سه شخص مختلف؟ و اینکه در همه این داده ها باید خروجی های MFCC جدا ذخیره شوند؟
                          سوال دومم : برای اعداد 0تا 9 مقادیر state و output symbol ( در کد مورفی برای HMM)رو باید به ترتیب 3 و 10 انتخاب کنم؟

                          ضرایبی که استفاده کردم در MFCC:

                          % Tw = 25; % analysis frame duration (ms)
                          % Ts = 10; % analysis frame shift (ms)
                          % alpha = 0.97; % preemphasis coefficient
                          % R = [ 300 3700 ]; % frequency range to consider
                          % M = 20; % number of filterbank channels
                          % C = 13; % number of cepstral coefficients
                          % L = 22; % cepstral sine lifter parameter
                          ضرایب HMM:

                          T = 8;
                          nex = 20;
                          آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

                          دیدگاه


                            #28
                            پاسخ : پروژه پردازش گفتار با HMM

                            1- HMM برای آموزش به تعداد خیلی زیادی نمونه نیاز داره و 3 نمونه اصلاً کفایت نمی کنه. خروجی های MFCC باید به HMM داده بشه، شما میتونی بدون ذخیره کردن هم این کارو بکنی ولی اگه ذخیره کنی بهتره.
                            2- otuput symbol درسته ولی state کاملاً مستقله، بستگی داره به نوع مسأله، پیچیدگی پترن، طول sequence ویژگی ها و ...، معمولاً به صورت [s]رندوم[/s] سعی و خطا انتخاب میشه رنج 3 تا 30 فکر می کنم مناسب باشه.
                            3- T و nex نماد چی هستن؟
                            لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
                            لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
                            با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
                            اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
                            يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

                            دیدگاه


                              #29
                              پاسخ : پروژه پردازش گفتار با HMM

                              نوشته اصلی توسط هـادی
                              1- HMM برای آموزش به تعداد خیلی زیادی نمونه نیاز داره و 3 نمونه اصلاً کفایت نمی کنه. خروجی های MFCC باید به HMM داده بشه، شما میتونی بدون ذخیره کردن هم این کارو بکنی ولی اگه ذخیره کنی بهتره.
                              2- otuput symbol درسته ولی state کاملاً مستقله، بستگی داره به نوع مسأله، پیچیدگی پترن، طول sequence ویژگی ها و ...، معمولاً به صورت رندوم انتخاب میشه رنج 3 تا 30 فکر می کنم مناسب باشه.
                              3- T و nex نماد چی هستن؟

                              we sample next=20 sequence of length T=10 each from this model, to use as training data
                              بنظر شما برای آموزش چند نمونه کفایت میکنه؟ آیا بهتره افراد متفاوت باشند؟
                              راجع به ذخیره کردن :question: همه ماتریس های خروجی MFCC رو ذخیره کنم؟ یعنی هربار باید MFCC جداگانه ران بشه بعد HMM!! ب :question: نمیشه یباره کاری کرد دیتا بیسش کرد؟
                              آنقدر شکست میآ‌خورم تا راه شکست دادن را بیاموزم

                              دیدگاه


                                #30
                                پاسخ : پروژه پردازش گفتار با HMM

                                با توضیحی که نوشتی باز هم متوجه نشدم که nex چیه.
                                چون از HMM استفاده می کنی، نیازی نیست طول بردارهای ویژگی مساوی باشه.
                                نمیدونم چند نمونه کافیه چون روی صوت کار نکردم ولی روی یک دیتابیس خروجی MFCC ارقام عربی موجود در اینترنت که تست کرده بودم، برای هر رقم (بین 0 تا 9) حدود 660 نمونه آموزشی داشتم که به بالای 90 درصد شناسایی صحیح رسیدم.
                                اگه افراد متفاوت باشن طبیعتاً کار سخت تر میشه و درصد تشخیص درست پایین میاد.
                                بله نظر من اینه که خروجی هر مرحله ذخیره بشه تا انعطاف پذیری، خطایابی و تحلیل نتایج هر مرحله امکان پذیر باشه.
                                لطفاً برای انجام پروژه های دانشجویی پیام خصوصی نفرستید.
                                لطفاً سؤالاتی که در انجمن قابل طرح شدن هستند پیام خصوصی نکنید.
                                با تمام وجود گناه کرديم اما نه نعمتش را از ما گرفت نه گناهان ما را فاش کرد اطاعتش کنيم چه مي کند؟"دکتر شريعتي"
                                اگر جايي که ايستاده ايد را نمي پسنديد، عوضش کنيد شما درخت نيستيد!! "پاسكال"
                                يا به اندازه ي آرزوهايت تلاش کن يا به اندازه تلاشت آرزو کن. "شکسپير"

                                دیدگاه

                                لطفا صبر کنید...
                                X