پردازش گفتار
یاسر شکفته؛ فرشاد الماسگنج
دوره 6، شماره 1 ، خرداد 1391، ، صفحه 17-33
چکیده
تحقیقات اخیر نشان میدهد که تظاهرات غیرخطی و آشوبی سیگنال گفتار میتواند در حوزة فضای بازسازی شده فاز (RPS) مطالعه شود. تئوری جاسازی برمبنای محورهای تأخیری، ابزار مناسبی برای بررسی تراژکتورهای گفتاری در RPS است. تاکنون از مشخصههای تراژکتورهای گفتاری به ندرت در سیستمهای کاربردی بازشناسی گفتار استفاده شده است. از اینرو در این مقاله ...
بیشتر
تحقیقات اخیر نشان میدهد که تظاهرات غیرخطی و آشوبی سیگنال گفتار میتواند در حوزة فضای بازسازی شده فاز (RPS) مطالعه شود. تئوری جاسازی برمبنای محورهای تأخیری، ابزار مناسبی برای بررسی تراژکتورهای گفتاری در RPS است. تاکنون از مشخصههای تراژکتورهای گفتاری به ندرت در سیستمهای کاربردی بازشناسی گفتار استفاده شده است. از اینرو در این مقاله روش استخراج ویژگی جدیدی براساس پارامترهای مدلسازی خطی مبتنی بر روش AR برداری (VAR) پیشنهاد شده است. در این روش بوسیله ماتریس ضرایب فیلتر و یا ضرایب انعکاسی به دست آمده از اعمال روش VAR بر مشخصههای استاتیک و دینامیک تراژکتوری های گفتاری شکل یافته در RPS، یک بردار ویژگی با بُعد زیاد حاصل میشود که میتوان از روشهای نگاشت خطی برای کاهش بُعد مناسب آن استفاده کرد. نتایج آزمایشهای بازشناسی واج مجزا و پیوسته بر مجموعه دادگان گفتاری فارسدات نشان میدهد که کارایی این روش در مقایسه با دیگر روشهای متداول استخراج ویژگی مبتنی بر حوزة زمان مانند روش LPC و LPREF بیشتر است.
پردازش گفتار
محمدرضا یزدچی؛ سید علی سیدصالحی
دوره 1، شماره 3 ، آذر 1386، ، صفحه 201-213
چکیده
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی ...
بیشتر
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دو سویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی 400 کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش %16.9 در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دو سویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان %18 نسبت به مدل صوتی نشان داده شده است.