پردازش گفتار
محمدبهادر نجفی؛ منصور ولی
دوره 14، شماره 2 ، تیر 1399، ، صفحه 97-107
چکیده
بیماری پارکینسون بعد از آلزایمر به عنوان رایجترین بیماری مخرب سیستم عصبی شناخته میشود. یکی از عوارض شایع این بیماری، به وجود آمدن اختلالات گفتاری است. با توجه به این که تولید گفتار در انسان شامل تولید صوت در اثر ارتعاش تارهای صوتی (بخش آوایی) و سپس عبور آن از فیلتر لولهی صوتی (بخش تلفظی) است، انتظار میرود هر کدام از این دو بخش دچار ...
بیشتر
بیماری پارکینسون بعد از آلزایمر به عنوان رایجترین بیماری مخرب سیستم عصبی شناخته میشود. یکی از عوارض شایع این بیماری، به وجود آمدن اختلالات گفتاری است. با توجه به این که تولید گفتار در انسان شامل تولید صوت در اثر ارتعاش تارهای صوتی (بخش آوایی) و سپس عبور آن از فیلتر لولهی صوتی (بخش تلفظی) است، انتظار میرود هر کدام از این دو بخش دچار اختلال شوند. در این تحقیق با استفاده از یک روش غیرتهاجمی و به کمک سیگنال گفتار فرد، به تشخیص بیماری پارکینسون پرداخته شده است. بدین منظور از گویش 3 واکهی کشیدهی زبان فارسی توسط 48 نفر (27 نفر مبتلا به بیماری پارکینسون و 21 نفر سالم) استفاده شده است تا میزان تخریب دو بخش تلفظی و آوایی ارزیابی شود. از ویژگیهای مرتبط با بخش آوایی تولید گفتار میتوان به جیتر، شیمر، فرکانس گام و طول زمانی باز و بسته شدن پالسهای چاکنایی و از ویژگیهای بخش تلفظی گفتار میتوان به فرمنتهای اول، دوم و سوم، نرخ عبور از صفر، MFCC و LPC اشاره کرد. در این تحقیق، در مجموع 38 دستهی ویژگی استخراج شده و چهار پارامتر آماری میانگین، انحراف معیار، ضریب چولگی و ضریب کشیدگی از روی آنها محاسبه شده است. در ادامه از الگوریتم ژنتیک برای شناسایی ویژگیهای بهینه استفاده شده و شناسایی بیماری پارکینسون با به کارگیری طبقهبندهای SVM، KNN و درخت تصمیمگیر انجام شده است. به عنوان شاخصهی اصلی این پژوهش، نتایج مربوط به دو بخش آوایی و تلفظی مورد مقایسه و چالش قرار گرفته است. نتایج حاصل از این مطالعه نشان داده که ویژگیهای آوایی با صحت 2/1±1/96% نسبت به ویژگیهای تلفظی در تشخیص بیماری پارکینسون نقش مفیدتری داشته و همچنین واکهی /او/ با میزان صحت 6/97% بهترین عملکرد را در تشخیص بیماری پارکینسون نسبت به سایر واکهها داشته است.
پردازش گفتار
حمید آزادی؛ محمدعلی خلیل زاده؛ محمدرضا اکبرزاده توتونچی؛ حمیدرضا کبروی؛ فریبرز رضایی طلب؛ سید امیر ضیافتی باقرزاده؛ علیرضا نوعی سرچشمه؛ نینا شاهسون پور
دوره 10، شماره 1 ، اردیبهشت 1395، ، صفحه 41-47
چکیده
در سالهای اخیر، محققین تلاشهای زیادی برای تشخیص بیماری پارکینسون از طریق یافتن ارتباط آن با سیگنال گفتار افراد انجام دادهاند. همچنین پژوهشهایی در تعیین شدت بیماری و ارتباط آن با اختلالات صوتی انجام شده است. هدف این مقاله، ارزیابی و مقایسة توانایی دسته ویژگیهای مختلف استخراجی از سیگنال گفتار، در تشخیص بیماری پارکینسون ...
بیشتر
در سالهای اخیر، محققین تلاشهای زیادی برای تشخیص بیماری پارکینسون از طریق یافتن ارتباط آن با سیگنال گفتار افراد انجام دادهاند. همچنین پژوهشهایی در تعیین شدت بیماری و ارتباط آن با اختلالات صوتی انجام شده است. هدف این مقاله، ارزیابی و مقایسة توانایی دسته ویژگیهای مختلف استخراجی از سیگنال گفتار، در تشخیص بیماری پارکینسون است. برای این منظور، 12 دسته ویژگی از سیگنال گفتار ارزیابی شدهاند، تحلیل صدا روی قسمت آواسازی افراد انجام شده و واج /آ/ توسط افراد بیان شده است. با انتخاب بهترین ویژگیها از هر دسته، که شامل 132 ویژگی است، به روش تسکین و اعمال آن به طبقهبندی کنندة ماشین بردار پشتیبان، مقایسهای بین دسته ویژگیهای مختلف انجام شد. همچنین با ترکیب ویژگیهای منتخب از هر دسته، صحت تفکیک بسیار خوب 95.93 درصد، در جداسازی گروه سالم از بیمار بهدست آمد. نتایج حاصل از این پژوهش، میتواند گامی بسیار مهم در تشخیص غیرتهاجمی بیماری پارکینسون باشد.
پردازش گفتار
شهلا عزیزی؛ فرزاد توحیدخواه؛ فرشاد الماسگنج
دوره 6، شماره 4 ، اسفند 1391، ، صفحه 257-265
چکیده
در این مقاله، یک سیستم بازشناسی کلمات جداگانه بررسی شده است. هدف این تحقیق، افزایش کارایی سیستم بازشناسی گفتار کودکان با استفاده از روش هنجارسازی طول مسیر صوتی است. این سیستم بازشناسی، برای استفاده در طراحی نرمافزار گفتاردرمانی ایجاد شده است به طوری که این نرمافزار با استفاده از سیستم بازشناسی، درست یا نادرست بودن تلفظ کودک را ...
بیشتر
در این مقاله، یک سیستم بازشناسی کلمات جداگانه بررسی شده است. هدف این تحقیق، افزایش کارایی سیستم بازشناسی گفتار کودکان با استفاده از روش هنجارسازی طول مسیر صوتی است. این سیستم بازشناسی، برای استفاده در طراحی نرمافزار گفتاردرمانی ایجاد شده است به طوری که این نرمافزار با استفاده از سیستم بازشناسی، درست یا نادرست بودن تلفظ کودک را تشخیص میدهد و تلاش میکند تا با استفاده از بازخوردها گفتار کودک را بهبود بخشد. دادگان گفتاری -که در فاز بازشناسی این سیستم استفاده شده است- مربوط به 47 کلمه و اختلالات تولیدی رایج در آنها است. در این مطالعه، 4 مدل پایه شامل مدل کودکان، مدل ترکیبی کودکان و زنان و دو مدل بزرگسالان (با استفاده از دادههای فارسدات) آموزش داده شده است. دادههایی که برای آموزش و آزمون مدل کودکان استفاده شده، مربوط به 38 کودک در بازه سنی 5 تا 8 است. همه مراحل آموزش و آزمون سیستم بازشناسی با استفاده از ابزار HTKانجام شده است. نتایج این پژوهش نشان میدهد که کارایی کم سیستم بازشناسی با استفاده از روش تطبیق هنجارسازی طول مسیر صوتی افزایش مییابد و بهبود مدل بزرگسالان چشمگیرتر از مدل کودکان است.
پردازش گفتار
احسان عکافی؛ منصور ولی؛ نگین مرادی
دوره 6، شماره 3 ، آذر 1391، ، صفحه 119-129
چکیده
پرخیشومی از رایجترین اختلالات در کودکان دارای شکاف کام است. عموماً برای کاهش این نقیصه نیاز به جراحی است و بنابراین ارزیابی خیشومی بودن برای بررسی تأثیر جراحی و همچنین طراحی جلسات گفتار درمانی- که بعد از عملهای جراحی نیاز است- حیاتی است. استفاده از مدلهای تمام قطب مانند ARبرای مدلسازی سیستم لوله صوتی افراد سالم رایج و معتبر هستند؛ ...
بیشتر
پرخیشومی از رایجترین اختلالات در کودکان دارای شکاف کام است. عموماً برای کاهش این نقیصه نیاز به جراحی است و بنابراین ارزیابی خیشومی بودن برای بررسی تأثیر جراحی و همچنین طراحی جلسات گفتار درمانی- که بعد از عملهای جراحی نیاز است- حیاتی است. استفاده از مدلهای تمام قطب مانند ARبرای مدلسازی سیستم لوله صوتی افراد سالم رایج و معتبر هستند؛ اما وجود کانال ارتباطی بین حفره دماغی و دهانی افراد دارای شکاف کام، منجر به اضافه شدن صفر به تابع تبدیل فیلتر لوله صوتی شده و درنتیجه مدل مذکور برای فیلتر لوله صوتی این افراد دقیق نیست. بر این اساس در این تحقیق روش کمّی جدیدی برای تخمین میزان پرخیشومی بودن ارائه شده است. در روش ارائه شده میزان پرخیشومی بودن با کمِیتی که از محاسبه فاصله بین بردار ضرایب کپستروم استخراج شده از ضرایب مدل ARو مدل ARMA بدست آمده، ارزیابی شد. روش k-meansو روش بیز برای یافتن حد آستانه مناسب بمنظور طبقهبندی دادگان به کار رفت. با اجرای الگوریتم پیشنهادی برای مجموعه دادگان شامل واکههای /a/ استخراج شده از کلمه آزمون /pamap/ که 13 فرد دارای شکاف کام و 22 فرد سالم آنرا بیان کردند، صحت تراز شده 18/82 درصد برای طبقهبندی گویشها و صحت تراز شده 72/97 درصد برای طبقهبندی افراد بدست آمد. از آنجایی که روش ارائه شده تنها به پردازش کامپیوتری دادگان نیاز دارد، در مقایسه با روشهای بالینی دیگر، ساده و غیر تهاجمی است.
پردازش گفتار
یاسر شکفته؛ فرشاد الماسگنج
دوره 6، شماره 1 ، خرداد 1391، ، صفحه 17-33
چکیده
تحقیقات اخیر نشان میدهد که تظاهرات غیرخطی و آشوبی سیگنال گفتار میتواند در حوزة فضای بازسازی شده فاز (RPS) مطالعه شود. تئوری جاسازی برمبنای محورهای تأخیری، ابزار مناسبی برای بررسی تراژکتورهای گفتاری در RPS است. تاکنون از مشخصههای تراژکتورهای گفتاری به ندرت در سیستمهای کاربردی بازشناسی گفتار استفاده شده است. از اینرو در این مقاله ...
بیشتر
تحقیقات اخیر نشان میدهد که تظاهرات غیرخطی و آشوبی سیگنال گفتار میتواند در حوزة فضای بازسازی شده فاز (RPS) مطالعه شود. تئوری جاسازی برمبنای محورهای تأخیری، ابزار مناسبی برای بررسی تراژکتورهای گفتاری در RPS است. تاکنون از مشخصههای تراژکتورهای گفتاری به ندرت در سیستمهای کاربردی بازشناسی گفتار استفاده شده است. از اینرو در این مقاله روش استخراج ویژگی جدیدی براساس پارامترهای مدلسازی خطی مبتنی بر روش AR برداری (VAR) پیشنهاد شده است. در این روش بوسیله ماتریس ضرایب فیلتر و یا ضرایب انعکاسی به دست آمده از اعمال روش VAR بر مشخصههای استاتیک و دینامیک تراژکتوری های گفتاری شکل یافته در RPS، یک بردار ویژگی با بُعد زیاد حاصل میشود که میتوان از روشهای نگاشت خطی برای کاهش بُعد مناسب آن استفاده کرد. نتایج آزمایشهای بازشناسی واج مجزا و پیوسته بر مجموعه دادگان گفتاری فارسدات نشان میدهد که کارایی این روش در مقایسه با دیگر روشهای متداول استخراج ویژگی مبتنی بر حوزة زمان مانند روش LPC و LPREF بیشتر است.
پردازش گفتار
ایوب دلیری؛ فرزاد توحیدخواه؛ شهریار غریبزاده؛ یاسر شکفته
دوره 2، شماره 2 ، شهریور 1387، ، صفحه 123-129
چکیده
سیستم تولید گفتار، یکی از پیچیده ترین سیستم های فیزیولوژیکی است. این سیستم خود از زیر سیستم های مختلفی تشکیل شده است که کنترل حرکت و هماهنگی آنها بسیار مهم می باشد، چرا که با هر گونه ناهماهنگی، ریتم رشته گفتار تولید شده به طور کامل مختل می شود. فک یکی از قسمت های مهم این سیستم است. تاکنون مدل های مختلفی برای حرکت فک ارائه شده است اما مدلی ...
بیشتر
سیستم تولید گفتار، یکی از پیچیده ترین سیستم های فیزیولوژیکی است. این سیستم خود از زیر سیستم های مختلفی تشکیل شده است که کنترل حرکت و هماهنگی آنها بسیار مهم می باشد، چرا که با هر گونه ناهماهنگی، ریتم رشته گفتار تولید شده به طور کامل مختل می شود. فک یکی از قسمت های مهم این سیستم است. تاکنون مدل های مختلفی برای حرکت فک ارائه شده است اما مدلی که در برگیرنده برهم کنش کامل عضلات، استخوان ها و اعصاب به طور جامع باشد، ارائه نشده است. در این مقاله با استفاده از مفاهیم فنر- جرم- دمپر و نیز یک مدل غیرخطی، مدلی جامع برای حرکت فک در حین تکلم ارائه شده و برای محاسبه پارامترهای مدل از داده های تجربی استفاده گردیده است. نتایج شبیه سازی ها نشان دادند که مدل پیشنهادی می تواند الگوهای حرکتی فک را با خطای بسیار کم مشابه حالت فیزیولوژیکی ایجاد کند. با توجه به جامع بودن مدل از یک سو و سادگی آن از سوی دیگر، می توان از آن در توصیف رفتار حرکتی فک استفاده کرد.
پردازش گفتار
محمدرضا یزدچی؛ سید علی سیدصالحی
دوره 1، شماره 3 ، آذر 1386، ، صفحه 201-213
چکیده
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی ...
بیشتر
بازشناسی خودکار گفتار در شرایط عدم تطابق دادگان آموزش و آزمون، یکی از چالش های مهم در این مورد است. به منظور کاهش هر چه بیشتر این عدم تطابق، روش های مرسوم، سعی در بهسازی گفتار یا تطابق مدل آماری دارند. در این زمینه از جمله روش های دیگر می توان به آموزش مدل در شرایط مختلف اشاره کرد. موفقیت در این روش ها، در مقابل کارایی سیستم درک و بازشناسی در انسان بسیار ابتدایی به نظر می رسد. در مقاله حاضر با الهام از سیستم درک و بازشناسی در انسان، شبکه عصبی دو سویه جدیدی طراحی و پیاده سازی شده است. این شبکه قادر است تا با اتصالات بازگشتی ضمن مدل سازی دنباله واج نظیر کلمات مجزا، طی تکرارهای مختلف، دنباله واج استخراج شده از مدل صوتی را به دنباله واج مطلوب، اصلاح کند. برای این منظور پس از پیاده سازی روش مذکور بر روی 400 کلمه مجزا از دادگان فارس دات تلفنی، در بهترین حالت، افزایش %16.9 در صحت بازشناسی واج مدل صوتی مشاهده شد. تشکیل بستر جذب در این شبکه عصبی دو سویه، از مزایای این شبکه در برابر شبکه های عصبی تک سویه است. در ادامه، به کمک متوالی کردن مدل واژگانی مذکور با مدل صوتی، متغیرهای بازنمایی بر اساس روش های معکوس سازی شبکه های عصبی اصلاح گردید. بهسازی گفتار با این روش نتایج قابل ملاحظه ای در کاهش عدم تطابق دادگان آزمون و آموزش در پی داشت. در این مقاله کارایی مدل واژگانی و بهسازی گفتار در قالب افزایش صحت بازشناسی واج به میزان %18 نسبت به مدل صوتی نشان داده شده است.
پردازش گفتار
منصور شیخان
دوره 1، شماره 3 ، آذر 1386، ، صفحه 227-240
چکیده
در این مقاله با هدف ایجاد بهبود در عملکرد اولین ویرایش از سیستم تبدیل متن به گفتار طبیعی ارایه شده برای زبان فارسی، که در آن از یک شبکه عصبی بازگشتی برای تولید همزمان عوامل نوای گفتار (الگوی فرکانس گام، دیرش، انرژی و درنگ) و نیز سنتزکننده «مدل هارمونیک + نویز» با دادگان تک واحدی از دو واجی ها، برای تولید گفتار استفاده شده بود، چگونگی ...
بیشتر
در این مقاله با هدف ایجاد بهبود در عملکرد اولین ویرایش از سیستم تبدیل متن به گفتار طبیعی ارایه شده برای زبان فارسی، که در آن از یک شبکه عصبی بازگشتی برای تولید همزمان عوامل نوای گفتار (الگوی فرکانس گام، دیرش، انرژی و درنگ) و نیز سنتزکننده «مدل هارمونیک + نویز» با دادگان تک واحدی از دو واجی ها، برای تولید گفتار استفاده شده بود، چگونگی به کارگیری یک مدل آمیختار عصبی- آماری برای تولید نوا با ایجاد امکان انتخاب واحد در بخش سنتز گفتار بررسی شده است. در این راستا، در مدل آمیختار توسعه یافته برای تولید نوا، شبکه عصبی بازگشتی نقش پارامتری ساختن عوامل نوا (البته با تغییراتی در ساختار، نسبت به ویرایش اول سیستم) را داشته و به دنبال آن درخت های تصمیم گیری نوایی شکل گرفته و توصیف توزیع مقادیر نوا نیز به وسیله مدل مخلوط گوسی انجام شده است. بدین ترتیب امکان انتخاب قطعات گفتاری بهینه در یک سیستم سنتز مبتنی بر انتخاب واحد های هجایی و اتصال قطعات مناسب فراهم آمد. در ارزیابی نهایی عملکرد سیستم نیز با به کارگیری ملاک های ارایه شده در استاندارد MOS, ITU-T P.85 معادل 3.6 محاسبه شد.