@article { author = {Sheykhan, Mansour}, title = {Automatic Prosody Generation By Neural-Statistical Hybrid Model For Unit Selection Speech Synthesis}, journal = {Iranian Journal of Biomedical Engineering}, volume = {1}, number = {3}, pages = {227-240}, year = {2007}, publisher = {Iranian Society for Biomedical Engineering}, issn = {5869-2008}, eissn = {9685-8006}, doi = {10.22041/ijbme.2007.13501}, abstract = {In the first version of our Farsi Text-To-Speech (TTS) system, a Recurrent Neural Network (RNN) was used to generate prosody parameters (pitch contour, duration, energy and pause), and a Harmonic + Noise Model (HNM) speech synthesizer was used to concatenate the single units of diphones. To improve the performance of TTS, in this paper, two modifications are presented. In the first one is a neural-statistical hybrid model in which RNN plays the role of prosody parameterizer and the combination of decision trees and Gaussian Mixture Models (GMMs) gives the probability distributions of targets and transitions in each context a equivalent cluster. Another modification is about developing a unit selection speech synthesizer in which syllable is selected as the basic synthesis unit and, due to the first modification, an effective unit selection strategy is also conducted. To evaluate the performance of the system, the rating scales presented in the recommendation P.85 of the International Telecommunication Union (ITU) were used and the Mean Opinion Score (MOS) over six scales was achieved as 3.6.}, keywords = {prosody,Pitch Contour,Duration,Recurrent Neural Network,Decision tree,Gaussian mixture model,Speech Synthesis,Unit Selection,Syllable}, title_fa = {تولید خودکار نوای گفتار به کمک مدل آمیختار عصبی-آماری با امکان انتخاب واحد در سنتز}, abstract_fa = {در این مقاله با هدف ایجاد بهبود در عملکرد اولین ویرایش از سیستم تبدیل متن به گفتار طبیعی ارایه شده برای زبان فارسی، که در آن از یک شبکه عصبی بازگشتی برای تولید همزمان عوامل نوای گفتار (الگوی فرکانس گام، دیرش، انرژی و درنگ) و نیز سنتزکننده «مدل هارمونیک + نویز» با دادگان تک واحدی از دو واجی ها، برای تولید گفتار استفاده شده بود، چگونگی به کارگیری یک مدل آمیختار عصبی- آماری برای تولید نوا با ایجاد امکان انتخاب واحد در بخش سنتز گفتار بررسی شده است. در این راستا، در مدل آمیختار توسعه یافته برای تولید نوا، شبکه عصبی بازگشتی نقش پارامتری ساختن عوامل نوا (البته با تغییراتی در ساختار، نسبت به ویرایش اول سیستم) را داشته و به دنبال آن درخت های تصمیم گیری نوایی شکل گرفته و توصیف توزیع مقادیر نوا نیز به وسیله مدل مخلوط گوسی انجام شده است. بدین ترتیب امکان انتخاب قطعات گفتاری بهینه در یک سیستم سنتز مبتنی بر انتخاب واحد های هجایی و اتصال قطعات مناسب فراهم آمد. در ارزیابی نهایی عملکرد سیستم نیز با به کارگیری ملاک های ارایه شده در استاندارد MOS, ITU-T P.85 معادل 3.6 محاسبه شد.}, keywords_fa = {نوای گفتار,الگوی گام,دیرش,شبکه عصبی بازگشتی,درخت تصمیم گیری,مدل مخلوط گوسی,سنتز گفتار,انتخاب قطعه گفتاری,هجا}, url = {https://www.ijbme.org/article_13501.html}, eprint = {https://www.ijbme.org/article_13501_0dc4ae6798e61986e1066837357fb4bf.pdf} }