بیوانفورماتیک / زیستدادهورزی
حسین بانکی کشکی؛ سیدعلی سیدصالحی؛ فاطمه زارع میرکآباد
دوره 11، شماره 3 ، آبان 1396، ، صفحه 219-230
چکیده
استفاده از توالیهای نوکلئوتیدی ژنوم به عنوان سیگنالهای بیوشیمیایی در روشهای یادگیری ماشین، با تبدیل این توالیها به کدهای عددی امکانپذیر است و این تبدیل باعث افزایش غیرواقعی بعد دادهها شده و انجام عملیاتهای تحلیل داده، مانند بصریسازی و استخراج ویژگی را با محدودیتهایی روبهرو میسازد. از اینرو، باید با ...
بیشتر
استفاده از توالیهای نوکلئوتیدی ژنوم به عنوان سیگنالهای بیوشیمیایی در روشهای یادگیری ماشین، با تبدیل این توالیها به کدهای عددی امکانپذیر است و این تبدیل باعث افزایش غیرواقعی بعد دادهها شده و انجام عملیاتهای تحلیل داده، مانند بصریسازی و استخراج ویژگی را با محدودیتهایی روبهرو میسازد. از اینرو، باید با استفاده از روشهای کاهش بعد، دادهها را به فضای واقعی برگرداند. در این پژوهش از یک شبکهی عصبی عمیق اتوانکودر به منظور کاهش بعد دادههای توالی مربوط به جایگاههای پیوند روی ژنوم انسان استفاده شده است. به منظور بررسی میزان حفظ اطلاعات دادههای اصلی در دادههای کاهش بعد یافته، از یک طبقهبندی دوکلاسه به وسیلهی ماشین بردار پشتیبان استفاده میشود. نتایج به دست آمده نشان میدهد که اطلاعات تقریبا به طور کامل در فشردهسازی حفظ میشود. سپس از دادههای فشردهشده برای بصریسازی و همچنین انتخاب ویژگی با تحلیل واریانس استفاده میشود. نتایج به دست آمده نشان میدهد که مکانهای اول، دهم و هشتم در توالیها دارای بیشترین اطلاعات هستند. درحالیکه عمدهی پژوهشهای پیشین روی دادههای بیان ژن حاصل از میکروآرایه، متمرکز شدهاند و مقایسهی محدودی بین روشهای کاهش بعد در آنها انجام شده است. این مقاله برای نخستین بار، دادههای نوکلئوتیدی توالی را با شبکهی اتوانکودر، کاهش بعد داده و مقایسهی جامعی بین انواع روشهای کاهش بعد و یادگیری ماشین ارائه میدهد.