نوع مقاله : مقاله کامل پژوهشی
نویسندگان
1 دانشجوی کارشناسی ارشد مهندسی پزشکی، گروه بیوالکتریک، دانشکدهی مهندسی پزشکی، دانشگاه صنعتی امیرکبیر، تهران
2 دانشیار، گروه بیوالکتریک، دانشکدهی مهندسی پزشکی، دانشگاه صنعتی امیرکبیر، تهران
3 استادیار، دانشکدهی ریاضی و علوم کامپیوتر، دانشگاه صنعتی امیرکبیر، تهران
چکیده
استفاده از توالیهای نوکلئوتیدی ژنوم به عنوان سیگنالهای بیوشیمیایی در روشهای یادگیری ماشین، با تبدیل این توالیها به کدهای عددی امکانپذیر است و این تبدیل باعث افزایش غیرواقعی بعد دادهها شده و انجام عملیاتهای تحلیل داده، مانند بصریسازی و استخراج ویژگی را با محدودیتهایی روبهرو میسازد. از اینرو، باید با استفاده از روشهای کاهش بعد، دادهها را به فضای واقعی برگرداند. در این پژوهش از یک شبکهی عصبی عمیق اتوانکودر به منظور کاهش بعد دادههای توالی مربوط به جایگاههای پیوند روی ژنوم انسان استفاده شده است. به منظور بررسی میزان حفظ اطلاعات دادههای اصلی در دادههای کاهش بعد یافته، از یک طبقهبندی دوکلاسه به وسیلهی ماشین بردار پشتیبان استفاده میشود. نتایج به دست آمده نشان میدهد که اطلاعات تقریبا به طور کامل در فشردهسازی حفظ میشود. سپس از دادههای فشردهشده برای بصریسازی و همچنین انتخاب ویژگی با تحلیل واریانس استفاده میشود. نتایج به دست آمده نشان میدهد که مکانهای اول، دهم و هشتم در توالیها دارای بیشترین اطلاعات هستند. درحالیکه عمدهی پژوهشهای پیشین روی دادههای بیان ژن حاصل از میکروآرایه، متمرکز شدهاند و مقایسهی محدودی بین روشهای کاهش بعد در آنها انجام شده است. این مقاله برای نخستین بار، دادههای نوکلئوتیدی توالی را با شبکهی اتوانکودر، کاهش بعد داده و مقایسهی جامعی بین انواع روشهای کاهش بعد و یادگیری ماشین ارائه میدهد.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Dimensionality Reduction of Binding Site Sequence Data on Human Genome Using a Deep Autoencoder Neural Network
نویسندگان [English]
- Hossein Bankikoshki 1
- Seyed Ali Seyyedsalehi 2
- Fatemeh Zare Mirakabad 3
1 MSc Student, Bioelectric Department, Biomedical Engineering Faculty, Amirkabir University of Technology, Tehran, Iran
2 Associate Professor, Bioelectric Department, Biomedical Engineering Faculty, Amirkabir University of Technology, Tehran, Iran
3 Assistant Professor, Faculty of Mathematics & Computer Sciences, Amirkabir University of Technology, Tehran, Iran
چکیده [English]
The use of genomic nucleotide sequences as biochemical signals in machine learning methods is possible by converting these sequences into numerical codes. This conversion results in an unrealistic increase in the dimension of the data and encounters some data analysis operations such as visualization and feature extraction with constraints. Therefore, one should use the dimensionality reduction technics in order to return the data to its real dimension. In this study, a deep autoencoder neural network has been used to reduce the dimension of binding site sequence data on the human genome. In order to determine whether the information of real data is preserved in compressed data, we perform a two-class classification using a support vector machine. The results show that information is almost entirely preserved in compression. Then, compressed data is used for visualization as well as feature selection by analysis of variance. The results show that the first, the tenth and eighth positions in the sequences are the most informative positions. While the majority of the previous works deal with gene expression data of microarrays and compare a few dimension reduction algorithms, this paper for the first time uses an autoencoder on nucleotide sequence data and provides a comprehensive comparison between the performance of the dimension reduction technics and machine learning algorithms.
کلیدواژهها [English]
- Autoencoder
- Dimensionality Reduction
- Genome Sequence
- Classification
- feature selection