نوع مقاله : مقاله کامل پژوهشی
نویسندگان
1 دانشجوی کارشناسی ارشد، گروه ریاضی کاربردی، دانشکدهی علوم و فناوریهای نوین، دانشگاه تحصیلات تکمیلی صنعتی و فناوری پیشرفته، کرمان، ایران
2 استادیار، گروه ریاضی کاربردی، دانشکدهی علوم و فناوریهای نوین، دانشگاه تحصیلات تکمیلی صنعتی و فناوری پیشرفته، کرمان، ایران
3 دانشیار، دانشکدهی مهندسی کامپیوتر، دانشگاه شهید باهنر کرمان، کرمان، ایران
چکیده
دادههای میکرو-آرایهای DNA در یادگیری ماشین و تشخیص انواع مختلف ساختارهای سرطانی نقش مهمی را ایفا میکنند. دادههای میکرو-آرایهای به طور معمول شامل تعداد زیادی ویژگی و تعداد اندکی نمونه هستند. همچنین، اینگونه دادهها به دلیل داشتن برخی ویژگیهای نامرتبط میتوانند موجب بیشبرازش و کاهش دقت پیشبینی طبقهبند کنندهها شوند. بنابراین، آنالیز دادههای میکرو-آرایهای امری مهم و چالش برانگیز در یادگیری ماشین و فناوری ژنتیک مولکولی محسوب میشود. یک راه مستقیم برای مقابله با این چالش، کاهش بعد داده میباشد. روش انتخاب ویژگی به عنوان یک راهکار مهم برای کاهش ابعاد و افزایش کارایی الگوریتمهای یادگیری عمل میکند. در این مقاله، با استفاده از مفهوم پایه برای مجموعهی دادههای میکرو-آرایهای، یک روش جدید انتخاب ویژگی معرفی شده است. به عبارت دیگر، از یک پایه شامل یک زیرمجموعهی بسیار کوچک از ژنها، به جای کل مجموعهی دادههای میکرو-آرایهای در تعریف مسالهی انتخاب ویژگی استفاده شده است. در این روش مسالهی انتخاب ویژگی بر اساس دیدگاه یادگیری زیرفضا و تجزیهی ماتریس پایه فرمولبندی شده است. در نهایت، با استفاده از مجموعهی دادههای میکرو-آرایهای DNA، کارایی روش پیشنهادی بررسی شده و نتایج به دست آمده با نتایج چند روش انتخاب ویژگی معتبر مقایسه شده است.
کلیدواژهها
عنوان مقاله [English]
Feature Selection Method based on Subspace Learning and Factorization of Basis Matrix for DNA Micro-Array Datasetsfor DNA Micro-Array Datasets
نویسندگان [English]
- Mahla Dehtaghi Zadeh 1
- Farid Saberi-Movahed 2
- Mahdi Eftekhari 3
1 M.Sc. Student, Department of Applied Mathematics, Faculty of Sciences and Modern Technologies, Graduate University of Advanced Technology, Kerman, Iran
2 Assistant Professor, Department of Applied Mathematics, Faculty of Sciences and Modern Technologies, Graduate University of Advanced Technology, Kerman, Iran
3 Associate Professor, Department of Computer Engineering, Shahid Bahonar University of Kerman, Kerman, Iran
چکیده [English]
DNA micro-array datasets play crucial role in machine learning and recognition of various kinds of cancer structures. Micro-array datasets are typically characterized by the high number of features and the small number of samples. Such problems may result in overfitting and low prediction accuracy of classifiers due to the irrelevant features, and therefore, they are considered as a challenging task in machine learning. The direct way to deal with such challenges is dimensionality reduction of data. In this regard, feature selection method acts as an effective solution for dimensinality reduction and increasing efficiency of learning algorithms. In this paper, by using the concept of “the basis for the DNA micro-array datasets”, a new feature selection method is introduced. To be more specific, rather than utilizing the entire micro-array dataset for tackling the problem of feature selection, a basis that is a muchmore smaller subset of the micro-array dataset is used. This method is based on subspace learning and matrix factorization. Finally, by making use of the DNA micro-array datasets, the effectiveness of the proposed method is evaluated, and the obtained results are compared with some state-of-the-art supervised feature selection methods.
کلیدواژهها [English]
- Feature Selection
- Subspace Learning
- Matrix Factorization
- DNA Micro-Array Datasets