نوع مقاله: مقاله کامل پژوهشی

نویسندگان

1 گروه ریاضی کاربردی، دانشکده علوم و فناوری‌های نوین، دانشگاه تحصیلات تکمیلی صنعتی و فناوری پیشرفته، کرمان، ایران

2 دانشکده مهندسی کامپیوتر، دانشگاه شهید باهنر کرمان، کرمان

3 گروه ریاضی کاربردی، دانشکده علوم و فناوری‌های نوین، دانشگاه تحصیلات تکمیلی صنعتی و فناوری پیشرفته، کرمان

10.22041/ijbme.2019.104143.1454

چکیده

داده‌های میکرو-آرایه‌ای DNA در یادگیری ماشین و تشخیص انواع مختلف ساختارهای سرطانی نقش مهمی را ایفا می‌کنند. داده‌های میکرو-آرایه‌ای، به طور معمول شامل تعداد زیادی از ویژگی‌ها و تعداد کمی نمونه می‌باشند. همچنین، اینگونه داده‌ها به دلیل داشتن برخی ویژگی‌های نامرتبط می‌توانند موجب بیش‌برازش و دقت پیش‌بینی پایین طبقه‌بند کننده‌ها شوند. بنابراین، آنالیز داده‌های میکرو-آرایه‌ای امری مهم و پرچالش در یادگیری ماشین و فناوری ژنتیک مولکولی محسوب می‌شوند. راه مستقیم برای مقابله با این چالش، کاهش بعد داده‌ می‌باشد. در این راستا، روش انتخاب ویژگی به عنوان یک راه‌کار مهم برای کاهش ابعاد و افزایش کارآیی الگوریتم‌های یادگیری عمل می‌کند. در این مقاله، با استفاده از مفهوم پایه برای مجموعه داده‌های میکرو-آرایه‌ای، یک روش جدید انتخاب ویژگی معرفی می‌شود. به عبارت دیگر، یک پایه که شامل یک زیرمجموعه بسیار کوچک از ژن‌ها است، بجای کل مجموعه داده‌های میکرو-آرایه‌ای در تعریف مسئله انتخاب ویژگی استفاده می‌شود. در این روش، مسئله‌ انتخاب ویژگی براساس دیدگاه یادگیری زیرفضا و تجزیه ماتریس پایه فرمول‌بندی می‌شود. در نهایت، با استفاده از مجموعه داده‌های میکرو-آرایه‌ای DNA، کارایی روش پیشنهادی بررسی می‌شود و نتایج بدست آمده با چند روش انتخاب ویژگی مشهور با نظارت مقایسه می‌شوند.

کلیدواژه‌ها

عنوان مقاله [English]

Feature Selection Method Based on Subspace Learning and Factorization of Basis Matrix for DNA Micro-Array Datasets

نویسندگان [English]

  • Farid Saberi-Movahed 1
  • Mahdi Eftekhari 2
  • Mahla Dehtaghi Zadeh 3

1 Department of Applied Mathematics, Faculty of Sciences and Modern Technologies, Graduate University of Advanced Technology, Kerman, Iran

2 Department of Computer Engineering, Shahid Bahonar University of Kerman, Kerman, Iran

3 Department of Applied Mathematics, Faculty of Sciences and Modern Technologies, Graduate University of Advanced Technology, Kerman, Iran

چکیده [English]

DNA micro-array datasets play crucial role in machine learning and recognition of various kinds of cancer structures. Micro-array datasets are typically characterized by the high number of features and the small number of samples. Such problems may result in overfitting and low prediction accuracy of classifiers due to the irrelevant features, and therefore, they are considered as a challenging task in machine learning. The direct way to deal with such challenges is dimensionality reduction of data. In this regard, feature selection method acts as an effective solution for dimensinality reduction and increasing efficiency of learning algorithms. In this paper, by using the concept of “the basis for the DNA micro-array datasets”, a new feature selection method is introduced. To be more specific, rather than utilizing the entire micro-array dataset for tackling the problem of feature selection, a basis that is a much more smaller subset of the micro-array dataset is used. This method is based on subspace learning and matrix factorization. Finally, by making use of the DNA micro-array datasets, the effectiveness of the proposed method is evaluated, and the obtained results are compared with some state-of-the-art supervised feature selection methods.

کلیدواژه‌ها [English]

  • feature selection
  • Subspace learning
  • Matrix factorization
  • DNA micro-array datasets