نوع مقاله : مقاله کامل پژوهشی
نویسندگان
1 دانشجوی دکتری مهندسی کامپیوتر، گروه مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران
2 دانشیار، گروه مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران
3 استادیار، گروه مهندسی کامپیوتر، دانشکدهی فنی و مهندسی، دانشگاه اردکان، اردکان، ایران
4 استادیار، گروه مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران
چکیده
انتخاب ویژگی یکی از فرایندهای پیشپردازش دادهها در مباحث مربوط به یادگیری ماشین و دادهکاوی به شمار میرود که در برخی زمینهها مانند کار با دادههای ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای دادهها در مقابل تعداد کم نمونهها مواجه است، از اهمیت ویژهای برخوردار میباشد. انتخاب ویژگیهای (ژنهای) موثر در تشخیص بیماری از دادههای ریزآرایه نقش مهمی در تشخیص زودهنگام بیماری و راههای مواجهه با آن ایفا میکند. در روشهای انتخاب ویژگی مبتنی بر تئوری اطلاعات که طیف گستردهای از روشهای انتخاب ویژگی را شامل میشوند، از مفهوم بینظمی برای تعریف معیارهای مرتبط بودن، افزونگی و مکمل بودن ویژگیها استفاده میشود. در این مقاله به جای بینظمی از مفهوم پیوستگی خالص برای پیشنهاد یک معیار جدید مرتبط بودن استفاده شده است. در این معیار پیشنهادی، برای کنترل و کاهش افزونگی، ارتباط یک ویژگی با تکتک کلاسها به طور جداگانه بررسی شده است در حالی که در اکثر روشهای فیلتر، ارزش یک ویژگی بر اساس ارتباط آن با کل کلاسها سنجیده میشود. این راهکار باعث شده که ویژگیهای موثر در هر کلاس به تفکیک شناسایی شوند، در حالی که امکان شناسایی ویژگیهای مشترک نیز وجود دارد. یکی دیگر از مشکلهای موجود در برخی از روشها، مسالهی گسستهسازی دادهها است. در روش پیشنهادی این مقاله، با استفاده از یک تبدیل مبتنی بر یکریختی، ضمن استفاده از مزایای گسستهسازی، از درگیر شدن با پیچیدگیهای آن نیز اجتناب شده است. برای مقایسهی روش پیشنهادی با تعدادی از روشهای مرتبط، از هفت مجموعهی دادهی ریزآرایه مربوط به انواع سرطان به همراه سه دستهبند پرکاربرد بیزین ساده، k-نزدیکترین همسایه و ماشین بردار پشتیبان استفاده شده است. نتایج تجربی نشان دهندهی کارایی روش ارائه شده بر اساس دو پارامتر دقت دستهبندی و تعداد ژنهای انتخابی میباشد.
کلیدواژهها
عنوان مقاله [English]
Feature Selection based on Information Theory to Select Effective Genes for Diagnosis of Cancer Subtypes using Microarray Data
نویسندگان [English]
- Abolfazl Tabatabaei 1
- Vali Derhami 2
- Razieh Sheikhpour 3
- Mohammad-Reza Pajoohan 4
1 Ph.D. Student, Department of Computer Engineering, Faculty of Engineering, Yazd University, Yazd, Iran
2 Associate Professor, Department of Computer Engineering, Faculty of Engineering, Yazd University, Yazd, Iran
3 Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Ardakan University, Ardakan, Iran
4 Assistant Professor, Department of Computer Engineering, Faculty of Engineering, Yazd University, Yazd, Iran
چکیده [English]
Feature selection is a well-known preprocessing technique in machine learning, data mining and especially bioinformatics microarray analysis with a high-dimension, low-sample-size (HDLSS) data. The diagnosis of genes responsible for disease using microarray data is an important issue to promoting knowledge about the mechanism of disease and improves the way of dealing with the disease. In feature selection methods based on information theory, which cover a wide range of feature selection methods, the concept of entropy is used to define criteria for relevance, redundancy and complementarity. In this paper, we propose a new relevancy criterion based on the concept of pure continuity rather than the concept of entropy. In the proposed method, to control and reduce redundancy, the relevancy between a feature and each class is separately examined, while in most of the filter methods the value of a feature is measured based on its relation to the entire class. This solution allows us to identify the most efficient features (genes) of each class separately, while identifying common features (genes) is also possible. Discretization is another challenge in some available techniques. Using a homomorphism transformation in proposed method avoids engaging with discretization complexities, while taking advantages of it. Seven types of cancer microarrays with three types of classification models (e.g. NB, KNN and SVM) are used to establish a comparison between the proposed method and other relevant methods. The results confirm the efficiency of the proposed method in the term of accuracy and number of selected genes as two parameters of classification.
کلیدواژهها [English]
- Feature Selection
- Effective Genes
- Cancer Diagnosis
- Microarray Data
- Machine Learning
- Classification