نوع مقاله: مقاله کامل پژوهشی

نویسندگان

1 گروه مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران

2 گروه مهندسی کامپیوتر، دانشکده فنی و مهندسی، دانشگاه اردکان، اردکان، ایران

10.22041/ijbme.2019.109466.1490

چکیده

انتخاب ویژگی یکی از فرایندهای پیش پردازش داده‌ها در مباحث مربوط به یادگیری ماشین و داده‌کاوی محسوب می‌شود که در برخی زمینه‌ها نظیر کار با داده‌های ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای داده‌ها در مقابل تعداد کم نمونه‌ها مواجه است، از اهمیت ویژه‌ای برخوردار است. انتخاب ویژگی‌های (ژن‌های) موثر در تشخیص بیماری از داده‌های ریزآرایه نقش مهمی در تشخیص زودهنگام بیماری و راه‌های مواجهه با آن ایفا می‌کند. در روش‌های انتخاب ویژگی مبتنی بر تئوری اطلاعات که طیف گسترده‌ای از روش‌های انتخاب ویژگی را شامل می‌شوند، از مفهوم آنتروپی برای تعریف معیارهای مرتبط بودن، افزونگی و مکمل بودن ویژگی‌ها، استفاده می‌شود. در این مقاله از مفهوم پیوستگی خالص به جای آنتروپی (پراکندگی) برای پیشنهاد یک معیار جدید مرتبط بودن استفاده شده است. در معیار پیشنهادی، برای کنترل و کاهش افزونگی، ارتباط یک ویژگی با تک‌تک کلاس‌ها به طور جداگانه بررسی شده است در حالی‌که در اکثر روش‌های فیلتر، ارزش یک ویژگی بر اساس ارتباط آن با کل کلاس‌ها سنجیده می‌شود. این راهکار باعث می‌شود که ویژگی‌های (ژن‌های) موثر در هر کلاس به تفکیک شناسایی شوند، در حالی‌که امکان شناسایی ویژگی‌های (ژن‌های) مشترک نیز فراهم است. مشکل دیگری که در برخی روش‌ها وجود دارد، مسئله گسسته‌سازی داده‌ها است. در روش ارائه شده، با استفاده از یک تبدیل مبتنی بر یک‌ریختی ضمن استفاده از مزایای گسسته‌سازی از درگیر شدن با پیچیدگی‌های آن اجتناب شده است. برای مقایسه روش ارائه شده با تعدادی از روش‌های مرتبط ، از هفت مجموعه داده ریزآرایه مربوط به انواع سرطان به همراه سه دسته‌بند پرکاربرد بیزین ساده، -kنزدیک‌ترین همسایه و ماشین بردار پشتیبان استفاده شده است. نتایج تجربی، کارایی روش ارائه شده را بر اساس دو پارامتر دقت دسته‌بندی و تعداد ژن‌های انتخابی نشان می‌دهد.

کلیدواژه‌ها

عنوان مقاله [English]

Feature selection based on information theory to select effective genes for diagnosis of cancer subtypes using microarray data

نویسندگان [English]

  • Vali Derhami 1
  • Abolfazl Tabatabaei 1
  • Razieh Sheikhpour 2
  • Mohammad-Reza Pajoohan 1

1 Computer Engineering Department Faculty of Engineering Yazd University

2 Department of Computer Engineering, Faculty of Engineering, Ardakan University, P.O. Box 184, Ardakan, Iran

چکیده [English]

Feature selection is a well-known preprocessing technique in machine learning, data mining, and especially bioinformatics microarray analysis with a high-dimension, low-sample-size (HDLSS) data. The diagnosis of genes responsible for disease using microarray data is an important issue to promoting knowledge about the mechanism of disease and improves the way of dealing with the disease. In feature selection methods based on information theory, which cover a wide range of feature selection methods, the concept of entropy is used to define criteria for relevance, redundancy, and complementarity.
In this paper, we propose a new relevancy criterion based on the concept of pure continuity rather than the concept of entropy. In the proposed method, to control and reduce redundancy, the relevancy between a feature and each class is separately examined, while in most of the filter methods the value of a feature is measured based on its relation to the entire class. This solution allows us to identify the most efficient features (genes) of each class separately, while identifying common features (genes) is also possible. Discretization is another challenge in some available techniques. Using a homomorphism transformation in proposed method avoids engaging with discretization complexities, while taking advantages of it. Seven types of cancer microarrays with three types of classification models (e.g. NB, KNN, and SVM) are used to establish a comparison between the proposed method and other relevant methods. The results confirm the efficiency of the proposed method in the term of accuracy and number of selected genes as two parameters of classification.

کلیدواژه‌ها [English]

  • feature selection
  • Effective genes
  • Cancer diagnosis
  • Microarray data
  • Machine Learning
  • Classification