Iranian Journal of Biomedical Engineering (IJBME)

تشخیص جهش گیرنده رشد اپیدرمی در بیماران مبتلا به سرطان ریه سلول‌های غیرکوچک با استفاده از یک چارچوب یادگیری بازنمایی نظارت شده

نوع مقاله : مقاله کامل پژوهشی

نویسندگان

1 گروه مهندسی پزشکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

2 خواجه‌نصیرالدین‌طوسی

3 گروه ریه، مجتمع بیمارستانی امام خمینی (ره)، دانشگاه علوم پزشکی تهران، تهران، ایران

چکیده
سرطان ریه یکی از شایع‌ترین سرطان‌های شناخته شده در جهان است که از مهم‌ترین علل مرگ ‌و میر ناشی از سرطان محسوب می‌شود. شناسایی دقیق و خودکار جهش‌های ژنتیکی، به‌ویژه در گیرنده‌ی فاکتور رشد اپیدرمی (EGFR)، برای انتخاب درمان‌های هدفمند و بهبود شرایط بالینی در بیماران مبتلا به سرطان ریه سلول‌های غیر کوچک (NSCLC) ضروری است. در سال‌های اخیر، شناسایی جهش‌های ژنتیکی با استفاده از روش‌های یادگیری ماشین به افق‌های روشنی دست یافته است. با این حال، ناهمگونی داده‌ها و عدم‌ توازن کلاس‌ها از چالش‌های مهمی هستند که منجر به کاهش عملکرد مدل‌ها می‌شود. در این مطالعه، یک چارچوب یادگیری بازنمایی نظارت‌شده به‌منظور پردازش داده‌های بالینی ناهمگون شامل ویژگی‌های عددی و دسته‌ای ارائه شده است. در این چارچوب، ویژگی‌های دسته‌ای ابتدا از طریق یک لایه تعبیه آموزش‌پذیر رمزگذاری می‌شوند، در حالی که داده‌های عددی از طریق یک لایه نرمال‌سازی پیش‌پردازش می‌شوند. سپس، داده‌های پردازش شده عددی و دسته‌ای با یکدیگر ادغام شده و توسط یک لایه اتصال کامل نگاشت می‌شوند تا بازنمایی‌های غیرخطی و موثر از مجموعه دادگان به دست آید. در نهایت، برای مقابله با مشکل عدم‌توازن کلاس‌ها و افزایش دقت در شناسایی نمونه‌های کلاس اقلیت، از یک دسته‌بند XGBoost وزن‌دهی شده استفاده شد که با تخصیص وزن‌های متفاوت به کلاس‌ها، امکان شناسایی جهش‌های نادر را فراهم می‌کند. کارایی روش پیشنهادی بر مجموعه‌دادهNSCLC Radiogenomics شامل ۲۱۱ بیمار از پایگاه TCIA با اعتبارسنجی متقابل پنج ‌فولد متوازن ارزیابی شد. روش پیشنهادی به دقت 80/9%، حساسیت 72/2%، اختصاصیت 83/7%، F1-score %62/6، precision %66/5 مساحت زیر منحنی (AUC) 0/82 دست یافت. مقایسه با الگوریتم‌های موجود نشان داد که روش پیشنهادی، شناسایی جهش‌های EGFR را در داده‌های بالینی ناهمگون و نامتوازن به‌طور قابل توجهی بهبود می‌دهد.

کلیدواژه‌ها

موضوعات


عنوان مقاله English

Detection of Epidermal Growth Factor Receptor Mutations in Non-Small Cell Lung Cancer Patients Using a Supervised Representation Learning Framework

نویسندگان English

Mahsa Bahrami 1
mansour vali 2
Hossein Kazemizadeh 3
1 Department of Biomedical Engineering, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran
2 KNTU university
3 Department of Pulmonology, Imam Khomeini Hospital Complex (IKHC), Tehran University of Medical Sciences, Tehran, Iran
چکیده English

Lung cancer remains one of the most prevalent malignancies worldwide and is a leading cause of cancer-related mortality. Accurate, automated detection of genetic mutations—particularly in the epidermal growth factor receptor (EGFR)—is essential for selecting targeted therapies and improving clinical outcomes in patients with non–small cell lung cancer (NSCLC). In recent years, machine learning methods have shown considerable promise in analyzing clinical data to identify genetic alterations. However, data heterogeneity and class imbalance in clinical datasets remain persistent challenges, leading to reduced predictive performance and biased models. In this study, we introduce a novel supervised representation learning framework specifically designed for heterogeneous clinical data comprising both categorical and numerical features. In this framework, categorical features are first encoded through a trainable embedding layer, while numerical data are preprocessed using a normalization layer. The learned embeddings are then integrated with preprocessed numerical features, and the combined inputs are passed through a fully connected layer to produce robust representations that capture complex relationships across heterogeneous data types. Finally, to address the class imbalance problem and improve the accuracy of minority class detection, a weighted XGBoost classifier is employed, which assigns different weights to classes to facilitate the identification of rare mutations. We evaluated the effectiveness of this framework on the NSCLC Radiogenomics dataset from The Cancer Imaging Archive (TCIA), which contains data from 211 patients. Five-fold Stratified cross-validation was employed to ensure model reliability. The proposed method achieved 80.9% accuracy, 72.2% sensitivity, 62.6% F1-score, 83.7% specificity, 66.5% precision, and an area under the ROC curve (AUC) of 0.82. Comparison with state-of-the-art methods demonstrated that the proposed method significantly improves EGFR mutation detection in heterogeneous and imbalanced clinical data.

کلیدواژه‌ها English

EGFR
Representation Learning
WXGB
Imbalanced Learning
Heterogeneous Data
NSCLC
دوره 19، شماره 2
تابستان 1404
صفحه 111-120

  • تاریخ دریافت 18 شهریور 1404
  • تاریخ بازنگری 28 آبان 1404
  • تاریخ پذیرش 08 آذر 1404