تشخیص جهش گیرنده رشد اپیدرمی در بیماران مبتلا به سرطان ریه سلول‌های غیرکوچک با استفاده از یک چارچوب یادگیری بازنمایی نظارت شده

بهرامی, مهسا; ولی, منصور; کاظمی زاده, حسین

doi:10.22041/ijbme.2025.2070816.1995

تشخیص جهش گیرنده رشد اپیدرمی در بیماران مبتلا به سرطان ریه سلول‌های غیرکوچک با استفاده از یک چارچوب یادگیری بازنمایی نظارت شده

نوع مقاله : مقاله کامل پژوهشی

نویسندگان

مهسا بهرامی ¹

منصور ولی ²

حسین کاظمی زاده ³

¹ گروه مهندسی پزشکی، دانشکده مهندسی برق، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

² خواجه‌نصیرالدین‌طوسی

³ گروه ریه، مجتمع بیمارستانی امام خمینی (ره)، دانشگاه علوم پزشکی تهران، تهران، ایران

https://doi.org/10.22041/ijbme.2025.2070816.1995

چکیده

سرطان ریه یکی از شایع‌ترین سرطان‌های شناخته شده در جهان است که از مهم‌ترین علل مرگ ‌و میر ناشی از سرطان محسوب می‌شود. شناسایی دقیق و خودکار جهش‌های ژنتیکی، به‌ویژه در گیرنده‌ی فاکتور رشد اپیدرمی (EGFR)، برای انتخاب درمان‌های هدفمند و بهبود شرایط بالینی در بیماران مبتلا به سرطان ریه سلول‌های غیر کوچک (NSCLC) ضروری است. در سال‌های اخیر، شناسایی جهش‌های ژنتیکی با استفاده از روش‌های یادگیری ماشین به افق‌های روشنی دست یافته است. با این حال، ناهمگونی داده‌ها و عدم‌ توازن کلاس‌ها از چالش‌های مهمی هستند که منجر به کاهش عملکرد مدل‌ها می‌شود. در این مطالعه، یک چارچوب یادگیری بازنمایی نظارت‌شده به‌منظور پردازش داده‌های بالینی ناهمگون شامل ویژگی‌های عددی و دسته‌ای ارائه شده است. در این چارچوب، ویژگی‌های دسته‌ای ابتدا از طریق یک لایه تعبیه آموزش‌پذیر رمزگذاری می‌شوند، در حالی که داده‌های عددی از طریق یک لایه نرمال‌سازی پیش‌پردازش می‌شوند. سپس، داده‌های پردازش شده عددی و دسته‌ای با یکدیگر ادغام شده و توسط یک لایه اتصال کامل نگاشت می‌شوند تا بازنمایی‌های غیرخطی و موثر از مجموعه دادگان به دست آید. در نهایت، برای مقابله با مشکل عدم‌توازن کلاس‌ها و افزایش دقت در شناسایی نمونه‌های کلاس اقلیت، از یک دسته‌بند XGBoost وزن‌دهی شده استفاده شد که با تخصیص وزن‌های متفاوت به کلاس‌ها، امکان شناسایی جهش‌های نادر را فراهم می‌کند. کارایی روش پیشنهادی بر مجموعه‌دادهNSCLC Radiogenomics شامل ۲۱۱ بیمار از پایگاه TCIA با اعتبارسنجی متقابل پنج ‌فولد متوازن ارزیابی شد. روش پیشنهادی به دقت 80/9%، حساسیت 72/2%، اختصاصیت 83/7%، F1-score %62/6، precision %66/5 مساحت زیر منحنی (AUC) 0/82 دست یافت. مقایسه با الگوریتم‌های موجود نشان داد که روش پیشنهادی، شناسایی جهش‌های EGFR را در داده‌های بالینی ناهمگون و نامتوازن به‌طور قابل توجهی بهبود می‌دهد.

کلیدواژه‌ها

گیرنده فاکتور رشد اپیدرمی

یادگیری بازنمایی

طبقه بند WXGB

یادگیری از داده‌های نامتوازن

دادگان ناهمگون

سرطان ریه سلول‌های غیرکوچک

موضوعات

بیوانفورماتیک / زیست‌داده‌ورزی

عنوان مقاله English

Detection of Epidermal Growth Factor Receptor Mutations in Non-Small Cell Lung Cancer Patients Using a Supervised Representation Learning Framework

نویسندگان English

Mahsa Bahrami ¹

mansour vali ²

Hossein Kazemizadeh ³

¹ Department of Biomedical Engineering, Faculty of Electrical Engineering, K. N. Toosi University of Technology, Tehran, Iran

² KNTU university

³ Department of Pulmonology, Imam Khomeini Hospital Complex (IKHC), Tehran University of Medical Sciences, Tehran, Iran

چکیده English

Lung cancer remains one of the most prevalent malignancies worldwide and is a leading cause of cancer-related mortality. Accurate, automated detection of genetic mutations—particularly in the epidermal growth factor receptor (EGFR)—is essential for selecting targeted therapies and improving clinical outcomes in patients with non–small cell lung cancer (NSCLC). In recent years, machine learning methods have shown considerable promise in analyzing clinical data to identify genetic alterations. However, data heterogeneity and class imbalance in clinical datasets remain persistent challenges, leading to reduced predictive performance and biased models. In this study, we introduce a novel supervised representation learning framework specifically designed for heterogeneous clinical data comprising both categorical and numerical features. In this framework, categorical features are first encoded through a trainable embedding layer, while numerical data are preprocessed using a normalization layer. The learned embeddings are then integrated with preprocessed numerical features, and the combined inputs are passed through a fully connected layer to produce robust representations that capture complex relationships across heterogeneous data types. Finally, to address the class imbalance problem and improve the accuracy of minority class detection, a weighted XGBoost classifier is employed, which assigns different weights to classes to facilitate the identification of rare mutations. We evaluated the effectiveness of this framework on the NSCLC Radiogenomics dataset from The Cancer Imaging Archive (TCIA), which contains data from 211 patients. Five-fold Stratified cross-validation was employed to ensure model reliability. The proposed method achieved 80.9% accuracy, 72.2% sensitivity, 62.6% F1-score, 83.7% specificity, 66.5% precision, and an area under the ROC curve (AUC) of 0.82. Comparison with state-of-the-art methods demonstrated that the proposed method significantly improves EGFR mutation detection in heterogeneous and imbalanced clinical data.

کلیدواژه‌ها English

EGFR

Representation Learning

WXGB

Imbalanced Learning

Heterogeneous Data

NSCLC

دوره 19، شماره 2
تابستان 1404
صفحه 151-164

XML

اصل مقاله 943.57 K

تاریخ دریافت 18 شهریور 1404
تاریخ بازنگری 28 آبان 1404
تاریخ پذیرش 08 آذر 1404

تعداد مشاهده مقاله	263
تعداد دریافت فایل اصل مقاله	3

جستجوی پیشرفته

نشریه علمی مهندسی پزشکی زیستی

تشخیص جهش گیرنده رشد اپیدرمی در بیماران مبتلا به سرطان ریه سلول‌های غیرکوچک با استفاده از یک چارچوب یادگیری بازنمایی نظارت شده

Detection of Epidermal Growth Factor Receptor Mutations in Non-Small Cell Lung Cancer Patients Using a Supervised Representation Learning Framework

دوره 19، شماره 2
تابستان 1404
صفحه 151-164

صفحه اصلی

تماس با ما

نشریه علمی مهندسی پزشکی زیستی

تشخیص جهش گیرنده رشد اپیدرمی در بیماران مبتلا به سرطان ریه سلول‌های غیرکوچک با استفاده از یک چارچوب یادگیری بازنمایی نظارت شده

Detection of Epidermal Growth Factor Receptor Mutations in Non-Small Cell Lung Cancer Patients Using a Supervised Representation Learning Framework

دوره 19، شماره 2تابستان 1404صفحه 151-164

فایل ها

سابقه مقاله

هم رسانی

ارجاع به این مقاله

آمار

صفحه اصلی

مرور (جست‌وجو)

اطلاعات نشریه

برای نویسندگان

تماس با ما

دوره 19، شماره 2
تابستان 1404
صفحه 151-164