Iranian Journal of Biomedical Engineering (IJBME)

پیش‌بینی قابل‌تعمیم داروپذیری پروتئین با طبقه‌بند دو مرحله‌ای و بهینه‌سازی بیزی مقید به زمان

نوع مقاله : مقاله کامل پژوهشی

نویسندگان

1 گروه مهندسی پزشکی، دانشکده فنی و مهندسی، دانشگاه میبد، میبد، ایران

2 دانشکده فنی و مهندسی -دانشگاه میبد

10.22041/ijbme.2025.2039584.1922
چکیده
کشف دارو به شناسایی سریع و معتبر اهداف پروتئینی نیاز دارد. روش‌های خودکار پیشین تنها بر بیشینه‎سازی دقت تمرکز می‌کنند و از زمان پیش‌بینی، پایداری و بازتولیدپذیری تنظیم چشم می‌پوشند. رویکردهای عمیق توالی و گراف نیز پرهزینه و کُند هستند و جست‌وجوی تکاملی در تنظیم ابرپارامترها نوسان بالا دارد. خلأ اصلی نبود بهینه‌سازی هم‌زمان دقت و تأخیر همراه با مسیردهی هوشمند نمونه‌های آسان و دشواری در تنظیم صحیح پارامترهای کنترلی است. بر همین اساس، در این پژوهش یک طبقه‌بند دومرحله‌ای بر پایه روش دسته‎بندی درختی CatBoost با خروج زودهنگام برای موارد با اطمینان بالا و گذر ژرف برای موارد مبهم ارائه می‌شود و تنظیم ابرپارامترها با اَبَرباند بیزی آگاه از زمان پاسخ موسوم به LABO-HB و نیز هدف تک‌معیاری تراز دقت و تأخیر و آستانه‌گذاری داده‌محور انجام می‌گیرد؛ پس از پایش هزینه و مصالحه میان گزینه‌های عمیق و تقویتی به این طرح دومرحله‌ای روی آوردیم، زیرا با حفظ دقت، زمان پاسخ و نوسان عملکردی را کاهش داد. ارزیابی با مجموعه داده‎های ProTar-II متعادل و ProTar-II-Ind دیده نشده و نیز DPI-CDF گردآوری‌شده از DrugBank و Swiss-Prot و با انجام پیش پردازش، استخراج ویژگی مبتنی بر توالی و پیشگیری از نشت و تفکیک منصفانه آموزش-اعتبارسنجی-آزمون انجام شد و تعمیم‌پذیری در هر دو محک داخلی و بیرونی پایدار ماند. روش پیشنهادی به درستی کل 6/96 درصد و نیز F1 معادل 5/96 درصد دست یافت و نیز زمان پیش‌بینی را نسبت به مبنا به‌طور معنادار کاست. پیوند خروج زودهنگام با LABO-HB دقت بالا را با تأخیر کمتر و نوسان اندک همراه کرد و در برابر نامتوازنی، خروجی بازتولیدپذیر را ایجاد کرد. این روش در طراحی دارو مفید است و در عمل اولویت‌بندی چابک اهداف در غربالگری اولیه و تخصیص هوشمند منابع آزمایشگاهی را ممکن می‌سازد.

کلیدواژه‌ها

موضوعات


عنوان مقاله English

Generalizable protein druggability prediction with a two-stage classifier and time-constrained Bayesian optimization

نویسندگان English

Shiva Shekarchian 1
Hossein Eslami 1
Khosro Rezaee 2
1 Department of Biomedical Engineering, Faculty of Engineering, Meybod University, Meybod, Iran
چکیده English

Drug discovery demands rapid and reliable identification of protein targets, yet most automated approaches prioritize accuracy while overlooking inference latency, robustness, and reproducible tuning; sequence- and graph-based deep models are often costly and slow, and evolutionary hyperparameter search exhibits high variance. The central gap is the absence of a method that jointly optimizes accuracy and delay while intelligently routing easy and hard cases and setting control parameters correctly. We therefore propose a two-stage classifier built on CatBoost with early exit for high-confidence instances and a deeper pass for ambiguous ones, coupled with latency-aware Bayesian Hyperband (LABO-HB) for hyperparameter tuning, a single-objective target aligning accuracy and latency, and data-driven threshold selection. After a cost–benefit audit of deep versus boosted alternatives, we adopted this two-stage design because it preserves accuracy while reducing inference time and performance variance. Evaluation on balanced ProTar-II, unseen ProTar-II-Ind, and DPI-CDF compiled from DrugBank and Swiss-Prot used rigorous preprocessing, sequence-based feature extraction, strict leakage prevention, and fair train–validation–test splits, and generalization remained stable across internal and external benchmarks. The method achieved 96.6% overall accuracy and an F1 score of 96.5%, while significantly reducing prediction time relative to baselines. The combination of early exit and LABO-HB delivers high accuracy with lower latency and reduced variability, is robust to class imbalance, and yields reproducible outputs. The approach is practically useful in drug design, enabling agile target prioritization during early screening and more judicious allocation of laboratory resources.

کلیدواژه‌ها English

Protein druggability؛ Two-stage classifier؛ Bayesian optimization؛ Accuracy&ndash
latency؛ Machine learning
دوره 19، شماره 3
پاییز 1404
صفحه 231-240

  • تاریخ دریافت 05 شهریور 1403
  • تاریخ بازنگری 29 شهریور 1404
  • تاریخ پذیرش 03 آذر 1404