پیش بینی بیماری قلبی موثر با استفاده از تکنیک های یادگیری ماشین ترکیبی

بدون دیدگاه

بیماری های قلبی یکی از مهمترین دلایل مرگ و میر امروز در جهان است. پیش بینی بیماری های قلبی عروقی یک چالش اساسی در زمینه تجزیه و تحلیل داده های بالینی است. نشان داده شده است که یادگیری ماشینی (ML) در کمک در تصمیم گیری ها و پیش بینی ها از مقدار زیادی از داده های حاصل از صنعت بهداشت و درمان مؤثر است. ما همچنین دیده ایم که از تکنیک های ML در تحولات اخیر در مناطق مختلف اینترنت اشیاء (IoT) استفاده می شود. مطالعات گوناگون فقط با پیش بینی بیماری های قلبی با تکنیک های ML فقط نگاهی اجمالی به آن می اندازند. در این مقاله ، یک روش جدید ارائه شده است که هدف آن پیدا کردن ویژگی های قابل توجه با استفاده از تکنیک های یادگیری ماشین و در نتیجه بهبود دقت در پیش بینی بیماری های قلبی عروقی است. مدل پیش بینی با ترکیب های مختلفی از ویژگی ها و چندین روش طبقه بندی شناخته شده معرفی شده است. ما از طریق مدل پیش بینی بیماری قلبی با جنگل تصادفی ترکیبی با یک مدل خطی (HRFLM) یک سطح عملکرد پیشرفته با سطح دقت 88.7٪ تولید می کنیم.

بخش I.

مقدمه

شناسایی بیماری های قلبی به دلیل چندین عامل خطرناک مانند دیابت ، فشار خون بالا ، کلسترول بالا ، ضربان غیر طبیعی پالس و بسیاری از عوامل دیگر دشوار است. از تکنیک های مختلفی در داده کاوی و شبکه های عصبی برای کشف شدت بیماری قلبی در انسان استفاده شده است. شدت این بیماری بر اساس روشهای مختلفی مانند الگوریتم K-Nee Neighbour همسایه (KNN) ، درختان تصمیم گیری (DT) ، الگوریتم ژنتیک (GA) و Naive Bayes (NB) طبقه بندی می شود [11] ، [13]. ماهیت بیماری های قلبی پیچیده است و از این رو ، باید این بیماری را با دقت درمان کرد. عدم انجام این کار ممکن است بر قلب تأثیر بگذارد یا باعث مرگ زودرس شود. چشم انداز علم پزشکی و داده کاوی برای کشف انواع سندرم متابولیک استفاده می شود. داده کاوی با طبقه بندی نقش مهمی در پیش بینی بیماری های قلبی و بررسی داده ها دارد.

ما همچنین دیده ایم که از درختان تصمیم گیری برای پیش بینی صحت حوادث مربوط به بیماری های قلبی استفاده می شود [1]. روشهای مختلفی برای استفاده از روشهای شناخته شده داده کاوی برای پیش بینی بیماری قلبی استفاده شده است. در این کار ، مطالعه های بی شماری برای تولید یک مدل پیش بینی با استفاده از ارتباط دو یا چند تکنیک انجام شده است. این تکنیک های جدید ادغام شده معمولاً به عنوان روش های ترکیبی شناخته می شوند [14]. شبکه های عصبی را با استفاده از سریال های ضربان قلب معرفی می کنیم. در این روش از سوابق بالینی متنوعی برای پیش بینی مانند بلوک شاخه چپ (LBBB) ، بلوک شاخه سمت راست (RBBB) ، فیبریلاسیون دهلیزی (AFIB) ، ریتم سینوس نرمال (NSR) ، برادیکاردی سینوس (SBR) ، فلوت دهلیزی (AFL) استفاده می شود. ، انقباض بطن زودرس (PVC) و بلوک درجه دو (BII) برای فهمیدن وضعیت دقیق بیمار در رابطه با بیماری های قلبی است. مجموعه داده با شبکه تابعی مبتنی بر شعاعی (RBFN) برای طبقه بندی استفاده می شود ، جایی که 70٪ از داده ها برای آموزش استفاده می شود و 30٪ باقی مانده برای طبقه بندی استفاده می شود [4] ، [15].

ما همچنین سیستم پشتیبانی تصمیم گیری به کمک رایانه (CADSS) را در زمینه پزشکی و تحقیقات معرفی می کنیم. در کار قبلی ، استفاده از تکنیک های داده کاوی در صنعت مراقبت های بهداشتی نشان داده شده است که زمان کمتری را برای پیش بینی بیماری با نتایج دقیق تر می گیرد [16]. ما استفاده از GA در تشخیص بیماری قلبی را پیشنهاد می کنیم. این روش از قوانین ارتباطی مؤثر استنباط شده با GA برای انتخاب مسابقات ، تقاطع و جهش که منجر به عملکرد جدید تابع برازش شده ، استفاده می کند. برای اعتبار سنجی آزمایشی ، ما از مجموعه داده های معروف کلیولند استفاده می کنیم که از مخزن یادگیری ماشین UCI جمع آوری شده است. بعداً خواهیم دید که چگونه نتایج ما در مقایسه با برخی از تکنیک های یادگیری نظارت شده برجسته می شود [5] ، [17]. قدرتمندترین الگوریتم تکاملی Particle Optimization Swarm (PSO) معرفی شده است و برخی از قوانین برای بیماری های قلبی ایجاد می شود. این قوانین به طور تصادفی با تکنیک های رمزگذاری اعمال شده است که منجر به بهبود دقت کلی می شود [2]. پیش بینی بیماری قلبی براساس علائم ، ضربان قلب ، جنس ، سن و بسیاری دیگر انجام می شود. الگوریتم ML با شبکه های عصبی معرفی شده است ، که نتایج آن همانطور که در [8] ، [12] دیدیم ، دقیق تر و مطمئن تر هستند.

شبکه های عصبی به طور کلی به عنوان بهترین ابزار برای پیش بینی بیماری هایی مانند بیماری های قلبی و بیماری های مغزی در نظر گرفته می شوند. روش پیشنهادی که ما از آن استفاده می کنیم دارای 13 ویژگی برای پیش بینی بیماری قلبی است. نتایج حاکی از افزایش سطح عملکرد در مقایسه با روشهای موجود در کارهایی مانند [3] است.

استنتینگ شریان کاروتید (CAS) طی سالهای اخیر به یک روش درمانی شایع در زمینه پزشکی تبدیل شده است. CAS از وقوع عمده عوارض جانبی قلبی عروقی (MACE) در بیماران قلبی که سالمند هستند ، خبر می دهد. ارزیابی آنها بسیار مهم می شود. ما با استفاده از یک شبکه عصبی مصنوعی ANN ، که عملکرد خوبی در پیش بینی بیماری های قلبی ایجاد می کند ، نتیجه می گیریم [6] ، [18]. روش های شبکه عصبی معرفی شده اند ، که نه تنها احتمال پسین را ترکیب می کنند بلکه مقادیر بسیاری از تکنیک های سلف پیش بینی شده را نیز پیش بینی می کنند. این مدل به دقت و صحت حداکثر 89/01 درصد می رسد که در مقایسه با کارهای قبلی نتایج بسیار خوبی است. برای همه آزمایشات ، مجموعه داده های قلب کلیولند با یک شبکه عصبی NN برای بهبود عملکرد بیماری های قلبی همانطور که قبلاً در [9] ، [19] دیدیم ، استفاده می شود.

ما همچنین شاهد پیشرفت های اخیر در تکنیک های یادگیری ماشینی ML هستیم که برای اینترنت اشیاء (IoT) نیز استفاده می شود [43].  الگوریتم های ML در داده های ترافیک شبکه نشان داده شده است که شناسایی دقیق دستگاه های IoT متصل به یک شبکه را نشان می دهد.

Meidan و همکاران. جمع آوری و برچسب گذاری داده های ترافیک شبکه از نه دستگاه مجزا IoT ، رایانه های شخصی و تلفن های هوشمند انجام می دهند. آنها با استفاده از یادگیری نظارت شده ، یک طبقه بندی متا چند مرحله ای را آموزش دادند. در مرحله اول ، طبقه بندی کننده می تواند بین ترافیک ایجاد شده توسط دستگاه های IoT و غیر IoT تمایز قایل شود. در مرحله دوم ، هر دستگاه IoT با یک کلاس خاص دستگاه IoT همراه است. یادگیری عمیق یک روش امیدوار کننده برای استخراج اطلاعات دقیق از داده های حسگر خام از دستگاه های IoT مستقر در محیط های پیچیده است [44] – [45] [46] [47]. به دلیل ساختار چند لایه ، یادگیری عمیق برای محیط محاسبات لبه نیز مناسب است [48] ، [49].

در این کار تکنیکی را معرفی می کنیم که جنگل تصادفی ترکیبی با مدل خطی (HRFLM) می نامیم. هدف اصلی این تحقیق ، بهبود دقت عملکرد پیش بینی بیماری قلبی است. مطالعات بسیاری انجام شده است که منجر به محدودیت در انتخاب ویژگیها برای استفاده از الگوریتمی می شود. در مقابل ، روش HRFLM از همه ویژگی ها و بدون محدودیت انتخاب ویژگی استفاده می کند. در اینجا آزمایش هایی را انجام می دهیم که برای شناسایی ویژگی های یک الگوریتم یادگیری ماشین با روش ترکیبی انجام می شود. نتایج آزمایش نشان می دهد که روش ترکیبی پیشنهادی ما از توانایی قوی تری برای پیش بینی بیماری قلبی در مقایسه با روشهای موجود برخوردار است.

بقیه مقاله به شرح زیر سازماندهی شده است ، بخش دوم در مورد آثار مرتبط با قلب ، روشها و تکنیک های موجود بحث می کند. ما همچنین در بخش III مروری بر نتایج خود ارائه می دهیم. بخش چهارم در مورد پردازش داده های HRFLM پیرامون انتخاب ویژگی ، مدل سازی طبقه بندی و اندازه گیری عملکرد بحث می کند. بخش V الگوریتم های مورد استفاده و راه اندازی آزمایشی را می دهد. بخش ششم ارزیابی داده های داده و راه اندازی آزمایشی را نشان می دهد. همچنین نشان می دهد که چگونه این آزمایش و نتایج به دست آمده انجام شد. بخش VII شامل بحثی در مورد نتایج روش HRFLM و محک مدل پیشنهادی است. سرانجام ، بخش هشتم با نتیجه گیری از کار فعلی و برخی از یادداشت ها در مورد پیشرفت های آینده به پایان می رسد.

بخش II: کار اثبات شده در زمینه هایی که مستقیماً با این مقاله مرتبط هستند ، کارهای مرتبط زیادی وجود دارد. ANN برای تولید بالاترین پیش بینی در زمینه پزشکی معرفی شده است [6]. درک چند لایه انتشار پشتی (MLP) از ANN برای پیش بینی بیماری های قلبی استفاده می شود. نتایج به دست آمده با نتایج مدلهای موجود در همان دامنه مقایسه شده و بهبود یافته است [10]. از داده های بیماران قلبی جمع آوری شده از آزمایشگاه UCI برای کشف الگوهای با دستگاه های NN ، DT ، ماشینهای بردار پشتیبانی SVM و Naive Bayes استفاده می شود. نتایج برای عملکرد و صحت با این الگوریتم ها مقایسه می شوند. روش ترکیبی پیشنهادی نتایج 8/86 درصد برای اندازه گیری F را نشان می دهد ، با سایر روش های موجود رقابت می کند [7]. طبقه بندی بدون تقسیم بندی شبکه های عصبی همگرا (CNN) معرفی شده است. این روش چرخه های قلب را با موقعیت های مختلف شروع از سیگنال های الکتروکاردیوگرام (ECG) در مرحله تمرین در نظر می گیرد. CNN قادر است در مرحله آزمایش بیمار ویژگی هایی با موقعیت های مختلف ایجاد کند [22] ، [41]. مقدار زیادی از داده های تولید شده توسط صنعت پزشکی قبلاً به طور موثری مورد استفاده قرار نگرفته بودند. رویکردهای جدید ارائه شده در اینجا هزینه را کاهش می دهد و پیش بینی بیماری های قلبی را به روشی آسان و موثر بهبود می بخشد. تکنیک های مختلف تحقیق مختلف که در این کار برای پیش بینی و طبقه بندی بیماری های قلبی با استفاده از تکنیک های ML و یادگیری عمیق (DL) در نظر گرفته شده است ، در تعیین اثربخشی این روش ها بسیار دقیق هستند [27] ، [42].

بخش II: کار اثبات شده در زمینه هایی که مستقیماً با این مقاله مرتبط هستند ، کارهای مرتبط زیادی وجود دارد. ANN برای تولید بالاترین پیش بینی در زمینه پزشکی معرفی شده است [6]. درک چند لایه انتشار پشتی (MLP) از ANN برای پیش بینی بیماری های قلبی استفاده می شود. نتایج به دست آمده با نتایج مدلهای موجود در همان دامنه مقایسه شده و بهبود یافته است [10]. از داده های بیماران قلبی جمع آوری شده از آزمایشگاه UCI برای کشف الگوهای با دستگاه های NN ، DT ، ماشینهای بردار پشتیبانی SVM و Naive Bayes استفاده می شود. نتایج برای عملکرد و صحت با این الگوریتم ها مقایسه می شوند. روش ترکیبی پیشنهادی نتایج 8/86 درصد برای اندازه گیری F را نشان می دهد ، با سایر روش های موجود رقابت می کند [7].طبقه بندی بدون تقسیم بندی شبکه های عصبی همگرا (CNN) معرفی شده است. این روش چرخه های قلب را با موقعیت های مختلف شروع از سیگنال های الکتروکاردیوگرام (ECG) در مرحله تمرین در نظر می گیرد. CNN قادر است در مرحله آزمایش بیمار ویژگی هایی با موقعیت های مختلف ایجاد کند [22] ، [41]. مقدار زیادی از داده های تولید شده توسط صنعت پزشکی قبلاً به طور موثری مورد استفاده قرار نگرفته بودند. رویکردهای جدید ارائه شده در اینجا هزینه را کاهش می دهد و پیش بینی بیماری های قلبی را به روشی آسان و موثر بهبود می بخشد. تکنیک های مختلف تحقیق مختلف که در این کار برای پیش بینی و طبقه بندی بیماری های قلبی با استفاده از تکنیک های ML و یادگیری عمیق (DL) در نظر گرفته شده است ، در تعیین اثربخشی این روش ها بسیار دقیق هستند [27] ، [42].

بخش III.بررسی روش و نتایج در HRFLM ، ما با استفاده از سه روش محاسباتی با سه قانون ارتباط داده کاوی برای یافتن عوامل بیماری قلبی در مجموعه داده UCI Cleveland استفاده می کنیم. اطلاعات موجود به این کاهش اشاره می کند که زنان نسبت به مردان شانس ابتلا به بیماری های قلبی کمتری دارند. در بیماریهای قلبی ، تشخیص دقیق اولیه است. اما رویکردهای سنتی برای پیش بینی دقیق و تشخیص کافی نیستند.

HRFLM از ANN با back propagation به همراه 13 ویژگی بالینی به عنوان ورودی استفاده می کند. نتایج به دست آمده در مقایسه با روشهای سنتی مقایسه شده است [20] ، [23]. سطح خطر بسیار بالا می رود و تعدادی از ویژگی ها برای دقت در تشخیص بیماری استفاده می شود [24]. ماهیت و پیچیدگی بیماری های قلبی نیاز به یک برنامه درمانی مؤثر دارد. روشهای داده کاوی در شرایط درمانی در زمینه پزشکی کمک می کند. روش های داده کاوی با توجه به DT ، NN ، SVM و KNN بیشتر استفاده می شوند. از بین چندین روش به کار گرفته شده ، نتایج حاصل از SVM در تقویت دقت در پیش بینی بیماری مفید است [25]. اثر بخشی عملکرد این روش را می توان از صحت نتایج نتیجه بر اساس داده های ECG تخمین زد. آموزش ANN برای تشخیص دقیق بیماری و پیش بینی ناهنجاری های احتمالی در بیمار استفاده می شود [26] ، [34].

روشها و روشهای پیش بینی داده کاوی متنوع ، مانند KNN ، LR ، SVM ، NN ، و رایج اخیراً برای شناسایی و پیش بینی بیماری های قلبی بسیار محبوب بوده است [23]. روش جدید رأی دادن در رابطه با رویکرد ترکیبی با استفاده از LR و NB در این مقاله ارائه شده است. مجموعه داده UCI برای انجام آزمایشات روش پیشنهادی استفاده می شود ، که منجر به دقت 87.4٪ در پیش بینی بیماری قلبی شد [28] ، [36].

روش تجزیه و تحلیل مؤلفه اصلی (PPCA) احتمالی بر اساس سه مجموعه داده کلیولند ، سوئیس و مجارستانی به ترتیب در UCI برای ارزیابی پیشنهاد شده است. این روش بردارهایی را با کواریانس بالا و طرح برداری که برای به حداقل رساندن ابعاد ویژگی استفاده می شود ، استخراج می کند. انتخاب ویژگی با ابعاد کمینه به یک تابع پایه شعاعی ارائه می شود ، که از SVM مبتنی بر هسته پشتیبانی می کند. نتایج این روشها به ترتیب 82.18٪ ، 85.82٪ و 30/91٪ از مجموعه دادههای UCI در کلیولند ، سوئیس و مجارستان است [29]. روش ترکیبی ترکیبی از رگرسیون خطی (LR) ، چند متغیره رگرسیون سازگاری رگرسیون (MARS) و ANN با تکنیک های مجموعه خشن معرفی شده است و سهم اصلی این مقاله است. روش پیشنهادی به طور مؤثر مجموعه ای از ویژگیهای مهم را کاهش می دهد. صفات باقیمانده برای ANN وارد می شوند. مجموعه داده های بیماری قلبی برای نشان دادن اثربخشی توسعه رویکرد ترکیبی استفاده می شود [30] ، [38]. پیش بینی بیماری قلبی با درک چند لایه از NN ارائه شده است. این روش با استفاده از 13 ویژگی بالینی به عنوان ورودی و آموزش داده شده با انتشار پشتی ، نتایج بسیار دقیقی را برای تشخیص اینکه بیمار مبتلا به بیماری قلبی است یا خیر ، نشان می دهد. [39]

روشها و روشهای پیش بینی داده کاوی متنوع ، مانند KNN ، LR ، SVM ، NN ، و رایج اخیراً برای شناسایی و پیش بینی بیماری های قلبی بسیار محبوب بوده است [23]. روش جدید رأی دادن در رابطه با رویکرد ترکیبی با استفاده از LR و NB در این مقاله ارائه شده است. مجموعه داده UCI برای انجام آزمایشات روش پیشنهادی استفاده می شود ، که منجر به دقت 87.4٪ در پیش بینی بیماری قلبی شد [28] ، [36].

روش تجزیه و تحلیل مؤلفه اصلی (PPCA) احتمالی بر اساس سه مجموعه داده کلیولند ، سوئیس و مجارستانی به ترتیب در UCI برای ارزیابی پیشنهاد شده است.

این روش بردارهایی را با کواریانس بالا و طرح برداری که برای به حداقل رساندن ابعاد ویژگی استفاده می شود ، استخراج می کند.انتخاب ویژگی با ابعاد کمینه به یک تابع پایه شعاعی ارائه می شود ، که از SVM مبتنی بر هسته پشتیبانی می کند. نتایج این روشها به ترتیب 82.18٪ ، 85.82٪ و 30/91٪ از مجموعه دادههای UCI در کلیولند ، سوئیس و مجارستان است [29]. روش ترکیبی ترکیبی از رگرسیون خطی (LR) ، چند متغیره رگرسیون سازگاری رگرسیون (MARS) و ANN با تکنیک های مجموعه خشن معرفی شده است و سهم اصلی این مقاله است. روش پیشنهادی به طور مؤثر مجموعه ای از ویژگیهای مهم را کاهش می دهد. صفات باقیمانده برای ANN وارد می شوند. مجموعه داده های بیماری قلبی برای نشان دادن اثربخشی توسعه رویکرد ترکیبی استفاده می شود [30] ، [38]. پیش بینی بیماری قلبی با درک چند لایه از NN ارائه شده است. این روش با استفاده از 13 ویژگی بالینی به عنوان ورودی و آموزش داده شده با انتشار پشتی ، نتایج بسیار دقیقی را برای تشخیص اینکه بیمار مبتلا به بیماری قلبی است یا خیر ، نشان می دهد. [39]

ما همچنین الگوریتم آپریوری را با SVM معرفی می کنیم و آن را با 9 روش طبقه بندی دیگر مقایسه می کنیم تا بیماری قلبی را با دقت بیشتری پیش بینی کنیم. نتایج روش طبقه بندی میزان دقت و عملکرد بالاتری را در پیش بینی بیماری قلبی نسبت به سایر روشهای موجود نشان داده است [32]. انتخاب ویژگی نقش برجسته ای در پیش بینی بیماری قلبی دارد. ANN back propagation برای پیش بینی بهتر بیماری پیشنهاد شده است. نتایج به دست آمده از کاربرد ANN بسیار دقیق و بسیار دقیق است [33]. الگوریتم ژنتیکی با NN فازی موسوم به شبکه عصبی مکرر فازی (RFNN) برای تشخیص بیماری قلبی معرفی شده است.

در مجموعه داده های UCI ، 297 پرونده از سوابق بیمار در نظر گرفته شده است که از این تعداد 252 پرونده برای آموزش و مابقی برای آزمایش استفاده می شود. نتایج به دست آمده براساس ارزیابی رضایت بخش بوده است [35]. پیش بینی بیماری های قلبی با SVM و ANN پیشنهاد شده است. در این روش از دو روش برای فرض صحت و زمان آزمایش استفاده شده است.
مدل پیشنهادی ، سوابق داده را به دو کلاس در SVM و همچنین ANN برای تجزیه و تحلیل بیشتر ترتیب می دهد ، همانطور که در [37] نشان داده شده است.شبکه عصبی Back Propagation (BPNN) با روش طبقه بندی معرفی شده است ، . عملکرد تکنیک های BPNN در مرحله آموزش و همچنین مرحله تست با تعداد مختلف نمونه اندازه گیری شده است. دقت این تکنیک از نظر مکاتبات با تعداد رکوردها بهبود یافته است [40].

بخش چهارم: روش HRFLM: در این مطالعه ، ما از استودیوی R برای طبقه بندی بیماریهای قلبی مخزن Cleveland UCI استفاده کرده ایم. این یک نمایش بصری آسان برای استفاده از مجموعه داده ها ، محیط کار و ساختن تجزیه و تحلیل پیش بینی را فراهم می کند. فرآیند ML از یک مرحله داده قبل از پردازش و پس از آن انتخاب ویژگی بر اساس آنتروپی DT ، طبقه بندی ارزیابی مدل سازی عملکرد و نتایج با دقت بهبود یافته شروع می شود. انتخاب و مدل سازی ویژگی ها در ترکیب های مختلف از ویژگی ها تکرار می شود. در جدول 1 اطلاعات مفصل UCI با صفات مورد استفاده نشان داده شده است. جدول 2 نوع داده و دامنه مقادیر را نشان می دهد. عملکرد هر مدل تولید شده بر اساس 13 ویژگی و تکنیک های ML که برای هر تکرار و عملکرد استفاده می شود ، ثبت می شود. بخش A به طور خلاصه پیش پردازش داده ها را انجام می دهد ، بخش B در مورد انتخاب ویژگی با استفاده از آنتروپی بحث می کند ، بخش C طبقه بندی را با تکنیک های ML توضیح می دهد و بخش D ارائه شده برای عملکرد نتایج است .

A. پیش پردازش داده ها

داده های بیماری قلبی پس از جمع آوری سوابق مختلف از قبل پردازش می شوند. مجموعه داده شامل 303 پرونده بیمار است ، جایی که 6 پرونده با مقادیر گمشده همراه هستند. این 6 پرونده از مجموعه داده ها حذف شده و 297 پرونده بیمار باقیمانده در پیش پردازش استفاده می شوند. متغیر چند طبقه و طبقه بندی باینری برای ویژگی های مجموعه داده داده شده ارائه می شود. از متغیر چند طبقه برای بررسی وجود یا عدم وجود بیماری قلبی استفاده می شود. به عنوان مثال بیمار مبتلا به بیماری قلبی ، مقدار آن را 1 عدد ، مقدار دیگر را 0 نشان می دهد که نشان دهنده عدم وجود بیماری قلبی در بیمار است. پیش پردازش داده ها با تبدیل پرونده پزشکی به مقادیر تشخیص انجام می شود. نتایج حاصل از پردازش داده ها برای 297 پرونده بیمار حاکی از آن است که 137 پرونده ارزش 1 را نشان می دهد که وجود بیماری قلبی را نشان می دهد در حالی که 160 مورد باقی مانده مقدار 0 را نشان می دهد که نشان دهنده عدم وجود بیماری قلبی است.

ب) انتخاب و کاهش ویژگی

از میان 13 ویژگی مجموعه داده ها ، از دو ویژگی مربوط به سن و جنس برای شناسایی اطلاعات شخصی بیمار استفاده می شود. 11 ویژگی باقی مانده از آن جهت که حاوی سوابق بالینی حیاتی هستند ، مهم تلقی می شوند. سوابق بالینی برای تشخیص و یادگیری شدت بیماری قلبی بسیار مهم است. همانطور که قبلاً در این آزمایش ذکر شد ، از چندین تکنیک (ML) استفاده شده است: NB ، GLM ، LR ، DL ، DT ، RF ، GBT و SVM. این آزمایش با تمام تکنیک های ML با استفاده از همه 13 ویژگی تکرار شد. شکل 2 روش پیش بینی HRFLM را نشان می دهد.

 

ج – مدل سازی طبقه بندی

ج- مدل سازی طبقه بندی خوشه بندی مجموعه داده ها بر اساس متغیرها و معیارهای ویژگی های Decision Tree  DT  انجام می شود. سپس ، طبقه‌بندیها برای برآورد عملکرد آن ، برای هر مجموعه داده خوشه‌بندی اعمال شده است.
بهترین مدلهای عملکردی براساس میزان خطای کم از نتایج فوق مشخص می شوند. با انتخاب خوشه DT با خطای زیاد و استخراج از ویژگی های طبقه بندیگر مربوطه ، عملکرد بهینه تر می شود. عملکرد طبقه بندی کننده برای بهینه سازی خطا در این مجموعه داده ارزیابی می شود.

D. معیار عملکرد

چندین معیار عملکرد استاندارد از قبیل صحت ، دقت و خطا در طبقه بندی برای محاسبه کارایی عملکرد این مدل در نظر گرفته شده است. دقت در متن فعلی به معنای درصد مواردی است که بطور صحیح از بین تمام موارد موجود پیش بینی می کند. دقت به عنوان درصد پیش بینی اصلاحی در طبقه مثبت نمونه ها تعریف می شود. خطای طبقه بندی به عنوان درصد دقت از دست رفته یا خطای موجود در نمونه ها تعریف می شود. برای شناسایی ویژگی های قابل توجه بیماری های قلبی ، از سه معیار عملکرد استفاده شده است که به درک بهتر رفتار ترکیب های مختلف از ویژگی های انتخاب کمک می کند. تکنیک ML بر روی بهترین مدل عملکرد نسبت به مدلهای موجود متمرکز است. ما HRFLM را معرفی می کنیم که باعث ایجاد دقت بالا و خطای طبقه بندی کمتر در پیش بینی بیماری های قلبی می شود. عملکرد هر طبقه بندی به صورت جداگانه ارزیابی می شود و کلیه نتایج برای بررسی بیشتر ثبت می شود.

محیط آزمایشگاهی

اطلاعات بیماری قلبی از مخزن یادگیری ماشین UCI جمع آوری شد. چهار پایگاه داده وجود دارد (یعنی کلیولند ، مجارستان ، سوئیس و VA Long Beach). بانک اطلاعاتی کلیولند برای این تحقیق انتخاب شد زیرا یک پایگاه داده رایج برای محققان ML با سوابق جامع و کامل است. مجموعه داده شامل 303 پرونده است. اگرچه مجموعه داده های کلیولند دارای 76 ویژگی است ، اما مجموعه داده های ارائه شده در مخزن ، اطلاعاتی را برای تنها زیر 14 ویژگی ارائه می دهد. منبع داده مجموعه داده های کلیولند بنیاد کلینیک کلیولند است. جدول 1 توضیحات و نوع ویژگی ها را نشان می دهد. 13 ویژگی وجود دارد که در پیش بینی بیماری های قلبی وجود دارد ، که در آن تنها یک ویژگی به عنوان خروجی یا ویژگی پیش بینی شده برای حضور بیماری های قلبی در یک بیمار عمل می کند.

مجموعه داده های کلیولند حاوی صفتی به نام num برای نشان دادن تشخیص بیماری قلبی در بیماران در مقیاس های مختلف ، از 0 تا 4 است. در این سناریو ، 0 بیانگر عدم وجود بیماری قلبی است و تمام مقادیر 1 تا 4 نمایانگر بیماران مبتلا به بیماری قلبی است. ، در جایی که پوسته پوسته شدن به شدت بیماری (4 مورد بالاترین) اشاره دارد. شکل 1 توزیع ویژگی num را در بین 303 سوابق شناسایی شده نشان می دهد.

B. راه اندازی آزمایشی برای ارزیابی

 

ما برای انجام طبقه بندی بیماریهای قلبی از مخزن کلیولند UCI از استودیویی R استفاده کرده ایم. شکل 1 ارزیابی آزمایش را مرحله به مرحله نشان می دهد. در مرحله اول ، مجموعه داده UCI بارگیری می شود و داده ها برای پیش پردازش آماده می شوند. زیر مجموعه از 13 ویژگی (Age, sex, cp, treetops, chol, FBS, restecg, thalach, exang, olpeak, slope, ca, that, target) از مجموعه داده های از قبل پردازش شده از بیماری های قلبی انتخاب شده است. سه مدل موجود برای پیش بینی بیماری های قلبی (DT، RM، LM) برای توسعه طبقه بندی استفاده می شود. ارزیابی مدل با ماتریس درهم ریختگی انجام می شود. در کل ، چهار نتیجه از طریق ماتریس درهم ریختگی ایجاد می شود ، یعنی TP (مثبت واقعی) ، TN (منفی واقعی) ، FP (مثبت کاذب) و FN (منفی کاذب). از اقدامات زیر برای محاسبه دقت ، حساسیت ، ویژگی استفاده می شود.

بخش VI نتایج ارزیابی
مدل های پیش بینی با استفاده از 13 ویژگی تولید می شوند و صحت برای تکنیک های مدل سازی محاسبه می شود. بهترین روش طبقه بندی در جدول 3 آورده شده است. این جدول دقت ، خطای طبقه بندی ، دقت ، اندازه گیری F ، حساسیت و ویژگی را مقایسه می کند. بیشترین دقت در روش طبقه بندی HRFLM در مقایسه با روشهای موجود حاصل می شود.

بخش VII.

بحث و گفتگو از HRFLM برای بهبود نتایج قوانین طبقه بندی در جدول 4 آورده شده است. هر مجموعه داده توسط R Studio Rattle طبقه بندی و پردازش می شود. نتایج با استفاده از قانون طبقه بندی برای مجموعه داده ها تولید می شوند.

 

قوانین طبقه بندی تولید شده بر اساس پس پردازش داده ها انجام می شود. پس از پیش پردازش ، سه روش برتر ML داده ها انتخاب شده و نتایج حاصل می شوند. برای پیدا کردن بهترین روش طبقه بندی از مجموعه داده های مختلف با DT، RF، LM استفاده شده است. جدول 5 نتایج روشهای موجود و پیشنهادی را نشان می دهد.

نتایج نشان می دهد که RF و LM بهترین هستند. نرخ خطای RF در مجموعه داده 4 بالا (20.9٪) در مقایسه با سایر مجموعه های داده است. روش LM برای مجموعه داده در مقایسه با روشهای DT و RF بهترین (9.1٪) است. ما روش RF را با LM ترکیب می کنیم و برای بهبود نتایج ، HRFLM را پیشنهاد می کنیم. جدول 6 نتایج روش پیشنهادی را نشان می دهد. شکل 3 میزان خطای کلی مجموعه داده را نشان می دهد. شکل 4 میزان خطای طبقه بندی کلی مجموعه داده را نشان می دهد.

 

 

الف) معیار مدل پیشنهادی
بنچمارک برای مقایسه عملکرد مدلهای موجود در مقایسه با مدل پیشنهادی مورد نیاز است. این روش برای شناسایی اینکه روش پیشنهادی بهترین است یا دقت را بهبود می بخشد استفاده می شود. دقت با تعداد انتخاب ویژگی و نتایج حاصل از مدل محاسبه می شود. HRFLM هیچ محدودیتی در انتخاب ویژگی های استفاده ندارد. تمام ویژگی های انتخاب شده در این مدل بهترین نتایج را کسب می کنند. در جدول 7 مقایسه مدلهای مختلف با روش پیشنهادی ما نشان داده شده است. شکل 5 و شکل 6 مقایسه عملکرد مدلهای مختلف را به ترتیب با روش پیشنهادی نشان می دهد.

 

در جدول 5 جزئیات ویژگی های انتخاب شده توسط مدل های مختلف از مجموعه داده های UCI برای بیماری های قلبی نشان داده شده است. روش پیشنهادی بر اساس ریسک در هر 13 صفت مورد استفاده قرار می گیرد. این نتیجه به وضوح اثبات می کند که تمام ویژگی های انتخاب شده و تکنیک های ML مورد استفاده ، در پیش بینی دقیق بیماری قلبی بیماران در مقایسه با مدل های موجود شناخته شده ، مؤثر است.

بخش VIII. نتیجه گیری

شناسایی پردازش داده های خام مراقبت های بهداشتی از اطلاعات قلبی در طولانی مدت نجات جان انسان و تشخیص زود هنگام ناهنجاری ها در شرایط قلب کمک خواهد کرد. در این کار از تکنیک های یادگیری ماشینی برای پردازش داده های خام و ارائه تشخیص جدید و جدید نسبت به بیماری های قلبی استفاده شده است. پیش بینی بیماری های قلبی در زمینه پزشکی چالش برانگیز و بسیار مهم است. با این حال ، اگر بیماری در مراحل اولیه تشخیص داده شود و اقدامات پیشگیرانه در اسرع وقت اتخاذ شود ، میزان مرگ و میر به شدت قابل کنترل است. گسترش بیشتر این مطالعه بسیار مطلوب است تا تحقیقات را به جای رویکردها و شبیه سازیهای نظری ، مستقیماً به مجموعه دادههای دنیای واقعی هدایت کنیم. روش HRFLM ترکیبی پیشنهادی با ترکیب ویژگیهای جنگل تصادفی (RF) و روش خطی (LM) استفاده شده است. HRFLM در پیش بینی بیماری قلبی کاملاً دقیق بود. دوره آینده این تحقیق با مخلوط های متنوعی از تکنیک های یادگیری ماشین برای تکنیک های پیش بینی بهتر می تواند انجام شود. علاوه بر این ، روش های جدید انتخاب ویژگی را می توان توسعه داد تا درک گسترده ای از ویژگی های مهم برای افزایش عملکرد پیش بینی بیماری قلبی داشته باشید.

نوشته‌های پیشین
تشخیص بیماری قلبی و پیش بینی با استفاده از تکنیک های یادگیری ماشین و داده کاوی
نوشته‌ی بعدی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Fill out this field
Fill out this field
لطفاً یک نشانی ایمیل معتبر بنویسید.
شما برای ادامه باید با شرایط موافقت کنید

فهرست