تجزیه و تحلیل پیش بینی بیماری قلبی با استفاده از روش های مختلف داده کاوی

بدون دیدگاه

خلاصه

بیماری قلبی یک اصطلاح است که به تعداد زیادی از شرایط پزشکی مرتبط با قلب اختصاص می یابد. این شرایط پزشکی شرایط سلامتی غیر طبیعی را توصیف می کند که به طور مستقیم بر قلب و تمام قسمت های آن تأثیر می گذارد. بیماری قلبی یک مشکل مهم بهداشتی در عصر امروز است. این مقاله با هدف تحلیل تکنیک های مختلف داده کاوی معرفی شده در سال های اخیر برای پیش بینی بیماری قلبی انجام شده است. مشاهدات نشان می دهد که شبکه های عصبی با 15 ویژگی نسبت به سایر تکنیک های داده کاوی بهتر عمل کرده اند. نتیجه گیری دیگر از تجزیه و تحلیل این است که درخت تصمیم با کمک الگوریتم ژنتیکی و انتخاب زیر مجموعه ویژگیها ، دقت خوبی را نشان داده است.

کلید واژه

بیماریهای قلبی؛ داده کاوی؛ منطق فازی؛ درخت تصمیم گیری؛ خلیج ساده و بی تکلف؛ طبقه بندی از طریق خوشه بندی شبکه های عصبی؛ ابزار Weka؛ الگوریتم ژنتیک.

1. مقدمه

داده کاوی فرایند یافتن الگوهای و روندهای ناشناخته قبلاً در پایگاههای داده و استفاده از این اطلاعات برای ایجاد مدلهای پیش بینی است. در مراقبت های بهداشتی ، داده کاوی اگر به طور فزاینده ای ضروری نباشد ، به طور فزاینده ای محبوب می شود. صنعت بهداشت و درمان امروز مقدار زیادی از داده های پیچیده را در مورد بیماران ، منابع بیمارستان ها ، تشخیص بیماری ، سوابق الکترونیکی بیمار ، دستگاه های پزشکی و غیره تولید می کند. مقدار زیادی از داده ها یک منبع کلیدی برای پردازش و تجزیه و تحلیل برای استخراج دانش هستند که امکان پشتیبانی از هزینه را فراهم می کند. پس انداز و تصمیم گیری. داده کاوی مجموعه ای از ابزارها و تکنیک ها را فراهم می کند که می توانند برای کشف الگوهای پنهان از این داده های پردازش شده استفاده کنند و همچنین متخصصان مراقبت های بهداشتی منبع دیگری از دانش را برای تصمیم گیری فراهم می کند. شکل 1 مدل فرایند داده کاوی اساسی را نشان می دهد.

گزارش بهداشت جهانی 2012 ، این واقعیت را روشن می کند که از هر سه بزرگسال در جهان فشار خون بالا رفته است – شرایطی که تقریباً نیمی از مرگ و میر ناشی از سکته مغزی و بیماری های قلبی را موجب می شود. بیماری های قلبی ، همچنین به عنوان بیماری های قلبی عروقی (CVD) شناخته می شود ، تعدادی از شرایطی را که بر قلب تأثیر می گذارد ، محاصره می کند – نه فقط حملات قلبی. بیماری قلبی همچنین شامل مشکلات عملکردی قلب مانند ناهنجاری دریچه قلب یا ضربان قلب نامنظم است. این مشکلات می تواند منجر به نارسایی قلبی ، ورم مفاصل و بسیاری دیگر از مشکلات شود.

سیستم های خودکار و موثر پیش بینی بیماری قلبی می تواند در بخش مراقبت های بهداشتی برای پیش بینی بیماری قلبی مفید باشد. تلاش ما برای ارائه مطالعه دقیق در مورد روشهای مختلف داده کاوی است که می توانند در این سیستم های خودکار مستقر شوند. این اتوماسیون همچنین تعداد آزمایشاتی را که توسط یک بیمار انجام می شود کاهش می دهد. از این رو ، نه تنها باعث صرفه جویی در هزینه بلکه زمان هم تحلیلگران و هم بیماران خواهد شد.

معماری

این مقاله به تجزیه و تحلیل تکنیک های مختلف داده کاوی می پردازد که می تواند برای تحلیل گران پزشکی یا پزشکان برای تشخیص دقیق بیماری قلبی مفید باشد. روش اصلی مورد استفاده در کار ما ، بررسی نشریات ، ژورنال ها و بررسی ها در زمینه علوم کامپیوتر و مهندسی ، داده کاوی و بیماری های قلبی عروقی در زمان های اخیر بوده است .

3. بازبینی های تحقیق

داده کاوی و شبکه عصبی

یک شبکه عصبی مصنوعی (ANN) ، که اغلب فقط “شبکه عصبی” (NN) نامیده می شود ، یک مدل ریاضی یا یک مدل محاسباتی مبتنی بر شبکه عصبی بیولوژیکی است. به عبارت دیگر ، این یک تقلید از سیستم عصبی بیولوژیکی است. در این کار ، سیستم پیش بینی بیماری قلبی با استفاده از 15 ویژگی [4] توسعه یافته است. از 13 صفت اولیه برای پیش بینی استفاده می شد اما این کار تحقیقاتی شامل 2 ویژگی دیگر ، یعنی چاقی و سیگار کشیدن برای تشخیص کارآمد بیماری قلبی است.

از ابزار داده کاوی Weka 3.6.6 برای آزمایش استفاده شده است. در ابتدا مقادیر گمشده در مجموعه داده مشخص شده و با استفاده از فیلتر ReplaceMissingValues از 3.6.6 مقادیر مناسب جایگزین شدند . بعلاوه ، روشهای مختلف داده کاوی در بانک اطلاعاتی بیماریهای قلبی مورد بررسی قرار گرفته است. ماتریس درهم ریختگی برای هر طبقه بندی بدست می آید.

3.2 منطق فازی و الگوریتم ژنتیک

روش پیشنهادی در این تحقیق تحقیق نسخه گسترده ای از مدل است که الگوریتم های ژنتیکی را برای انتخاب ویژگی ها است.
و سیستم تخصصی فازی برای طبقه بندی موثر استفاده می شود. نظریه مجموعه فازی و منطق فازی برای ایجاد سیستم های دانش بنیان در مراقبت های بهداشتی برای تشخیص بیماری ها بسیار مناسب هستند .

آزمایش ها در Matlab با استفاده از ابزار فازی انجام می شود. برای این کار از مدل ممدانی سیستم فازی استفاده شده است. مجموعه داده ها از مخزن یادگیری ماشین UCI استفاده می شود ، و تنها 6 ویژگی برای پیش بینی بیماری قلبی مؤثر و ضروری است. در سیستم ارائه شده ، ورودی مجموعه ای از تمام ویژگی های انتخاب شده است و خروجی سیستم برای دستیابی به یک مقدار 0 یا 1 است که نشان دهنده عدم وجود یا وجود بیماری قلبی در بیماران است.

3 الگوریتم های یادگیری ماشین کاوی و نظارت بر ماشین
در این تحقیق ، طبقه بندی داده ها بر اساس الگوریتم های مختلف یادگیری ماشین نظارت شده ، یعنی Naive Bayes ، لیست تصمیم گیری و KNN ارائه شده است. از ابزار TANAGRA برای طبقه بندی داده ها استفاده می شود و داده ها با استفاده از اعتبار سنجی متقاطع 10 برابر ارزیابی می شوند.

TANAGRA [20] ابزاری برای داده کاوی برای اهداف علمی و پژوهشی است. این روش چندین روش کاوی داده از تجزیه و تحلیل داده های اکتشافی ، یادگیری آماری ، یادگیری ماشین و منطقه پایگاه داده را ارائه می دهد. این نرم افزار با استفاده از داده های ساده و مصنوعی ، رابط کاربری ساده ای را ارائه می دهد. این ابزار همچنین یک معماری را به کاربران پیشنهاد می کند که به آنها اجازه می دهد تا به راحتی روش های داده کاوی خود را برای مقایسه عملکردشان به راحتی اضافه کنند. این مجموعه گسترده ای از منابع داده ، دسترسی مستقیم به انبارها و پایگاه داده ها ، پاکسازی داده ها ، استفاده تعاملی است.

آزمایش ها با استفاده از مجموعه داده های آموزشی 3000 نمونه با 14 ویژگی مختلف انجام می شود. بسته به ویژگی ها ، مجموعه داده ها به دو بخش تقسیم می شوند ، یعنی 70٪ از داده ها برای آموزش استفاده می شود و 30٪ بقیه برای آزمایش استفاده می شود. عملکرد هر الگوریتم تعیین می شود و بر اساس صحت و زمان ارزیابی محاسبه برای هر الگوریتم مقایسه انجام می شود [12]. مشاهده شده است که الگوریتم Naive Bayes در مقایسه با دو الگوریتم دیگر عملکرد بهتری دارد. جدول 3 مطالعه عملکرد الگوریتم های مختلف را نشان می دهد.

در مجموع 909 پرونده از پایگاه داده بیماری کلیولند بدست آمد. سوابق به طور مساوی به دو مجموعه داده ، یعنی مجموعه داده های آموزشی (455 سوابق) و مجموعه داده های آزمایش (454 سوابق) تقسیم شدند. در طول تجزیه و تحلیل مشاهده شده است که Naive Bayes به نظر می رسد مؤثرترین است زیرا بیشترین درصد پیش بینی های صحیح (86.53٪) را برای بیماران مبتلا به بیماری قلبی دارد و پس از آن شبکه عصبی (53/85٪) و درخت تصمیم گیری قرار دارد. با این حال ، به نظر می رسد که درخت تصمیم گیری در مورد پیش بینی بیماران فاقد بیماری قلبی ، یعنی (89٪) نسبت به دو مدل دیگر مؤثر است.

نتیجه گیری

برای درک بهتر ، نتایج برای هر تکنیک داده کاوی به طور جداگانه در جداول مختلف نشان داده شده است. طبقه بندی کننده های مختلف در ترکیب با روش های مختلف داده کاوی برای پیش بینی بیماری قلبی استفاده می شوند. از مشاهدات می توان دریافت که در بعضی موارد ، یک طبقه بندی یکسان برای تکنیک های مختلف داده کاوی دقت مختلفی را ایجاد می کند.

هدف از کار ما ارائه مطالعه روشهای مختلف داده کاوی است که می تواند در سیستم های خودکار پیش بینی بیماری قلبی به کار رود. در این کار تکنیک های مختلف و طبقه بندی کننده داده کاوی تعریف شده است که در سالهای اخیر برای تشخیص بیماری قلبی کارآمد و مؤثر ظاهر شده است. تجزیه و تحلیل نشان می دهد که شبکه عصبی با 15 ویژگی بیشترین دقت یعنی 100٪ تاکنون را نشان داده است. از سوی دیگر ، تصمیم Tree نیز با استفاده از 15 ویژگی ، با دقت 99.62٪ عملکرد خوبی داشته است. علاوه بر این ، در ترکیب با الگوریتم ژنتیک و 6 صفت ، تصمیم درختی 99.2 درصد بازده را نشان داده است.

 

نوشته‌های پیشین
نوشته‌ی بعدی
استفاده از درختان تصمیم گیری در داده کاوی برای پیش بینی عوامل موثر بر بیماری قلبی

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Fill out this field
Fill out this field
لطفاً یک نشانی ایمیل معتبر بنویسید.
شما برای ادامه باید با شرایط موافقت کنید

فهرست