استفاده از درختان تصمیم گیری در داده کاوی برای پیش بینی عوامل موثر بر بیماری قلبی

بدون دیدگاه

چکیده —

آمار سازمان بهداشت جهانی (WHO) نشان می دهد که بیماری های قلبی یکی از دلایل عمده مرگ و میر در سرتاسر جهان است. به دلیل اهمیت بیماری قلبی ، در سالهای اخیر مطالعات بسیاری در مورد این بیماری با استفاده از داده کاوی انجام شده است. هدف اصلی از این مطالعه یافتن الگوریتم درخت تصمیم گیری بهتر و سپس استفاده از الگوریتم برای استخراج قوانین در پیش بینی بیماری های قلبی است. داده های کلیولند از جمله 303 پرونده برای این مطالعه استفاده می شوند. این داده ها شامل 13 ویژگی است و ما آنها را در پنج طبقه طبقه بندی کرده ایم. در این مقاله ، الگوریتم C5.0 با مقدار دقت 33/85 درصد نسبت به بقیه الگوریتمهای مورد استفاده در این تحقیق عملکرد بهتری دارد. با توجه به قوانین ایجاد شده توسط این الگوریتم ، ویژگی های Trestbps ، Restecg ، Thalach ، Slope ، Oldpeak و CP به عنوان مهمترین دلایل پیش بینی بیماری قلبی استخراج شد

کلمات کلیدی – داده کاوی؛ بیماری قلبی؛ طبقه بندی؛ درخت تصمیم گیری؛ الگوریتم C5.0.

در سالهای اخیر ، حجم داده های انباشته به سرعت افزایش یافته است. در رابطه با این پروژه ، استفاده از روشی که بتواند اطلاعات مفیدی را از این داده ها استخراج کند ، بسیار مورد توجه قرار گرفته است. داده کاوی در اکثر زمینه های علمی از جمله علوم پزشکی استفاده می شود. تاکنون از تکنیک های داده کاوی برای تشخیص بیماری هایی مانند بیماری های قلبی ، دیابت ، عصب شناسی ، افسردگی ، سرطان سینه ، بیماری کبد و غیره استفاده شده است و روش های مختلف و الگوریتم های مختلفی در داده کاوی وجود دارد و با توجه به داده های ارائه شده مختلف ، قدرت و عملکرد هر یک از این الگوریتم ها متفاوت است. به عنوان مثال ، الگوریتمهای ماشینهای بردار پشتیبانی (SVM) ، K-Nearest همسایگان (KNN) ، درختان تصمیم گیری ، شبکه عصبی مصنوعی (ANN) و غیره را می توان در این منطقه نام برد. سازمان بهداشت جهانی گزارش داده است که بیماری های قلبی به عنوان اصلی ترین عامل مرگ و میر در سراسر جهان بسیار مهم است [1]. به دلیل اهمیت این بیماری در جهان ، این مقاله به بررسی عملکرد الگوریتم های تصمیم گیری C5.0 ، تشخیص خودکار تعامل CHi-Squared (CHAID) ، درخت آماری سریع بی طرف و کارآمد (QUEST) و طبقه بندی و رگرسیون درخت می پردازد. (درخت C&R) بر روی داده های بیماران قلبی.

کاوی و طبقه بندی داده ها با پیشرفت علم ، حجم داده های ذخیره شده در زمینه های مختلف افزایش یافته است. تجزیه و تحلیل داده های جمع آوری شده می تواند اطلاعات مفیدی را که در آنها موجود است استخراج کند. استفاده از داده کاوی به عنوان یک علم جدید در مورد داده ها می تواند علم دروغ در داده ها را استخراج کند. داده کاوی نشان می دهد رابطه سودمند بین داده ها و تصمیم گیری های صحیح بر اساس این روابط می تواند انجام شود [2] ، [3]. استفاده از ابزارهای مرتبط برای نشان دادن نتایج ، داده کاوی از مدل سازی تحلیلی ، طبقه بندی و پیش بینی اطلاعات استفاده می کند. برای اینکه بتوانید اطلاعات را به راحتی استخراج کنید ، الگوریتم های داده کاوی به مجموعه ای از پیش پردازش در داده ها و پردازش پس از آن بر روی الگوهای استخراج شده نیاز دارند. روشهای مورد استفاده برای داده کاوی را می توان به شرح زیر طبقه بندی کرد:

با پیشرفت علم ، حجم داده های ذخیره شده در زمینه های مختلف افزایش یافته است. تجزیه و تحلیل داده های جمع آوری شده می تواند اطلاعات مفیدی را که در آنها موجود است استخراج کند.  داده کاوی نشان می دهد رابطه سودمند بین داده ها و تصمیم گیری های صحیح بر اساس این روابط می تواند انجام شود [2] ، [3]. استفاده از ابزارهای مرتبط برای نشان دادن نتایج ، داده کاوی از مدل سازی تحلیلی ، طبقه بندی و پیش بینی اطلاعات استفاده می کند. برای اینکه بتوانید اطلاعات را به راحتی استخراج کنید ، الگوریتم های داده کاوی به مجموعه ای از پیش پردازش در داده ها و پردازش پس از آن بر روی الگوهای استخراج شده نیاز دارند. روشهای مورد استفاده برای داده کاوی را می توان به شرح زیر طبقه بندی کرد:

طبقه بندی (تکنیک پیش بینی): در این روش نمونه ای در یکی از چندین دسته از پیش تعریف شده طبقه بندی می شود.

Regression (تکنیک پیشگیری): پیش بینی مقدار متغیر بر اساس متغیرهای دیگر

خوشه بندی (تکنیک توصیفی): مجموعه داده ای که در یکی از چندین خوشه نگاشت می شود. خوشه ها به عنوان گروه بندی دسته بندی داده ها تعریف می شوند که براساس تشابه برخی معیارها شکل می گیرند.

کشف قوانین انجمن (تکنیک توصیفی): رابطه وابستگی را در بین ویژگیهای مختلف بیان می کند.

تجزیه و تحلیل توالی: این مدل الگوهای توالی ، مانند سری زمانی را مدل می کند

یکی از تقسیمات داده کاوی طبقه بندی است که با استفاده از قانون If-then عمل می کند. هدف آن پیش بینی ویژگی (ویژگی) بر اساس سایر ویژگی ها (ویژگی ها) است که به عنوان پیش بینی کننده شناخته می شوند. در طبقه بندی ، داده ها به دو دسته آموزش و تست تقسیم می شوند و داشتن الگوریتم های داده کاوی آموزش ، قوانین را استخراج می کند. ویژگی هدف و مقدار ویژگی های پیش بینی باید در الگوریتم های داده کاوی قرار گیرد. الگوریتم های KNN ، SVM ، درخت تصمیم و ANN از جمله الگوریتم های طبقه بندی هستند.

یکی از تقسیمات داده کاوی طبقه بندی است که با استفاده از قانون If-then عمل می کند.
هدف آن پیش بینی ویژگی (ویژگی) بر اساس سایر ویژگی ها (ویژگی ها) است که به عنوان پیش بینی کننده شناخته می شوند.در طبقه بندی ، داده ها به دو دسته آموزش و تست تقسیم می شوند و داشتن الگوریتم های داده کاوی آموزش ، قوانین را استخراج می کند. ویژگی هدف و مقدار ویژگی های پیش بینی باید در الگوریتم های داده کاوی قرار گیرد. الگوریتم های KNN ، SVM ، درخت تصمیم و ANN از جمله الگوریتم های طبقه بندی هستند.

ب- بیماری قلبی
بدن انسان از مکانیسم پیچیده ای برخوردار است به طوری که هرگونه اختلال در عملکرد قسمت های بدن بر دیگری تأثیر می گذارد. قلب انسان تقریباً به اندازه یک مشت است ، در حالی که یکی از قوی ترین ماهیچه های بدن است. 21-28 روز پس از تشکیل جنین در رحم شروع به لرزیدن می کند و به طور متوسط روزانه 100000 بار ضربان می شود. متوسط ضربان قلب در حدود 70 ضربان در دقیقه است که به دلیل فعالیت بدنی دو برابر یا ضرب می شود. قلب انسان بخشی از بدن است که نقش مهمی در زندگی خود دارد. هرگونه اختلال در عملکرد قلب انسان منجر به اختلال در عملکرد سیستم بدن به ویژه خونرسانی و دستگاه تنفسی می شود.

طبق آمار WHO ، فدراسیون جهانی قلب (WHF) و مراکز کنترل و پیشگیری از بیماری های ایالات متحده (CDC) در سال 2020 ، تعداد مرگ و میر ناشی از “بیماری قلبی و سکته مغزی” به 20 میلیون می رسد ، در حالی که تعداد ذکر شده خواهد بود. تا سال 2030 تا 24 میلیون کشته افزایش می یابد [4]. افزایش تعداد مرگ و میرها به دلیل بیماری قلبی دلیل اهمیت بالای تحقیقات در مورد بیماری های قلبی است. مشکل فوق باعث مدیریت و درمان بیماری های قلبی توسط بیماران و دولت ها می شود. انواع مختلفی از بیماری های قلبی از جمله “بیماری عروق کرونر قلب ، سکته مغزی ، بیماری فشار خون بالا قلب ، بیماری التهابی قلبی و بیماری روماتیسمی قلب وجود دارد” [5]. مانند سایر بیماری ها ، بیماری های قلبی نیز علائم خاصی دارند که می توانیم به درد قفسه سینه مراجعه کنیم ، ناراحتی ها در ناحیه قفسه سینه ، سرفه ، تپش قلب و احتباس مایعات از بین [6] داده های زیادی در مورد بیماران قلبی وجود دارد و یکی از محبوب ترین منابع داده مربوط به کلیولند است.این منبع شامل 303 پرونده با 13 ویژگی در پنج کلاس است. [7]

عوامل خطر ب

یماری قلبی برای هر بیماری برخی از عوامل ایجاد کننده بیماری یا تشدید اثرات آن وجود دارد. تأثیر این عوامل در هر بیمار متفاوت است. هر یک از عوامل زیر نیز انواع مختلفی از بیماریهای قلبی دارد. شایع ترین عوامل خطر بیماری قلبی عبارتند از: سیگار کشیدن ، جنسیت (سکس) ، سن ، قومیت ، سابقه خانوادگی این بیماری ، فشار خون بالا ، کلسترول خون بالا ، دیابت ، رژیم غذایی ضعیف ، عدم ورزش ، چاقی ، استرس و رگ التهاب است.

روش و اطلاعات

برای تهیه مقاله حاضر ، از درختان تصمیم گیری ، که یکی از مهمترین الگوریتمهای مورد استفاده در داده کاوی است ، استفاده شد. آنها شامل الگوریتم های C5.0 ، C&R Tree ، CHAID و QUEST بودند. ساختار درخت تصمیم گیری در یادگیری ماشینی یک مدل پیش بینی کننده است ، که حقایق مشاهده شده در مورد یک پدیده را به برخی استنباط در مورد ارزش هدف آن پدیده تبدیل می کند. تکنیک های یادگیری ماشین برای استنباط یک درخت تصمیم از داده ها ، “تصمیم درخت یادگیری” نامیده می شود که یکی از متداول ترین روش های داده کاوی است. درختان تصمیم گیری از روابط موجود در مجموعه داده ای که می توانند برای انجام کارهای طبقه بندی و پیش بینی استفاده شوند ، می توانند توضیحی قابل درک برای انسان ارائه دهند. این روش به طور گسترده در زمینه های مختلفی از جمله تشخیص ، طبقه بندی گیاهان و استراتژی های بازاریابی مشتری استفاده می شود. سپس هر یک از الگوریتم ها به طور خلاصه شرح داده شده است:

الگوریتم های C5.0

الگوریتم C5.0 که از الگوریتم های ID3 و C4.5 تولید شده است یکی از مهمترین و گسترده ترین الگوریتم های مورد استفاده در داده کاوی است. درخت C5.0 درخت طبقه بندی است ، که بر اساس تجزیه و تحلیل داده های ورودی ، یک ویژگی (ویژگی) را می یابد ، و هدف آن استفاده از آن برای تصمیم گیری در هر گره است. از آنجا که احتمالاً هر گره دارای ویژگی های مختلفی است ، همه آنها مورد بررسی قرار می گیرند تا یک ویژگی را از بین آنها انتخاب کنند ، بنابراین انتخاب ویژگی باعث کاهش آنتروپی (اختلال) می شود. این روند برای رسیدن به آخرین گره (Leaf) ادامه می یابد. این الگوریتم این ظرفیت را دارد که برای طبقه بندی به یک درخت تصمیم یا مجموعه ای از قوانین استفاده شود. در بسیاری از برنامه ها ، آن را به قوانین دیگر ترجیح می دهند ، زیرا مجموعه ای از قوانین ساده تر قابل درک هستند .

الگوریتم C&R Tree

این الگوریتم در سال 1984 توسط لئو Breiman ، جروم فریدمن ، چارلز J. استون و ریچارد A. اولسن معرفی شد . با استفاده از این الگوریتم می توان درخت تصمیم گیری را با تقسیم باینری تک متغیر ایجاد کرد. در حقیقت ، این الگوریتم برای متغیرهای کمی توسعه یافته است اما می تواند برای متغیرهای دیگر نیز مورد استفاده قرار گیرد. در این الگوریتم از ضریب استاندارد جینی (شاخص جینی) برای تقسیم داده ها در گروه های مختلف استفاده می شود و همچنین می توان از شاخص هایی مانند آنتروپی با سرعت بالاتر استفاده کرد. الگوریتم C&R Tree یک درخت باینری یک متغیره ایجاد می کند. این الگوریتم همچنین می تواند درخت رگرسیون را توسعه دهد. از جمله نقاط ضعف این الگوریتم می توان به انتخاب جانبدار متغیرها و نتایج گمراه کننده در متغیرهای کیفی با بیش از دو سطح اشاره کرد.

الگوریتم CHAID
این الگوریتم نوعی درخت تصمیم گیری است که در سال 1980 توسط Kass ساخته و معرفی شد [26]. این مخفف الگوریتم تشخیص خودکار تعامل CHi-Squared است که می تواند برای پیش بینی ، طبقه بندی و همچنین ایجاد رابطه بین عوامل مختلف مورد استفاده قرار گیرد. درختان تصمیم گیری معمولاً نتایج ساده و قابل درک را ارائه می دهند. یکی از مزیت های این الگوریتم نیز سادگی نتایج برای درک و تفسیر است. الگوریتم CHAID را می توان برای متغیرهای کیفی و کمی گروه بندی کرد. الگوریتم CHAID با استفاده از سه مرحله ادغام ، تقسیم و متوقف کردن که به طور تکراری انجام می شود ، از گره ریشه به سمت پایین درخت حرکت می کند. در هر مرحله ، CHAID بهترین گزینه را برای پیش بینی انتخاب می کند و بهترین انتخاب برای رسیدن به انتهای درخت ادامه دارد. این الگوریتم از مقادیر p برای یافتن بهترین ویژگی ها (ویژگی ها) در هر گره استفاده می کند ، بنابراین هر متغیر با مقادیر کمتر p در مرحله اول برای تقسیم گره در نظر گرفته خواهد شد.

 

نوشته‌های پیشین
تجزیه و تحلیل پیش بینی بیماری قلبی با استفاده از روش های مختلف داده کاوی
نوشته‌ی بعدی
آموزش حرفه ای و مجازی ماساژ

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Fill out this field
Fill out this field
لطفاً یک نشانی ایمیل معتبر بنویسید.
شما برای ادامه باید با شرایط موافقت کنید

فهرست