روشی برای بازیابی اطلاعات از داده های گم شده با استفاده از تکنیک های داده کاوی و الگوریتم ژنتیک(مقاله علمی وزارت علوم)
حوزههای تخصصی:
هدف: در ادبیات آماری، اصطلاحات مختلف و غالباً مترادفی برای مفهوم داده های گم شده وجود دارد. این اصطلاحات عبارتند از داده های گم شده، داده های از دست رفته، داده های ناقص و داده های بی پاسخ. در آمار، داده های گم شده یا مقدارهای گم شده زمانی رخ می دهد که هیچ مقدار داده ای برای یک متغیر در یک مشاهده ذخیره نشده باشد. داده ها اغلب در تحقیقات اقتصادی، جامعه شناسی و علوم سیاسی از بین می روند، زیرا دولت یا نهادهای خصوصی ممکن است گزارش های حساس را ناقص ارائه دهند، یا ممکن است برخی از افراد شرکت کننده در مطالعه از ادامه همکاری انصراف دهند، یا از پاسخ دادن به برخی از سوالات اجتناب کنند، یا محققین، تکنسین ها و جمع آوری کننده داده ها ممکن است اشتباهاتی را انجام دهند که منجر به گم شدن داده ها شود. داده های گم شده می توانند باعث ایجاد اغتشاش در توزیع متغیر شوند، یعنی می توانند باعث بیش برازش یا کم برازش مدل ها شوند. داده های گم شده می توانند باعث یک سوگیری (اریبی) در مجموعه داده شوند و بنابراین تجزیه و تحلیل آماری را به سوی نتایج اریب سوق داده و نهایتاً دستیابی به یک نتیجه گیری مفید از داده های جمع آوری شده را با مشکل مواجه می سازد و می توانند منجر به تجزیه وتحلیل نادرست مدل شوند. پیش از این، برای غلبه بر مشکل داده های گم شده مرسوم ترین روش، حذف داده های گم شده بود که منجر به داده هایی با کیفیت پایین و به تبع آن تحلیل و استخراج نتایج دارای سوگیری می شد. امروزه با پیشرفت های علمی در حوزه های گوناگون و پیدایش روش های توانمند آماری، می توان پیش از مد ل سازی داده های ناکامل، مقادیر گم شده را با مقادیر مناسب جایگذاری یا برآورد کرد. با توجه به اهمیت ذکر شده موضوع مواجهه و مدیریت داده های گم شده، پژوهش حاضر با هدف ارائه روشی به منظور بهبود دقت بازیابی اطلاعات و دانش از داده های گم شده انجام شده است. روش: در روش پیشنهادی از تکنیک های داده کاوی شامل خوشه بندی و رگرسیون، و همچنین از الگوریتم های هیوریستیک شامل الگوریتم ژنتیک استفاده شده است. در روش های موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده می شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه بندی به منظور شناسایی رکوردهای مشابه استفاده شده است. سپس، برای هر خوشه، میزان داده های گم شده هر صفت (ستون) از مجموعه داده مورد محاسبه قرار گرفته است. بر اساس میزان داده از دست رفته، از مدل رگرسیون یا از الگوریتم ژنتیک به منظور بازیابی اطلاعات از دست رفته استفاده شده است. یافته ها: نتایج پیاده سازی روش پیشنهادی بر روی یک مجموعه داده که حاوی داده های گم شده به صورت تصادفی بودند نشان داد میزان خطای الگوریتم پیشنهادی برابر 27 درصد است که نسبت به روش استفاده از میانگین، میانه و مد که دارای خطای 56.5 درصد، و روش استفاده از رگرسیون که دارای خطای 34.6 درصد، و روش ماشین بردار پشتیبان (SVM) که دارای خطای 42.1 درصد بود، دقت بالاتری در جانهی داده های گم شده داشته است. نتیجه گیری: در روش های موجود، برای جایگزینی داده از دست رفته، از کل مجموعه داده استفاده می شود. این موضوع سبب در نظر گرفتن رکوردهای غیر مشابه رکورد مربوط به داده از دست رفته خواهد شد. لذا منجر به نتایج اشتباه خواهد شد. در الگوریتم پیشنهادی، از خوشه بندی به منظور شناسایی رکوردهای مشابه، و محاسبه داده از دست رفته بر اساس رکوردهای مشابه موجود در خوشه، استفاده شده است. همچنین، در الگوریتم پیشنهادی، حذف داده های پرت، تعیین تعداد خوشه های بهینه و غیره در نظر گرفته شده است. این موضوع سبب خواهد شد، داده های غیر عادی تاثیری در محاسبه داده های از دست رفته نداشته باشند. در الگوریتم پیشنهادی، برای هر خوشه، صفاتی (ستون ها) که بیش از یک سوم داده از دست رفته دارند حذف می شوند. این موضوع سبب جلوگیری از تاثیر داده های غیر قابل اطمینان در محاسبه داده های از دست رفته خواهد شد. همچنین، از مدل رگرسیون در خوشه استفاده می شود که سبب می شود در محاسبه داده های از دست رفته، فیلدهای مربوط در صفات (ستون های) دیگر نیز در نظر گرفته شود. استفاده از الگوریتم ژنتیک در روش پیشنهادی، که منجر به استفاده تلفیقی از میانگین، میانه، مد و مدل رگرسیون می شود، سبب دستیابی به نتایج قابل قبول تری خواهد شد. کلیدواژه ها: بازیابی اطلاعات، داده های گم شده، داده کاوی، الگوریتم ژنتیک، خوشه بندی، مدل رگرسیون.