یک رویکرد مقایسه ای یادگیری ماشینی برای پیش بینی داده های ذخایر خسارت های واقع شده ولی گزارش نشده بیمه ای در حضور داده های سانسور شده و بریده شده(مقاله علمی وزارت علوم)
حوزههای تخصصی:
این مطالعه با هدف پیش بینی ذخایر خسارت های واقع شده ولی گزارش نشده، در رشته های مختلف بیمه ای، از مدل های یادگیری ماشین پیشرفته و تحلیل داده های سانسورشده و بریده شده استفاده کرده است. داده ها شامل اطلاعات تاریخ های وقوع و گزارش حادثه در پنج رشته بیمه ای، شامل ثالث مالی، بدنه، ثالث جانی و حوادث راننده، آتش سوزی و مسئولیت بوده و روش ها شامل رگرسیون خطی چندگانه (MLR)، مدل خطی تعمیم یافته (GLM)، مدل افزایشی تعمیم یافته (GAM)، جنگل تصادفی (RF)، شبکه عصبی (MLP) و حافظه کوتاه مدت و بلندمدت (LSTM) در دوره زمانی 1400 تا 1401 در شرکت بیمه ایران می باشند. با سانسور کردن و برش داده ها در مقاطع مختلف، بر حسب روزهای تعطیل، روزهای شلوغ سال و دوره های رونق ساخت و ساز، ویژگی های اثرگذار داده ها، براساس نوع رشته بیمه ای مدل سازی شد. نتایج نشان داد که مدل های LSTM و RF در پیش بینی تاخیرها عملکرد بسیار بهتری نسبت به مدل های خطی داشتند؛ به طور خاص، مدل RF در رشته های بدنه و ثالث مالی با خطا به ترتیب 64/10 و 02/11 و مدل LSTM با خطا به ترتیب 83/9 و 72/10، دقت بالاتری نسبت به سایر مدل ها داشته اند. این مدل ها در شناسایی الگوهای پیچیده موجود در داده ها توانمند بوده و نشان دادند که با توجه به تأثیرگذاری عواملی مانند تعطیلات آخر هفته ها و نوع ترکیب داده ها می توانند الگوهای پیچیده تری را در داده های بیمه ای شناسایی کنند. این نتایج تأکید دارد که مدل های LSTM و جنگل تصادفی به طور چشمگیری قابلیت بهبود دقت پیش بینی را دارا بوده و ابزار مناسبی برای ارزیابی ریسک و تخصیص بهینه ذخایر مالی در صنعت بیمه محسوب می شوند.