چکیده

هدف: در صنعت بانکداری، حفظ مشتریان وفادار به مراتب کم هزینه تر و سودآورتر از جذب مشتریان جدید است. روی گردانی مشتریان به عنوان یکی از چالش های اصلی بانک ها، تاثیر مستقیمی بر کاهش سودآوری، افزایش هزینه های بازاریابی و افت سهم بازار دارد. پژوهش حاضر با هدف ارزیابی عملکرد الگوریتم های یادگیری ماشین در پیش بینی روی گردانی مشتریان شعب یک بانک دولتی در سال های 1400 تا 1403 انجام شده است. با توجه به اهمیت حفظ مشتریان وفادار و کاهش هزینه های ناشی از ریزش مشتریان، این مطالعه تلاش دارد مدلی کارآمد و تفسیرپذیر برای شناسایی مشتریان در معرض ریزش ارایه دهد. روش شناسی پژوهش: مطالعه حاضر از نوع توصیفی-تحلیلی و گذشته نگر است. داده های مربوط به 2025 مشتری فعال طی دوره 1400 تا 1403 گردآوری شد. برای هر مشتری 12 ویژگی شامل مشخصات تراکنشی، رفتاری و جمعیت شناختی ثبت گردید. داده ها پس از پاک سازی، با استفاده از روش z-score نرمال سازی شدند. سپس با پیاده سازی الگوریتم های مختلف یادگیری ماشین شامل درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبان، شبکه عصبی پرسپترون چندلایه، شبکه بیزین و XGBoost در محیط R، عملکرد مدل ها با استفاده از روش اعتبارسنجی متقاطع 10تایی و بر مبنای معیارهای صحت، حساسیت و ویژگی مقایسه شد. یافته ها: از بین 2025 مشتری بررسی شده، تعداد 325 نفر معادل %16 به عنوان مشتریان روی گردان شناسایی شدند. بررسی آماری نشان داد متغیرهای سن، مدت زمان رابطه با بانک و میانگین سپرده ها در 6 ماه گذشته بین دو گروه تفاوت معناداری ندارند. مدل XGBoost با صحت %89/96 حساسیت %11/87 و ویژگی %71/98 بالاترین عملکرد را نسبت به سایر الگوریتم ها نشان داد. همچنین سطح زیر منحنی نمودار مشخصه عملکرد برای این مدل برابر با 9907/0 محاسبه شد که بیانگر دقت بسیار بالا در طبقه بندی است. اصالت/ارزش افزوده علمی: در این پژوهش ویژگی سازی (Feature Engineering) خاص بانکی انجام شده است. متغیرهای جدید از تراکنش ها یا رفتار مشتری استخراج شده که در مقالات مشابه کمتر استفاده شده است مانند تغییر تعداد تراکنش های سه ماهه چهارم به سه ماهه اول و ... ترکیب رویکردهای پیشرفته یادگیری ماشین و استفاده از داده های مربوط به مشتریان یکی از بانک های ایران ضرورت و اهمیت این پژوهش را بیشتر نمایان می سازد. همچنین این مطالعه یکی از معدود پژوهش هایی است که عملکرد چندین الگوریتم ML را در محیط بانکی ایران با بهره گیری از تحلیل تفسیرپذیر و اعتبارسنجی دقیق مقایسه می کند. نتایج آن می تواند به سیاست گذاران بانکی در طراحی اقدامات پیشگیرانه برای حفظ مشتریان کمک شایانی کند.

Customer churn prediction in banks using machine learning algorithms

Purpose: In the banking industry, retaining loyal customers is considerably more cost-effective and profitable than acquiring new ones. Customer churn remains a major challenge for banks, directly reducing profitability, increasing marketing expenditures, and lowering market share. This study evaluates the performance of machine learning algorithms in predicting customer churn in the branches of a state-owned bank in Iran between 2021 and 2024. By focusing on customer retention and minimizing the costs associated with attrition, the study aims to develop an efficient and interpretable model for identifying customers at risk of churn. Methodology: This descriptive-analytical and retrospective study analyzed data from 2,025 active customers over a four-year period. For each customer, 12 features covering transactional, behavioral, and demographic characteristics were collected. Following data cleaning, z-score normalization was applied. Several machine learning algorithms—including Decision Tree, Random Forest, Support Vector Machine, Multilayer Perceptron, Bayesian Network, and XGBoost—were implemented in R. Their performance was assessed through 10-fold cross-validation based on accuracy, sensitivity, and specificity. Findings: Among the 2,025 customers examined, 325 (16%) were identified as churners. Statistical tests revealed no significant differences between churners and non-churners in terms of age, relationship duration with the bank, and average deposits during the past six months. Among the models tested, XGBoost demonstrated superior performance with an accuracy of 96.89%, sensitivity of 87.11%, and specificity of 98.71%. The area under the ROC curve (AUC) for this model was 0.9907, indicating excellent discriminatory power. Originality/Value: The contribution of this study lies in integrating advanced machine learning techniques with rigorous statistical analysis using real-world banking data. To the best of our knowledge, this is among the few studies to systematically compare multiple ML algorithms within the Iranian banking context, emphasizing both interpretability and robust validation. The findings provide practical insights for banking policymakers to design proactive strategies aimed at improving customer retention.

تبلیغات