ارزیابی ترکیب مدل های زبانی و روش های دسته بندی برای بهبود طبقه بندی نثرهای ادبی کلاسیک فارسی (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
طبقه بندی متون فارسی، به ویژه نثرهای ادبی کلاسیک که سرشار از ساختارهای زبانی پیچیده و لایه های معنایی عمیق هستند، یکی از چالش های کلیدی در پردازش زبان طبیعی[1]محسوب می شود. این پژوهش با هدف ارزیابی روش های مختلف یادگیری ماشین و مدل های زبانی گوناگون برای طبقه بندی موضوعی نثرهای ادبی فارسی انجام شده است. در این مطالعه افزون بر شیوه های رایج طبقه بندی (مانند استفاده از مدل های از پیش آموزش دیده مانندmBERT،ParsBERT و RoBERTa)، از رویکردهای نوآورانه ای نیز بهره گرفته شده است. این رویکردهای نوین شامل ترکیب تعبیه سازی[2]های دو مدل با هم یا استفاده از توکن های عددی استخراج شده از یک مدل برای طبقه بندی با مدل دیگر هستند که با هدف بهینه سازی عملکرد و تجزیه وتحلیل نتایج به کار رفته اند. همچنین، تکنیک های سنتی تعبیه سازی همچون TF-IDF، Bag of Words و FastText به کار گرفته شدند و برای ارزیابی عملکرد، بردارهای استخراج شده به مدل های متنوع طبقه بندی، ازجمله مدل های شبکه عصبی بازگشتی LSTM و GRU و همچنین مدل های طبقه بندی برداری (مانند SVM[3] ،Random Forest و Logistic Regression) ارائه شدند. نوآوری این پژوهش در ترکیب تعبیه های مدل های ترنسفورمری با یکدیگر و با بردارهای ویژگی دیگر یا طبقه بندی آن ها با مدل های طبقه بندی برداری است که نتایج به دست آمده، بهبود معنادار معیارهای صحت، بازخوانی و امتیاز F1 را نشان می دهد. این رویکرد، افزون بر بهبود طبقه بندی متون فارسی، امکان شناسایی الگوهای زبانی و معنایی در نثرهای کلاسیک فارسی را فراهم می کند. همچنین، این پژوهش می تواند نقش مدل های زبانی و الگوریتم های یادگیری ماشین را در مطالعات ادبی گسترش دهد و آن ها را با نیازهای خاص متون ادبی سازگارتر و ازنظر عملکرد، دقیق تر از روش های پیشین سازد. [1]. NLP [2]. Embedding [3]. Support Vector MachineEvaluation of the Combination of Language Models and Classification Techniques for Improving the Classification of Persian Literary Prose
Text Classification of Persian Texts, particularly classical literary prose rich in complex linguistic structures and deep semantic layers, is considered one of the key challenges in natural language processing (NLP). This study aims to evaluate various machine learning methods and language models for thematic classification of literary Persian prose. In this research, beyond conventional classification approaches—such as employing pre-trained models like mBERT, ParsBERT, and RoBERTa—innovative strategies have been applied. These include combining embeddings from two different models, or using the numerical token outputs of one model as input for classification by another model, in order to optimize performance and analyze the results. In addition, traditional embedding techniques such as TF-IDF, Bag of Words, and FastText have been utilized. The extracted vectors were fed into various classification models, including recurrent neural networks (LSTM and GRU), as well as traditional vector-based classifiers such as SVM, Random Forest, and Logistic Regression. The main innovation of this study lies in combining embeddings from transformer-based models with each other and with other feature vectors, or classifying them using vector-based classifiers. The results indicate significant improvements in key evaluation metrics, including accuracy, recall, and F1-score. This approach, in addition to improving text classification, provides the possibility of identifying linguistic and semantic patterns in classical Persian prose. It can also expand the role of language models and machine learning algorithms in literary studies and make their application more compatible with the needs of literary texts and more accurate than previous methods.








