شناسایی و استخراج باهمایی های زبان فارسی با استفاده از روش های رایانشی (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
در این مقاله به بازشناسی باهمایی ها در زبان فارسی پرداخته می شود. پژوهش های صورت گرفته زبان فارسی در این زمینه عمدتاً آماری و مقابله ای بوده است. هدف این پژوهش بازشناسی باهمایی ها به روش پیکره بنیاد و رایانشی است. برای این منظور از پایگاه داده زبان فارسی به عنوان پیکره پژوهش استفاده شده است. همچنین به علت نداشتن لغت نامه باهمایی ها در زبان فارسی مجموعه داده ای از باهمایی بر اساس کتاب فرهنگ زبان آموز پیشرفته فارسی ساخته شده است. با استفاده از بردارهای تعبیه fasttext مدل زبانی با شبکه حافظه کوتاه مدت ماندگار آموزش داده می شود. همچنین با تنظیم دقیق «پارس برت» فراخوانی این مدل زبانی با استفاده از لیست های هزارتایی باهمایی ها و ناباهمایی ها محاسبه شد. در انتها، بررسی مقابله ای بازشناسی باهمایی در موتور ترجمه گوگل با استفاده از ترجمه هزار جمله فارسی به انگلیسی که هر یک از جملات دارای یک باهمایی است، انجام شد. نتایج نشان می دهد که مدل «پارس برت» با فراخوانی 93/95 درصد و 8/85 درصد به ترتیب، به بازشناسی باهمایی و ناباهمایی و مدل زبانی آموزش دیده با شبکه حافظه کوتاه مدت ماندگار به ترتیب باهمایی و ناباهمایی را با فراخوانی 6/6 درصد و 0 درصد بازشناسی کرد. همچنین بررسی مقابله ایِ دقت ترجمه موتور گوگل در ترجمه باهمایی ها سه نتیجه را در بر داشت: 1) باهمایی به درستی بازشناسی و ترجمه شد، 2) باهمایی به درستی بازشناسی نشد و ترجمه به صورت تحت اللفظی و واژه به واژه است، و 3) باهمایی بازشناسی نشد و ترجمه غلطی صورت پذیرفته است.Using Computational Methods for Persian Collocations Identification and Extraction
This article explores the recognition of collocations in Persian language. Previous research in this field has primarily been statistical and comparative in nature. The objective of this study is to identify collocations using a corpus-based and computational approach. To this end, the Persian language database is utilized as the research corpus. Additionally, due to the absence of a comprehensive collocation dictionary for Persian, a dataset of collocations has been constructed based on the Advanced Learners’ Persian Dictionary. Using FastText embedding vectors, a language model is trained with a Long Short-Term Memory (LSTM) network. Furthermore, by fine-tuning ParsBert, the performance of this language model is evaluated using lists of a thousand collocations and non-collocations. Finally, a comparative analysis of collocation recognition is conducted using Google Translate by translating a thousand Persian sentences into English, each containing at least one collocation. The results indicate that the ParsBert model achieves recall rates of 93.95% and 85.8% for collocation and non-collocation recognition, respectively. In contrast, the LSTM-based language model achieves recall rates of 6.6% and 0% for collocation and non-collocation recognition, respectively. The comparative analysis of Google Translate accuracy in translating collocations yielded three key findings: 1) The collocation was correctly recognized and translated; 2) The collocation was not correctly recognized, resulting in a literal, word-for-word translation; and 3) The collocation is not recognized, leading to an incorrect translation