فردوس-لکس: پیکره واژگانی از منابع آموزشی فارسی برای غیرفارسی زبانان (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
پژوهش حاضر با هدف تدوین پیکره ای مطابق با همپوشانی واژگانی در سطوح مبتدی، میانه و پیشرفتة منابع آموزش زبان فارسی به غیرفارسی زبانان در ایران، با رویکردی پیکره آگاه و روشی رایانشی انجام شد. این مطالعه در سه مرحله صورت گرفت. در مرحله اول، دادگان پژوهش شامل 14585 واحد واژگانی از 26 منبع آموزشی در سه سطح مبتدی، میانه و پیشرفته انتخاب شدند. این منابع شامل مجموعه کتاب های «پرفا»، «مینا»، «شیراز»، «پارسا»، «رسا»، «نگارا»، «خوانا» و «آموزش نوین زبان فارسی» بودند. سپس، تمامی واژگان به صورت دستی تایپ شده، به صورت رایانشی پیش پردازش شده، و برچسب اجزای کلام دریافت کردند. هنجارسازی به طور عمده با ابزار «دادماتولز» انجام پذیرفت. واحدسازی، بن واژه سازی و برچسب دهی اجزای کلام با استفاده از «استنزا» صورت پذیرفت. در مرحله دوم، با بهره گیری از برنامه نویسی «پایتون»، با کمک اجتماع و اشتراک بین مجموعه های واژگان هر کتاب، میزان همپوشانی واژگان در هر سطح و بین سطوح مختلف تعیین شد. در مرحله سوم، ماشین خوان کردن صورت پذیرفت؛ بدین صورت که یک پیکره با استاندارد نشانه گذاری XML توسعه داده شد که برای هر واژه در سطوح مختلف دارای حرف الفبا، واحد، بن واژه ، دامنه همپوشانی، برچسب اجزای کلام و فراداده کتاب های منبع آن است. نتایج پژوهش نشان داد که با افزایش سطح زبان آموزی، میزان همپوشانی واژگان روندی ثابت و سپس کاهشی دارد؛ به طوری که در سطوح مبتدی و میانه به ترتیب، در حدود ۳۶ درصد و 5/36 درصد همپوشانی مشاهده شد، اما در سطح پیشرفته این میزان به ۱۳ درصد کاهش یافته است. واکاوی اجزای کلام در هر سطح نشان داد که اسم ، فعل و صفت پرتکرارترین اجزای کلام در تمامی سطوح هستند. همچنین، در مقایسه همپوشانی واژگان بین سطوح مختلف (مبتدی و میانه، میانه و پیشرفته، مبتدی و پیشرفته) مقوله اسم بالاترین سهم را داشت. این یافته ها بر طراحی نظام مند منابع آموزشی جهت پیشرفت تدریجی مهارت های زبانی تأکید دارند.Ferdows-Lex: A Lexical Corpus of Persian Language Teaching Materials for Teaching Non-Persian Learners
The purpose of this study was to develop a corpus according to the vocabulary overlaps in the materials for Teaching Persian to Non-Persian Speakers (TPNPS) in the elementary, intermediate, and advanced levels. Computer tools and Corpus-Informed approaches using a three-step protocol were applied in this study. First, the research data was prepared. The data was selected from among 26 TPNPS textbooks. These included Parsa, Mina, Shiraz, Parfa, Amozash e Novin e Zaban e Farsi at three language proficiency levels. The total number of tokens in the research dataset was 15,585. The data was typed out, and then computational pre-processing and parts of speech (POS) tagging were carried out. Normalization was mainly performed using Dadmatools Package and tokenization, lemmatization and POS tagging (POS) were carried out through the standard STANZA package. Then, the vocabulary overlap range in all textbooks at each level and among all levels were analyzed using Python programming. Finally, the corpus was designed in the mark-up language of XML. The corpus had three proficiency levels each including vocabulary information like lemma, overlap range, alphabet, token, POS and metadata. The results showed, that the vocabulary overlapping range followed a fixed rate at first, decreased as the proficiency level increased i.e., this rate stood at about 36 percent and 36.5 percent in the elementary and intermediate levels whereas it declined to 13 percent at advanced levels. Furthermore, with regards to the POS analysis, nouns, verbs and adjectives were the most repeated ones in all three levels. Comparing the overlap of vocabulary among different levels (elementary to intermediate, intermediate to advanced, elementary and advanced), nouns had the highest share. The findings emphasized systematic development of teaching materials to gradual improvements of language skills.








