شناسایی و استخراج باهمایی های زبان فارسی با استفاده از روش های رایانشی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
در این مقاله به بازشناسی باهمایی ها در زبان فارسی پرداخته می شود. پژوهش های صورت گرفته زبان فارسی در این زمینه عمدتاً آماری و مقابله ای بوده است. هدف این پژوهش بازشناسی باهمایی ها به روش پیکره بنیاد و رایانشی است. برای این منظور از پایگاه داده زبان فارسی به عنوان پیکره پژوهش استفاده شده است. همچنین به علت نداشتن لغت نامه باهمایی ها در زبان فارسی مجموعه داده ای از باهمایی بر اساس کتاب فرهنگ زبان آموز پیشرفته فارسی ساخته شده است. با استفاده از بردارهای تعبیه fasttext مدل زبانی با شبکه حافظه کوتاه مدت ماندگار آموزش داده می شود. همچنین با تنظیم دقیق «پارس برت» فراخوانی این مدل زبانی با استفاده از لیست های هزارتایی باهمایی ها و ناباهمایی ها محاسبه شد. در انتها، بررسی مقابله ای بازشناسی باهمایی در موتور ترجمه گوگل با استفاده از ترجمه هزار جمله فارسی به انگلیسی که هر یک از جملات دارای یک باهمایی است، انجام شد. نتایج نشان می دهد که مدل «پارس برت» با فراخوانی 93/95 درصد و 8/85 درصد به ترتیب، به بازشناسی باهمایی و ناباهمایی و مدل زبانی آموزش دیده با شبکه حافظه کوتاه مدت ماندگار به ترتیب باهمایی و ناباهمایی را با فراخوانی 6/6 درصد و 0 درصد بازشناسی کرد. همچنین بررسی مقابله ایِ دقت ترجمه موتور گوگل در ترجمه باهمایی ها سه نتیجه را در بر داشت: 1) باهمایی به درستی بازشناسی و ترجمه شد، 2) باهمایی به درستی بازشناسی نشد و ترجمه به صورت تحت اللفظی و واژه به واژه است، و 3) باهمایی بازشناسی نشد و ترجمه غلطی صورت پذیرفته است.