مهرنوش شمس فرد

مهرنوش شمس فرد

مطالب

فیلتر های جستجو: فیلتری انتخاب نشده است.
نمایش ۱ تا ۴ مورد از کل ۴ مورد.
۱.

SBU-WSD-Corpus: A Sense Annotated Corpus for Persian All-words Word Sense Disambiguation

تعداد بازدید : 362 تعداد دانلود : 423
Word Sense Disambiguation (WSD) is a long standing task in Natural Language Processing (NLP) that aims to automatically identify the most relevant meaning of the words in a given context. Developing standard WSD test collections can be mentioned as an important prerequisite for developing and evaluating different WSD systems in the language of interest. Although many WSD test collections have been developed for a variety of languages, no standard All-words WSD benchmark is available for Persian. In this paper, we address this shortage for the Persian language by introducing SBU-WSD-Corpus, as the first standard test set for the Persian All-words WSD task. SBU-WSD-Corpus is manually annotated with senses from the Persian WordNet (FarsNet) sense inventory. To this end, three annotators used SAMP (a tool for sense annotation based on FarsNet lexical graph) to perform the annotation task. SBU-WSD-Corpus consists of 19 Persian documents in different domains such as Sports, Science, Arts, etc. It includes 5892 content words of Persian running text and 3371 manually sense annotated words (2073 nouns, 566 verbs, 610 adjectives, and 122 adverbs). Providing baselines for future studies on the Persian All-words WSD task, we evaluate several WSD models on SBU-WSD-Corpus.  
۲.

معرفی و آزمون پیکرۀ علیت PerCause برای شناسایی روابط علّی فارسی(مقاله علمی وزارت علوم)

تعداد بازدید : 765 تعداد دانلود : 728
شناسایی روابط علّی و همچنین تعیین مرز عناصر علّی در متن، از جمله مسائل چالش برانگیز در پردازش زبان طبیعی (NLP < /span>) به ویژه در زبان های کم منبع مانند فارسی است. در این پژوهش، در راستای آموزش سیستمی برای شناسایی روابط علّی و مرز عناصر آن، یک پیکره علّیت برچسب خورده انسانی برای زبان فارسی معرفی می شود. این مجموعه شامل 4446 جمله (مستخرج از پیکره بیجن خان و متن یکسری کتاب) و 5128 رابطه علّی است و در صورت وجود، سه برچسب علت، معلول و نشانه علّی برای هر رابطه مشخص شده است. ما از این پیکره برای آموزش سیستمی برای تشخیص مرزهای عناصر علّی استفاده کردیم. همچنین، یک بستر آزمون شناسایی علّیت را با سه روش یادگیری ماشین و دو سیستم یادگیری عمیق مبتنی بر این پیکره ارائه می کنیم. ارزیابی های عملکرد نشان می دهد که بهترین نتیجه کلی از طریق طبقه بندی کننده CRF به دست می آید که معیار F برابر 76% را ارائه می کند. علاوه بر این، بهترین صحت (91.4٪) در روش یادگیری عمیق BiLSTM-CRF به دست آمده است. به نظر می رسد وجود CRF به دلیل مدلسازی بافتار منجر به بهبود دقت سیستم می شود.
۳.

Ontology Creation and Population for Natural Language Processing Domain

تعداد بازدید : 87 تعداد دانلود : 120
In this paper, we describe our proposed methodology for constructing an ontology of natural language processing (NLP). We use a semi-automatic method; a combination of rule-based and machine learning techniques; to construct and populate an ontology with bilingual (English-Persian) concept labels (lexicon) and evaluate it manually. This methodology results in a complete ontology in the natural language processing domain with 1333 classes (containing concepts, tools, applications, etc.), 88 object properties, and 2437 annotation assertions for different classes. The built ontology is populated with about 428K NLP related papers and 38K authors, and also about 5M "is Related to" relations between papers and ontology classes and 1M "is Author of" relations between papers and authors. The evaluation results show that the ontology achieved a good result. The instantiation is done to enable applications find experts, publications and institutions (such as universities or research laboratories) related to various topics in NLP field.
۴.

استخراج دانش مفهومی از مغز با استفاده از الگوهای زبانی و معنایی

حوزه های تخصصی:
  1. حوزه‌های تخصصی روانشناسی روانشناسی یادگیری شناخت
  2. حوزه‌های تخصصی روانشناسی روانشناسی یادگیری فراشناخت
  3. حوزه‌های تخصصی روانشناسی روانشناسی یادگیری زبان
تعداد بازدید : 509 تعداد دانلود : 239
امروزه هستان شناسی ها که پایگاه های دانش مفهومی هستند، در سیستم های اطلاعاتی کاربرد بسیاری دارند. ساخت انواع هستان شناسی برای انواع قلمروها و کاربردها، فرآیندی پرهزینه و زمان بر است. خودکارسازی این فرآیند، گامی در جهت رفع گلوگاه کسب دانش در سیستم های اطلاعاتی و کاهش هزینه ساخت آنهاست. در این مقاله، ابتدا مروری بر روش های استخراج دانش مفهومی و ساخت هستان شناسی داریم و سپس برای کشف روابط میان مفاهیم، از روی متون زبان طبیعی، به بررسی روش های مبتنی بر الگو خواهیم پرداخت. در ادامه، برای استخراج دانش مفهومی از متون زبان فارسی، برخی الگوهای زبانی و معنایی را معرفی می کنیم. این الگوها عمومی و مستقل از دامنه و کاربرد می باشند و در سطح جمله عمل می کنند. آنها جهت استخراج روابط طبقه ای و غیر طبقه ای و اصول بدیهی، از عبارات و جملات فارسی به کار می روند. از جمله روابط استخراج شده از طریق این الگوها، می توان به روابط شمول معنایی، جز ـ کل، ویژگی ـ مقدار، هم مرجعی و … اشاره نمود. در این مقاله، ضمن معرفی الگوهای استخراج روابط مفهومی، در هر مورد مثال هایی از روابط قابل استخراج ارایه خواهد شد.

پالایش نتایج جستجو

تعداد نتایج در یک صفحه:

درجه علمی

مجله

سال

حوزه تخصصی

زبان