مطالب مرتبط با کلیدواژه
۱.
۲.
۳.
۴.
۵.
طبقه بندی متن
حوزههای تخصصی:
سازماندهی و بازیابی دانش منتشر شده در محیط وب بعنوان یکی از مهمترین کاربردهای متن کاوی مطرح شده است. از جمله چالش های سازماندهی مجموعه عظیمی از متون در قالب یک پیکره متنی، ابعاد زیاد ویژگی ها و خلوت بودن ماتریس ویژگی ها است. نحوه ی انتخاب ویژگی ها و نحوه ی کاهش ویژگی ها در این مسئله تاثیر بسزایی در بالاتر رفتن دقت سازماندهی و بازیابی متون دارد. در بسیاری از پژوهش ها به بررسی منفک این دو چالش پرداخته شده است. این پژوهش با رویکرد توجه همزمان به این دو چالش شرح یافته است. پس از تعیین متون مرتبط با 20 گروه خبری وبی و پس از فاز پیش پردازش متون با استفاده از الگوریتم الگو سازی عنوان [1] ال دی ای [2] ، کیسه ای (تجمیعی) از مفاهیم معنایی برای پیکره ی متنی مورد نظر ساخته شد. به منظور بررسی میزان تاثیر واژه های پیکره متون در هر مفهوم پنهان، به بررسی نحوه ی وزن دهی واژگان یک پیکره، در مفاهیم استخراج شده توسط الگوریتم ال دی ای پرداخته شد. از این رو، برای هر متن یک توزیع احتمال رخداد حول هر عنوان استخراج گردید که برای سازماندهی و بازیابی دانش موجود در آن مورد استفاده قرار گرفت. برای سازماندهی آن از الگوریتم نزدیکترین K همسایه با معیار شباهت واگرای کولبک لیبلر که میزان فاصله دو توزیع احتمال را می سنجد؛ استفاده شد. نتایج آزمون ها نشان داد که میزان صحت سازماندهی روش پیشنهادی در صورتی که از معیار وزن دهی واکشی اطلاعات متقابل نقطه ای و الگوریتم KL-KNN استفاده شده باشد 5/82% است. نتایج تحلیل ها نشان داد که این روش دارای دقت مشابهی با روش هایی است که از فنون یادگیری عمیق استفاده می نمایند. افزون بر این، روش بکارگرفته در این پژوهش نشان دهنده پیچیدگی کمتری در فرایند سازماندهی و بازیابی متون مورد مطالعه پژوهش بود. 4. Topic modeling 5. Latent Dirichlet Allocation
بهبود روش های متن کاوی در کاربرد پیش بینی بازار با استفاده از الگوریتم های انتخاب نمونه اولیه(مقاله علمی وزارت علوم)
منبع:
مدیریت فناوری اطلاعات دوره ۸ تابستان ۱۳۹۵ شماره ۲
415 - 434
حوزههای تخصصی:
امروزه محققان با حجم وسیعی از داده مواجه اند که بخش زیادی از آنها ساختار پردازش پذیری ندارند. دو مورد از چالش های اصلی در این زمینه بالا بودن ابعاد فضای ویژگی و حجیم بودن داده های در دسترس است. به منظور رفع این چالش ها، مقاله پیش رو یک روش انتخاب ویژگی مبتنی بر ویژگی های هدف ارائه کرده است که در کاهش ابعاد فضای ویژگی تأثیر زیادی دارد و همچنین برای مقابله با حجم بسیار زیاد نمونه های آموزش، با استفاده از روش های انتخاب نمونه اولیه، به ویرایش مجموعه آموزش می پردازد. روش پیشنهادی در این مقاله در سه فاز اجرا شده است که هر فاز بهبودیافته فاز قبل است و علاوه بر دست یافتن به نتایج مناسب در هر فاز، در پایان فاز سوم روش پیشنهادی بیشترین کارایی را به دست آورد. برای ارزیابی کارایی روش پیشنهادی، این روش با یکی از الگوریتم های موفق در زمینه پیش بینی بازار مقایسه شد که با وجود کاهش نمونه های آموزش توسط الگوریتم های انتخاب نمونه اولیه، به نتایج بسیار بهتری نسبت به آن الگوریتم دست یافت.
ارائه رویکرد تنسور سه بعدی برای طبقه بندی و تشخیص اخبار جعلی: مطالعه موردی اخبار فارسی در حوزه کرونا ویروس(مقاله علمی وزارت علوم)
منبع:
علوم و فنون مدیریت اطلاعات دوره ۷ زمستان ۱۴۰۰ شماره ۴ (پیاپی ۲۵)
221 - 250
حوزههای تخصصی:
هدف: هدف پژوهش حاضر اختصاص یکی از کلاس های جعل و واقعی به متن های آزاد می باشد. شبکه های عصبی کانولوشنی به عنوان یکی از مهم ترین مدل های یادگیری عمیق، دقت بالایی را بر روی این مسائل بدست آورده است. در این تحقیق آنالیز متن در سطح جمله و بهبود عملکرد شبکه عصبی کانولوشنی جهت تشخیص اخبار جعلی مورد توجه بوده است. در اﯾﻦ ﺷﺒﮑﻪ ﻫﺎ ﮐﻠﻤﺎت ﺑﻪ ﺻﻮرت ﮐﯿﺴﻪ ای از ﮐﻠﻤﺎت ﺑﻪ ﻣﺪل داده ﻣﯽ ﺷﻮﻧﺪ ﮐﻪ ﻫﺮ ﮐﻠﻤﻪ ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﻓﻀﺎی ﺑﺮداری ﺑﻪ ﻣﺎﺗﺮﯾﺲ ﻫﺎی دو ﺑﻌﺪی ﺗﺒﺪﯾﻞ ﻣﯽ ﺷود. یکی از محدودیت های شبکه های کانولوشن این است که در سطح کلمه کار کرده و نمی تواند رابطه و فاصله بین جملات را در نظر بگیرد و آﻧﺎﻟﯿﺰ در ﺳﻄﺢ ﺟﻤﻠﻪ مشکل اساسی در این تحقیق می باشد. در این پژوهش یک مدل پایه ای مبتنی بر شبکه های کانولوشنی پیشنهاد شده که در آن اسناد به صورت تنسورهای سه بعدی به شبکه داده می شوند تا بتواند مشکل مذکور را مرتفع نماید. در نظر گرفتن تنسورهای سه بعدی امکان یادگیری موقعیت کلمات در جمله را برای مدل فراهم می آورد و به نتایج دقیق تری در تشخیص اخبار جعل دست می یابد. روش شناسی: پژوهش حاضر مطالعه ای کاربردی بوده که در آن حدود 42000 اخبار فارسی از شهرهای مختلف ایران از توییتر جمع آوری شده و با عمل پیش پردازش، داده های اضافی و غیر مفید حذف و پس از برچسب زدن متون پاک سازی شده، متن اخبار جهت رویکرد پیشنهادی با استفاده از نرم افزار پایتون پردازش شده اند. یافته ها: برخی از الگوریتم های یادگیری ماشین دارای قدرت بیشتری در مسائل طبقه بندی بودند، ولی با تغییراتی که در ساختار الگوریتم شبکه کانولوشن صورت گرفت، نتایج بهتری نسبت به الگوریتم های یادگیری ماشین و سایر الگوریتم های مشابه حاصل شد. نتیجه گیری: در نظر گرفتن تنسورهای سه بعدی امکان یادگیری موقعیت کلمات در جمله را برای مدل فراهم می آورد و این مدل پیشنهادی در مقایسه با رویکردهای پیشنهادی در ادبیات، دقت قابل توجهی را بدست آورده است. مدل پیشنهادی بدون اضافه کردن سربار اضافی از لحاظ تعداد ویژگی ها و عمق شبکه، با تغییر در ورودی توانسته است به نتایج بهتر و قابل قبول از سایر رویکردهای موجود در ادبیات دست یافته و به دقت و صحّت بیش از 94 درصد دست یابد.
ارائه رویکرد ترکیبی مبتنی بر یادگیری عمیق و یادگیری ماشین جهت تشخیص اخبار جعلی: مطالعه موردی اخبار فارسی در حوزه کرونا ویروس(مقاله علمی وزارت علوم)
منبع:
علوم و فنون مدیریت اطلاعات دوره ۸ پاییز ۱۴۰۱ شماره ۳ (پیاپی ۲۸)
283 - 316
حوزههای تخصصی:
هدف: اطلاعات غلط یا تأیید نشده، دقیقاً مانند اطلاعات دقیق در وب منتشر می شوند. بنابراین، ممکن است ویروسی شوند و بر افکار عمومی و تصمیمات آن تأثیر بگذارند. اخبار جعلی و شایعات به ترتیب محبوب ترین اشکال اطلاعات دروغ و تأیید نشده را نشان می دهند و برای جلوگیری از تأثیرات چشمگیر آنها باید در اسرع وقت کشف شوند. علاقه به تکنیک های مؤثر در شناسایی، در سال های اخیر بسیار سریع در حال افزایش است. مسئله تشخیص اخبار جعلی به عنوان یک مسئله طبقه بندی در پردازش زبان طبیعی و متن کاوی شناخته می شود و هدف آن تفکیک و تشخیص اخبار جعل از واقعی، در متن های استخراج شده و بهبود در دقت تشخیص اخبار جعلی است. شبکه های عصبی کانولوشن به عنوان یکی از مهم ترین مدل های یادگیری عمیق دقت بالایی را بر روی این مسائل بدست آورده اند. این شبکه ها شامل مشکلاتی مثل عدم در نظر گرفتن موقعیت کلمات می باشند که مسأله مذکور با استفاده از شبکه کپسول برطرف گردیده و جهت حل مشکل پردازش سنگین لایه های تمام متصل و فضای پارامتریک الگوریتم های XGBOOST و بهینه سازی ازدحام انبوه ذرات (PSO) برای دستیابی به دقت و صحّت بهینه پیشنهاد شده است. روش : مطالعه حاضر پژوهشی کاربردی بوده که در آن حدود 42000 اخبار فارسی از شهرهای مختلف ایران از توییتر جمع آوری شده و با استفاده از روش های پاک سازی و پیش پردازش، اطلاعات اضافی حذف و پس از برچسب زدن، اخبار آماده به کارگیری جهت رویکرد پیشنهادی با استفاده از نرم افزار پایتون و کتابخانه های مربوطه با الگوریتم های یادگیری ماشین و یادگیری عمیق شد. یافته ها: طی بررسی، آزمایش و تست، برخی از الگوریتم های یادگیری ماشین دارای قدرت بیشتری در مسائل طبقه بندی بودند، ولی با تغییرات و اعمال روش های پیشنهادی که در ساختار الگوریتم شبکه کانولوشن و شبکه کپسول صورت گرفت، نتایج بهینه نسبت به الگوریتم های یادگیری ماشین و سایر الگوریتم های پایه و الگوریتم های مورد ارزیابی بدست آمد. نتیجه گیری: راهکارهای پیشنهادی در این تحقیق در مقایسه با رویکردهای الگوریتم های پایه و یا راهکارهای صورت گرفته جهت حل مشکلات مذکور بدون اضافه کردن سربار اضافی از لحاظ تعداد ویژگی ها و عمق شبکه، با تغییر در ورودی توانسته است به نتایج بهتر و قابل قبول از سایر رویکردهای موجود در ادبیات دست یافته و به دقت و صحّت حدود 96 درصد دست یابد.
ارزیابی ترکیب مدل های زبانی و روش های دسته بندی برای بهبود طبقه بندی نثرهای ادبی کلاسیک فارسی(مقاله علمی وزارت علوم)
حوزههای تخصصی:
طبقه بندی متون فارسی، به ویژه نثرهای ادبی کلاسیک که سرشار از ساختارهای زبانی پیچیده و لایه های معنایی عمیق هستند، یکی از چالش های کلیدی در پردازش زبان طبیعی[1]محسوب می شود. این پژوهش با هدف ارزیابی روش های مختلف یادگیری ماشین و مدل های زبانی گوناگون برای طبقه بندی موضوعی نثرهای ادبی فارسی انجام شده است. در این مطالعه افزون بر شیوه های رایج طبقه بندی (مانند استفاده از مدل های از پیش آموزش دیده مانندmBERT،ParsBERT و RoBERTa)، از رویکردهای نوآورانه ای نیز بهره گرفته شده است. این رویکردهای نوین شامل ترکیب تعبیه سازی[2]های دو مدل با هم یا استفاده از توکن های عددی استخراج شده از یک مدل برای طبقه بندی با مدل دیگر هستند که با هدف بهینه سازی عملکرد و تجزیه وتحلیل نتایج به کار رفته اند. همچنین، تکنیک های سنتی تعبیه سازی همچون TF-IDF، Bag of Words و FastText به کار گرفته شدند و برای ارزیابی عملکرد، بردارهای استخراج شده به مدل های متنوع طبقه بندی، ازجمله مدل های شبکه عصبی بازگشتی LSTM و GRU و همچنین مدل های طبقه بندی برداری (مانند SVM[3] ،Random Forest و Logistic Regression) ارائه شدند. نوآوری این پژوهش در ترکیب تعبیه های مدل های ترنسفورمری با یکدیگر و با بردارهای ویژگی دیگر یا طبقه بندی آن ها با مدل های طبقه بندی برداری است که نتایج به دست آمده، بهبود معنادار معیارهای صحت، بازخوانی و امتیاز F1 را نشان می دهد. این رویکرد، افزون بر بهبود طبقه بندی متون فارسی، امکان شناسایی الگوهای زبانی و معنایی در نثرهای کلاسیک فارسی را فراهم می کند. همچنین، این پژوهش می تواند نقش مدل های زبانی و الگوریتم های یادگیری ماشین را در مطالعات ادبی گسترش دهد و آن ها را با نیازهای خاص متون ادبی سازگارتر و ازنظر عملکرد، دقیق تر از روش های پیشین سازد. [1]. NLP [2]. Embedding [3]. Support Vector Machine