تشخیص متن در اسناد فارسی چاپی بر اساس شبکه های عصبی بازگشتی (مقاله علمی وزارت علوم)
درجه علمی: نشریه علمی (وزارت علوم)
آرشیو
چکیده
تشخیص خودکار متن فارسی به دلیل ویژگی های یکتای خط فارسی از جمله ساختار پیوسته، اشتراک بالای ویژگی های بصری بین حروف، و تنوع بالای نوشتاری حروف با توجه به موقعیت آنان در کلمه همواره چالش برانگیز بوده است. هدف این پژوهش ارائه یک مدل نویسه خوانی نوری است که بتواند اسناد چاپی و علمی فارسی را که شامل پایان نامه ها، مقالات و کتب فارسی است، به متن قابل ویرایش تبدیل کند. این امر برای برچسب گذاری، فهرست بندی و بازیابی اطلاعات در پایگاه داده ها یک ضرورت محسوب می شود. این مقاله رویکردی ترکیبی مبتنی بر معماری های یادگیری عمیق برای تشخیص متن فارسی ارائه می دهد. در این روش از شبکه های عصبی پیچشی برای استخراج ویژگی ها و از شبکه های عصبی بازگشتی برای تشخیص کلمات استفاده می شود. مزیت اصلی این مدل، توانایی آن در تشخیص مستقیم متن چاپی فارسی بدون نیاز به پیش پردازش های پیچیده مانند ناحیه بندی حروف است. مدل پیشنهادی با استفاده از یک مجموعه داده اختصاصی و بزرگ، شامل بیش از دو میلیون نمونه که با پنج فونت متداول فارسی تولید شده ، آموزش داده شده است. مدل معرفی شده دقت 81 درصد در تشخیص حروف فارسی و 60 درصد در تشخیص کلمات دارد. عمده ترین خطاها در کلمات مرتبط با نیم فاصله و علائم بود.Text Recognition in Printed Persian Documents Based on Recurrent Neural Networks
Automatic Persian text recognition has always been challenging due to the unique characteristics of the Persian script, including its connected structure, the high visual similarity between letters, and the significant variation in the shape of letters depending on their position within a word. The aim of this research is to develop an optical character recognition (OCR) model capable of converting Persian printed and scientific documents, including theses, articles, and books, into editable texts. Such a model is essential for tasks like labeling, indexing, and information retrieval in databases. This paper proposes a hybrid approach based on deep learning architectures for Persian text recognition. In this method, convolutional neural networks (CNNs) are used for feature extraction and recurrent neural networks (RNNs) for word recognition. The main advantage of this model is its ability to directly recognize Persian printed text without relying on complex preprocessing steps, such as letter segmentation. The proposed model is trained on a large and dedicated dataset, comprising over two million samples generated in five common Persian fonts. The model achieves an accuracy of 81 per cent in recognizing Persian letters and 60 per cent in recognizing words. The most common errors occur in words related to semi-spaces and signs.








