Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR

В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структури...

Full description

Saved in:
Bibliographic Details
Published in:Современные инновации, системы и технологии Vol. 5; no. 4; pp. 2001 - 2008
Main Authors: Шаталина, Н. И., Тимошенко, Р. В., Денисенко, В. В.
Format: Journal Article
Language:English
Published: Siberian Scientific Centre DNIT 03.10.2025
Subjects:
ISSN:2782-2826, 2782-2818
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
ISSN:2782-2826
2782-2818
DOI:10.47813/2782-2818-2025-5-4-2001-2008