Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR

В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структури...

Full description

Saved in:
Bibliographic Details
Published in:Современные инновации, системы и технологии Vol. 5; no. 4; pp. 2001 - 2008
Main Authors: Шаталина, Н. И., Тимошенко, Р. В., Денисенко, В. В.
Format: Journal Article
Language:English
Published: Siberian Scientific Centre DNIT 03.10.2025
Subjects:
ISSN:2782-2826, 2782-2818
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Abstract В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
AbstractList В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
Author Денисенко, В. В.
Шаталина, Н. И.
Тимошенко, Р. В.
Author_xml – sequence: 1
  givenname: Н. И.
  surname: Шаталина
  fullname: Шаталина, Н. И.
– sequence: 2
  givenname: Р. В.
  surname: Тимошенко
  fullname: Тимошенко, Р. В.
– sequence: 3
  givenname: В. В.
  surname: Денисенко
  fullname: Денисенко, В. В.
BookMark eNo9ks9uEzEQxi1UJErpO_jCccH2rmPvgQOK-FOpUhEqZ8trOyhV6KLdXrg1LRUHkHgG3iCKqLKk3fIK49fgKRhvqhw8Ho-_7zeWPI_Jzml9Ggh5ytmzQmmePxdKi0xorjPBhMxkVmDCeAr6AdndXu9sczF6RPbb9oQxJkqRa6l2yT_4Fc9hAUvooYsXcA038Qf08Tv8oVjucd1ABysKa1jEb3Ad56hawoImW5zDX7iD1aBbDvou_qQDZz0oFxSWNGXxPF5i7SJeorHDdXdvwF7xisav2CVRemTi1VCE35iu0XeLvD7RknJO0b9pnN662pI6VN3S49C2obHu7Gj8HpX0nfV-FvDwhDyc2Fkb9u_3PfLh9avj8dvs8OjNwfjlYea4kjrzeSG5mjDOpWPBK6eCr4SXuhSCy0ryoCpb2pLbIJQrvRMusDAKSgcpbV7le-Rgw_W1PTGfm-kn23wxtZ2aoVA3H41tzqZuFgzTlRt5xydKywLblpX3uWdO5ZUOgjlkvdiwXFO3bRMmWx5nZpgDkz7XpI82aQ6MNIVJc5CCzv8D2inzyw
Cites_doi 10.18411/trnio-12-2022-456
10.1109/ICDAR.2007.4376991
10.14529/mmp240107
10.1007/978-3-030-67892-0_15
10.1109/ICSC.2016.11
ContentType Journal Article
DBID AAYXX
CITATION
DOA
DOI 10.47813/2782-2818-2025-5-4-2001-2008
DatabaseName CrossRef
Directory of Open Access Journals (Open Access)
DatabaseTitle CrossRef
DatabaseTitleList
CrossRef
Database_xml – sequence: 1
  dbid: DOA
  name: DOAJ Directory of Open Access Journals
  url: https://www.doaj.org/
  sourceTypes: Open Website
DeliveryMethod fulltext_linktorsrc
EISSN 2782-2818
EndPage 2008
ExternalDocumentID oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
10_47813_2782_2818_2025_5_4_2001_2008
GroupedDBID AAYXX
ALMA_UNASSIGNED_HOLDINGS
CITATION
GROUPED_DOAJ
ID FETCH-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3
IEDL.DBID DOA
ISSN 2782-2826
IngestDate Tue Oct 07 09:25:26 EDT 2025
Thu Oct 09 00:32:30 EDT 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 4
Language English
License https://creativecommons.org/licenses/by/4.0
LinkModel DirectLink
MergedId FETCHMERGED-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3
OpenAccessLink https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c
PageCount 8
ParticipantIDs doaj_primary_oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
crossref_primary_10_47813_2782_2818_2025_5_4_2001_2008
PublicationCentury 2000
PublicationDate 2025-10-03
PublicationDateYYYYMMDD 2025-10-03
PublicationDate_xml – month: 10
  year: 2025
  text: 2025-10-03
  day: 03
PublicationDecade 2020
PublicationTitle Современные инновации, системы и технологии
PublicationYear 2025
Publisher Siberian Scientific Centre DNIT
Publisher_xml – name: Siberian Scientific Centre DNIT
References 8970
8971
8980
8963
8974
8964
8975
8972
8962
8973
8967
8978
8968
8979
8965
8976
8966
8977
8969
References_xml – ident: 8962
  doi: 10.18411/trnio-12-2022-456
– ident: 8966
– ident: 8967
  doi: 10.1109/ICDAR.2007.4376991
– ident: 8969
– ident: 8964
– ident: 8975
  doi: 10.14529/mmp240107
– ident: 8968
– ident: 8963
  doi: 10.1007/978-3-030-67892-0_15
– ident: 8965
  doi: 10.14529/mmp240107
– ident: 8973
– ident: 8974
  doi: 10.1007/978-3-030-67892-0_15
– ident: 8971
– ident: 8977
  doi: 10.1109/ICDAR.2007.4376991
– ident: 8980
  doi: 10.1109/ICSC.2016.11
– ident: 8978
– ident: 8979
– ident: 8972
  doi: 10.18411/trnio-12-2022-456
– ident: 8976
– ident: 8970
  doi: 10.1109/ICSC.2016.11
SSID ssj0002923857
Score 1.9234779
Snippet В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании...
SourceID doaj
crossref
SourceType Open Website
Index Database
StartPage 2001
SubjectTerms OCR, оптическое распознавание символов, Tesseract, PaddlePaddle, PaddleOCR, качество распознавания, документооборот, 2-НДФЛ, договор купли-продажи, компьютерное зрение, машинное обучение
Title Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR
URI https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c
Volume 5
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVAON
  databaseName: DOAJ Directory of Open Access Journals
  customDbUrl:
  eissn: 2782-2818
  dateEnd: 99991231
  omitProxy: false
  ssIdentifier: ssj0002923857
  issn: 2782-2826
  databaseCode: DOA
  dateStart: 20210101
  isFulltext: true
  titleUrlDefault: https://www.doaj.org/
  providerName: Directory of Open Access Journals
link http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV3BbtQwELVQhRAXBAJEKSAf4Gg1sZPYOUJFxalUqEi9RYntSFwWVBbO3RbEASS-gT9Yrah22TblF8a_wVcw44RqOXHhEMmZzIytvJFnJnJmGHuIIQc6jlKJVNWYoLQyEybXXjh0Fka5NjNtG5tN6J0ds79f7q60-qIzYX154P7FbSamsYWzaatNLKZVNs4pl1itGuNlYmn3TXS5kkzRHiwxbjGxzKdEFygwryiusEe4Q9CflWpzIKZkJDIXuchEPFtEhwH-clArdfyjw9m-zq4NkSJ_3K_wBrvkRzfZL_gWDmEKM-hgEY7gBE7DF-jCZ_jBkdzhdQoLmHNYwjR8gpMwQa4ZTDmJhQn8hHOYR75Z5F-ErzzqWUbOKYcZp1E4DMdIOwrHKLjA63wQwLnCRx4-4CykpUOd-CgS4TsOlyh3hvo60kacE47y_cS01vmFpgVynfG9WLy8tuPnWy-Qk-_W9MUEb26xl9tP97aeiaFdg7AYgxjhFMKjW4oxbeKdttq7RrrclBLjiiZPvW7qsi7T2kttS2el9YkvvDY-z2vVqNtsbfR65O8wniLM0uSytU5mKmtqWWBmJ21ZeN9krV1nxR-Mqjd9VY4Ks5kIbkXgVgRuReBWeZVRr800NtxcZ08I0QshKq4dCWhy1WBy1b9M7u7_ULLBrkbbo7MI6h5bGx-88_fZZft-_OrtwYNozb8BtBE-wQ
linkProvider Directory of Open Access Journals
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7+%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0+%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F+%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0+%D0%B2+%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85+%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85+%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%85+%D1%81+%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC+TesseractOCR+%D0%B8+PaddleOCR&rft.jtitle=%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5+%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8%2C+%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B+%D0%B8+%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8&rft.au=%D0%9D.+%D0%98.+%D0%A8%D0%B0%D1%82%D0%B0%D0%BB%D0%B8%D0%BD%D0%B0&rft.au=%D0%A0.+%D0%92.+%D0%A2%D0%B8%D0%BC%D0%BE%D1%88%D0%B5%D0%BD%D0%BA%D0%BE&rft.au=%D0%92.+%D0%92.+%D0%94%D0%B5%D0%BD%D0%B8%D1%81%D0%B5%D0%BD%D0%BA%D0%BE&rft.date=2025-10-03&rft.pub=Siberian+Scientific+Centre+DNIT&rft.issn=2782-2826&rft.eissn=2782-2818&rft.volume=5&rft.issue=4&rft_id=info:doi/10.47813%2F2782-2818-2025-5-4-2001-2008&rft.externalDBID=DOA&rft.externalDocID=oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2782-2826&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2782-2826&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2782-2826&client=summon