Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR

В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структури...

Celý popis

Uloženo v:
Podrobná bibliografie
Vydáno v:Современные инновации, системы и технологии Ročník 5; číslo 4; s. 2001 - 2008
Hlavní autoři: Шаталина, Н. И., Тимошенко, Р. В., Денисенко, В. В.
Médium: Journal Article
Jazyk:angličtina
Vydáno: Siberian Scientific Centre DNIT 03.10.2025
Témata:
ISSN:2782-2826, 2782-2818
On-line přístup:Získat plný text
Tagy: Přidat tag
Žádné tagy, Buďte první, kdo vytvoří štítek k tomuto záznamu!
Abstract В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
AbstractList В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота.
Author Денисенко, В. В.
Шаталина, Н. И.
Тимошенко, Р. В.
Author_xml – sequence: 1
  givenname: Н. И.
  surname: Шаталина
  fullname: Шаталина, Н. И.
– sequence: 2
  givenname: Р. В.
  surname: Тимошенко
  fullname: Тимошенко, Р. В.
– sequence: 3
  givenname: В. В.
  surname: Денисенко
  fullname: Денисенко, В. В.
BookMark eNo9ks9uEzEQxi1UJErpO_jCccH2rmPvgQOK-FOpUhEqZ8trOyhV6KLdXrg1LRUHkHgG3iCKqLKk3fIK49fgKRhvqhw8Ho-_7zeWPI_Jzml9Ggh5ytmzQmmePxdKi0xorjPBhMxkVmDCeAr6AdndXu9sczF6RPbb9oQxJkqRa6l2yT_4Fc9hAUvooYsXcA038Qf08Tv8oVjucd1ABysKa1jEb3Ad56hawoImW5zDX7iD1aBbDvou_qQDZz0oFxSWNGXxPF5i7SJeorHDdXdvwF7xisav2CVRemTi1VCE35iu0XeLvD7RknJO0b9pnN662pI6VN3S49C2obHu7Gj8HpX0nfV-FvDwhDyc2Fkb9u_3PfLh9avj8dvs8OjNwfjlYea4kjrzeSG5mjDOpWPBK6eCr4SXuhSCy0ryoCpb2pLbIJQrvRMusDAKSgcpbV7le-Rgw_W1PTGfm-kn23wxtZ2aoVA3H41tzqZuFgzTlRt5xydKywLblpX3uWdO5ZUOgjlkvdiwXFO3bRMmWx5nZpgDkz7XpI82aQ6MNIVJc5CCzv8D2inzyw
Cites_doi 10.18411/trnio-12-2022-456
10.1109/ICDAR.2007.4376991
10.14529/mmp240107
10.1007/978-3-030-67892-0_15
10.1109/ICSC.2016.11
ContentType Journal Article
DBID AAYXX
CITATION
DOA
DOI 10.47813/2782-2818-2025-5-4-2001-2008
DatabaseName CrossRef
DOAJ Directory of Open Access Journals
DatabaseTitle CrossRef
DatabaseTitleList
CrossRef
Database_xml – sequence: 1
  dbid: DOA
  name: DOAJ Directory of Open Access Journals
  url: https://www.doaj.org/
  sourceTypes: Open Website
DeliveryMethod fulltext_linktorsrc
EISSN 2782-2818
EndPage 2008
ExternalDocumentID oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
10_47813_2782_2818_2025_5_4_2001_2008
GroupedDBID AAYXX
ALMA_UNASSIGNED_HOLDINGS
CITATION
GROUPED_DOAJ
ID FETCH-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3
IEDL.DBID DOA
ISSN 2782-2826
IngestDate Tue Oct 07 09:25:26 EDT 2025
Thu Oct 09 00:32:30 EDT 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 4
Language English
License https://creativecommons.org/licenses/by/4.0
LinkModel DirectLink
MergedId FETCHMERGED-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3
OpenAccessLink https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c
PageCount 8
ParticipantIDs doaj_primary_oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
crossref_primary_10_47813_2782_2818_2025_5_4_2001_2008
PublicationCentury 2000
PublicationDate 2025-10-03
PublicationDateYYYYMMDD 2025-10-03
PublicationDate_xml – month: 10
  year: 2025
  text: 2025-10-03
  day: 03
PublicationDecade 2020
PublicationTitle Современные инновации, системы и технологии
PublicationYear 2025
Publisher Siberian Scientific Centre DNIT
Publisher_xml – name: Siberian Scientific Centre DNIT
References 8970
8971
8980
8963
8974
8964
8975
8972
8962
8973
8967
8978
8968
8979
8965
8976
8966
8977
8969
References_xml – ident: 8962
  doi: 10.18411/trnio-12-2022-456
– ident: 8966
– ident: 8967
  doi: 10.1109/ICDAR.2007.4376991
– ident: 8969
– ident: 8964
– ident: 8975
  doi: 10.14529/mmp240107
– ident: 8968
– ident: 8963
  doi: 10.1007/978-3-030-67892-0_15
– ident: 8965
  doi: 10.14529/mmp240107
– ident: 8973
– ident: 8974
  doi: 10.1007/978-3-030-67892-0_15
– ident: 8971
– ident: 8977
  doi: 10.1109/ICDAR.2007.4376991
– ident: 8980
  doi: 10.1109/ICSC.2016.11
– ident: 8978
– ident: 8979
– ident: 8972
  doi: 10.18411/trnio-12-2022-456
– ident: 8976
– ident: 8970
  doi: 10.1109/ICSC.2016.11
SSID ssj0002923857
Score 1.9234779
Snippet В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании...
SourceID doaj
crossref
SourceType Open Website
Index Database
StartPage 2001
SubjectTerms OCR, оптическое распознавание символов, Tesseract, PaddlePaddle, PaddleOCR, качество распознавания, документооборот, 2-НДФЛ, договор купли-продажи, компьютерное зрение, машинное обучение
Title Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR
URI https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c
Volume 5
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVAON
  databaseName: DOAJ Directory of Open Access Journals
  customDbUrl:
  eissn: 2782-2818
  dateEnd: 99991231
  omitProxy: false
  ssIdentifier: ssj0002923857
  issn: 2782-2826
  databaseCode: DOA
  dateStart: 20210101
  isFulltext: true
  titleUrlDefault: https://www.doaj.org/
  providerName: Directory of Open Access Journals
link http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV3NbtQwELZQhRAXBAJE-ZMPcLSa2E7sHKGi4oBKhYrUWxT_rMRlQWXh3G1BHEDiGXiD1Ypqw7Ypr2C_Bk_BjBOq5cSFgyVn8s3Yykw848iZIeSBcLpw1khWmswx2eA7V0jOLLgWjUVRhpT5z9T2tt7bq3ZWSn3hmbA-PXD_4DYybWzpbD5SOiXTqoxzwmVWCaM9zyyuvpmqVjZTuAZziFt0SvPJwQUy2FeUl8hDWCHwz0qxMRBzNBJesIJJls4W4WGAvxzUSh7_5HC2rpIrQ6RIH_UzvEYu-PF18it8iwdhFuahC208DMfhJH4JXfwcflAgd9BOQhsWNCzDLH4Kx3EKqHmYUWSL0_AznIVFws0Tvo1faZKzTMgZDXOKvXgQj4B2GI-AsYV2NjDAWPEjjR9gFJTSgUy4lYjhO3SXwHcK8jqUhsgpBf5-YJzr4lxSC6hTupuSlzd28nzzBSDpToNfTODiBnm59WR38ykbyjUwCzGIZk6AetQIY0ybeaes8s5wV-iKQ1xhitwr01RNlTeeK1s5y63PfOmV9kXRCCNukrXx67G_RSgYUO5lzgFpJDei8k5YY6UcCV0qadZJ-UdH9Zs-K0cNu5mk3BqVW6Nya1RuXdQSa23mqeDmOnmMGj1nwuTaiQAmVw8mV__L5G7_DyF3yOVke3gWQdwla5P9d_4euWjfT1693b-frPk3TXA_Bg
linkProvider Directory of Open Access Journals
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7+%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0+%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F+%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0+%D0%B2+%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85+%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85+%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%85+%D1%81+%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC+TesseractOCR+%D0%B8+PaddleOCR&rft.jtitle=%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5+%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8%2C+%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B+%D0%B8+%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8&rft.au=%D0%9D.+%D0%98.+%D0%A8%D0%B0%D1%82%D0%B0%D0%BB%D0%B8%D0%BD%D0%B0&rft.au=%D0%A0.+%D0%92.+%D0%A2%D0%B8%D0%BC%D0%BE%D1%88%D0%B5%D0%BD%D0%BA%D0%BE&rft.au=%D0%92.+%D0%92.+%D0%94%D0%B5%D0%BD%D0%B8%D1%81%D0%B5%D0%BD%D0%BA%D0%BE&rft.date=2025-10-03&rft.pub=Siberian+Scientific+Centre+DNIT&rft.issn=2782-2826&rft.eissn=2782-2818&rft.volume=5&rft.issue=4&rft_id=info:doi/10.47813%2F2782-2818-2025-5-4-2001-2008&rft.externalDBID=DOA&rft.externalDocID=oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2782-2826&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2782-2826&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2782-2826&client=summon