Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR
В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структури...
Saved in:
| Published in: | Современные инновации, системы и технологии Vol. 5; no. 4; pp. 2001 - 2008 |
|---|---|
| Main Authors: | , , |
| Format: | Journal Article |
| Language: | English |
| Published: |
Siberian Scientific Centre DNIT
03.10.2025
|
| Subjects: | |
| ISSN: | 2782-2826, 2782-2818 |
| Online Access: | Get full text |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Abstract | В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота. |
|---|---|
| AbstractList | В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании проводится сравнительный анализ двух ведущих open-source OCR-решений – TesseractOCR и PaddleOCR – для распознавания текста на двух типах структурированных финансовых документов: договорах купли-продажи и справках по форме 2-НДФЛ. Целью данной работы является определение наиболее эффективного инструмента извлечения текста для каждого типа документа на основе объективных метрик качества распознавания: коэффициент ошибок в словах и частота ошибок символов. Данные для исследования подготавливались синтетически, максимально приближенные к реальным условиям. Рассматривались различные углы сканирования, артефакты сжатия и неидеальное качество печати. По результатам исследования можно сказать, что PaddleOCR, основанный на современных нейросетевых архитектурах, показывает статистически значимое превосходство в обработке сложных макетов и табличных данных справки 2-НДФЛ, в то время как TesseractOCR остается надежным выбором для сплошных текстов договоров при условии высокого качества изображения. Полученные данные позволяют сформулировать рекомендации по выбору OCR-движка в зависимости от специфики решаемой задачи автоматизации документооборота. |
| Author | Денисенко, В. В. Шаталина, Н. И. Тимошенко, Р. В. |
| Author_xml | – sequence: 1 givenname: Н. И. surname: Шаталина fullname: Шаталина, Н. И. – sequence: 2 givenname: Р. В. surname: Тимошенко fullname: Тимошенко, Р. В. – sequence: 3 givenname: В. В. surname: Денисенко fullname: Денисенко, В. В. |
| BookMark | eNo9ks9uEzEQxi1UJErpO_jCccH2rmPvgQOK-FOpUhEqZ8trOyhV6KLdXrg1LRUHkHgG3iCKqLKk3fIK49fgKRhvqhw8Ho-_7zeWPI_Jzml9Ggh5ytmzQmmePxdKi0xorjPBhMxkVmDCeAr6AdndXu9sczF6RPbb9oQxJkqRa6l2yT_4Fc9hAUvooYsXcA038Qf08Tv8oVjucd1ABysKa1jEb3Ad56hawoImW5zDX7iD1aBbDvou_qQDZz0oFxSWNGXxPF5i7SJeorHDdXdvwF7xisav2CVRemTi1VCE35iu0XeLvD7RknJO0b9pnN662pI6VN3S49C2obHu7Gj8HpX0nfV-FvDwhDyc2Fkb9u_3PfLh9avj8dvs8OjNwfjlYea4kjrzeSG5mjDOpWPBK6eCr4SXuhSCy0ryoCpb2pLbIJQrvRMusDAKSgcpbV7le-Rgw_W1PTGfm-kn23wxtZ2aoVA3H41tzqZuFgzTlRt5xydKywLblpX3uWdO5ZUOgjlkvdiwXFO3bRMmWx5nZpgDkz7XpI82aQ6MNIVJc5CCzv8D2inzyw |
| Cites_doi | 10.18411/trnio-12-2022-456 10.1109/ICDAR.2007.4376991 10.14529/mmp240107 10.1007/978-3-030-67892-0_15 10.1109/ICSC.2016.11 |
| ContentType | Journal Article |
| DBID | AAYXX CITATION DOA |
| DOI | 10.47813/2782-2818-2025-5-4-2001-2008 |
| DatabaseName | CrossRef DOAJ Directory of Open Access Journals |
| DatabaseTitle | CrossRef |
| DatabaseTitleList | CrossRef |
| Database_xml | – sequence: 1 dbid: DOA name: DOAJ Directory of Open Access Journals url: https://www.doaj.org/ sourceTypes: Open Website |
| DeliveryMethod | fulltext_linktorsrc |
| EISSN | 2782-2818 |
| EndPage | 2008 |
| ExternalDocumentID | oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c 10_47813_2782_2818_2025_5_4_2001_2008 |
| GroupedDBID | AAYXX ALMA_UNASSIGNED_HOLDINGS CITATION GROUPED_DOAJ |
| ID | FETCH-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3 |
| IEDL.DBID | DOA |
| ISSN | 2782-2826 |
| IngestDate | Tue Oct 07 09:25:26 EDT 2025 Thu Oct 09 00:32:30 EDT 2025 |
| IsDoiOpenAccess | true |
| IsOpenAccess | true |
| IsPeerReviewed | false |
| IsScholarly | false |
| Issue | 4 |
| Language | English |
| License | https://creativecommons.org/licenses/by/4.0 |
| LinkModel | DirectLink |
| MergedId | FETCHMERGED-LOGICAL-c1758-d34517f0115c0ed7c7edb2d5892215b51e7ba9a91ae27c9dc2ce0e6e78e55a3b3 |
| OpenAccessLink | https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c |
| PageCount | 8 |
| ParticipantIDs | doaj_primary_oai_doaj_org_article_08bc6dc1f78544519bdd3d0c73b8e20c crossref_primary_10_47813_2782_2818_2025_5_4_2001_2008 |
| PublicationCentury | 2000 |
| PublicationDate | 2025-10-03 |
| PublicationDateYYYYMMDD | 2025-10-03 |
| PublicationDate_xml | – month: 10 year: 2025 text: 2025-10-03 day: 03 |
| PublicationDecade | 2020 |
| PublicationTitle | Современные инновации, системы и технологии |
| PublicationYear | 2025 |
| Publisher | Siberian Scientific Centre DNIT |
| Publisher_xml | – name: Siberian Scientific Centre DNIT |
| References | 8970 8971 8980 8963 8974 8964 8975 8972 8962 8973 8967 8978 8968 8979 8965 8976 8966 8977 8969 |
| References_xml | – ident: 8962 doi: 10.18411/trnio-12-2022-456 – ident: 8966 – ident: 8967 doi: 10.1109/ICDAR.2007.4376991 – ident: 8969 – ident: 8964 – ident: 8975 doi: 10.14529/mmp240107 – ident: 8968 – ident: 8963 doi: 10.1007/978-3-030-67892-0_15 – ident: 8965 doi: 10.14529/mmp240107 – ident: 8973 – ident: 8974 doi: 10.1007/978-3-030-67892-0_15 – ident: 8971 – ident: 8977 doi: 10.1109/ICDAR.2007.4376991 – ident: 8980 doi: 10.1109/ICSC.2016.11 – ident: 8978 – ident: 8979 – ident: 8972 doi: 10.18411/trnio-12-2022-456 – ident: 8976 – ident: 8970 doi: 10.1109/ICSC.2016.11 |
| SSID | ssj0002923857 |
| Score | 1.9234779 |
| Snippet | В эпоху цифровой трансформации задача автоматического извлечения информации из сканированных документов остается критически важной. В данном исследовании... |
| SourceID | doaj crossref |
| SourceType | Open Website Index Database |
| StartPage | 2001 |
| SubjectTerms | OCR, оптическое распознавание символов, Tesseract, PaddlePaddle, PaddleOCR, качество распознавания, документооборот, 2-НДФЛ, договор купли-продажи, компьютерное зрение, машинное обучение |
| Title | Сравнительный анализ качества распознавания текста в структурированных финансовых документах с использованием TesseractOCR и PaddleOCR |
| URI | https://doaj.org/article/08bc6dc1f78544519bdd3d0c73b8e20c |
| Volume | 5 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals customDbUrl: eissn: 2782-2818 dateEnd: 99991231 omitProxy: false ssIdentifier: ssj0002923857 issn: 2782-2826 databaseCode: DOA dateStart: 20210101 isFulltext: true titleUrlDefault: https://www.doaj.org/ providerName: Directory of Open Access Journals |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrV1PaxUxEA9SRLyIomL9Rw56DN1kd1-yRy0WD1KLVOhtyb8FL0-pT899reJBwc_gN3g8LG997davkHwNP4Uz2bU8T148BLKzM5OwMySTZfIbQh40TgnplGPOmowVFiFvpeSsacpGF1pm3KSLws_k9rba26t2Vkp9YU5YDw_cf7iNTBk7cpY3UiUwrco4l7vMytwoLzKLq28mq5XDFK7BAuIWlWA-BWyBDM4Vo0vkIawQeLMy3xiIHJ1ElKxkBUu5RZgM8NcGtYLjnzacravkyhAp0kf9DK-RC358nfwK3-JBmIV56EIbD8NxOIlfQhc_hx8UyB20k9CGBQ3LMIufwnGcAtc8zCiKxWn4Gc7CIvHNE38bv9KkZ5k4ZzTMKfbiQTwC2mE8AsEW2tkgAGPFjzR-gFFQSwc64VUihu_QXYLcKejrUBtyTinI9wPjXBfnmlrgOqW7Cbxc28nzzRfASXc0_jGBhxvk5daT3c2nbCjXwCzEIIq5HMwjG4wxbeadtNI7I1ypKgFxhSm5l0ZXuuLaC2krZ4X1mR95qXxZ6tzkN8na-PXY3yLUa94UhiulNeyyqlKGg70r13hhlPB6nYz-2Kh-06Ny1HCaScat0bg1GrdG49ZlXWCtTZ4Kbq6Tx2jRcyEE104EcLl6cLn6Xy53-38ouUMuJ9_DXIT8Llmb7L_z98hF-37y6u3-_eTNvwEyp0Bl |
| linkProvider | Directory of Open Access Journals |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%D0%A1%D1%80%D0%B0%D0%B2%D0%BD%D0%B8%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B9+%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7+%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0+%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F+%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0+%D0%B2+%D1%81%D1%82%D1%80%D1%83%D0%BA%D1%82%D1%83%D1%80%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D1%85+%D1%84%D0%B8%D0%BD%D0%B0%D0%BD%D1%81%D0%BE%D0%B2%D1%8B%D1%85+%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%85+%D1%81+%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%D0%BC+TesseractOCR+%D0%B8+PaddleOCR&rft.jtitle=%D0%A1%D0%BE%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5+%D0%B8%D0%BD%D0%BD%D0%BE%D0%B2%D0%B0%D1%86%D0%B8%D0%B8%2C+%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B+%D0%B8+%D1%82%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D0%B8&rft.au=%D0%A8%D0%B0%D1%82%D0%B0%D0%BB%D0%B8%D0%BD%D0%B0%2C+%D0%9D.+%D0%98.&rft.au=%D0%A2%D0%B8%D0%BC%D0%BE%D1%88%D0%B5%D0%BD%D0%BA%D0%BE%2C+%D0%A0.+%D0%92.&rft.au=%D0%94%D0%B5%D0%BD%D0%B8%D1%81%D0%B5%D0%BD%D0%BA%D0%BE%2C+%D0%92.+%D0%92.&rft.date=2025-10-03&rft.issn=2782-2826&rft.eissn=2782-2818&rft.volume=5&rft.issue=4&rft.spage=2001&rft.epage=2008&rft_id=info:doi/10.47813%2F2782-2818-2025-5-4-2001-2008&rft.externalDBID=n%2Fa&rft.externalDocID=10_47813_2782_2818_2025_5_4_2001_2008 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2782-2826&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2782-2826&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2782-2826&client=summon |