Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”
Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posterior...
Gespeichert in:
| Veröffentlicht in: | Revista Ibero-americana de Ciência da Informação Jg. 16; H. 1; S. 167 - 184 |
|---|---|
| Hauptverfasser: | , , , |
| Format: | Journal Article |
| Sprache: | Portugiesisch |
| Veröffentlicht: |
27.03.2023
|
| ISSN: | 1983-5213, 1983-5213 |
| Online-Zugang: | Volltext |
| Tags: |
Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
|
| Abstract | Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.
Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.
Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra. |
|---|---|
| AbstractList | Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra.
Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters.
Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra. |
| Author | Albuquerque, Ana Cristina de Triques, Maria Lígia Jesus, Ananda Fernanda de Segundo, José Eduardo Santarem |
| Author_xml | – sequence: 1 givenname: Ananda Fernanda de orcidid: 0000-0001-7873-6040 surname: Jesus fullname: Jesus, Ananda Fernanda de – sequence: 2 givenname: Maria Lígia orcidid: 0000-0002-0450-7138 surname: Triques fullname: Triques, Maria Lígia – sequence: 3 givenname: José Eduardo Santarem orcidid: 0000-0003-3360-7872 surname: Segundo fullname: Segundo, José Eduardo Santarem – sequence: 4 givenname: Ana Cristina de orcidid: 0000-0003-3506-0479 surname: Albuquerque fullname: Albuquerque, Ana Cristina de |
| BookMark | eNpNkE1OwzAQhS1UJErpGfAFEuw4iRN2qOJPqgQLWEcTxwlGiV3ZCRKsegbWsGLBih03yE16EtzCgtU86c28efoO0UQbLRE6piSM0oRGJ1YJFT7RNNQ0jEjEwpgnjO-hKc0zFiQRZZN_-gDNnXskhFAWRyylU_R6a42QzkEndW9wJXGrdDNAIzusoR8stFjiDsSD0t6TYLX3vYUF9LIxVr3A-Dl-7E7B9qoxDgvlw8avWgnjTvHQYen6oTLYZ_bGar9r8Gb9toLeqm781spgMbS7Z5v1-xHar6F1cv43Z-j-4vxucRUsby6vF2fLQFCa9QFkdULTTJZJVCcZK5M6Bp56KbnICSclyYBAVMWpSOuS8zjhFalYnlNGAFLOZoj_5gprnLOyLla-DtjngpJiR7fY0i083ULTYku32NFlPzdfeX4 |
| ContentType | Journal Article |
| DBID | AAYXX CITATION |
| DOI | 10.26512/rici.v16.n1.2023.47537 |
| DatabaseName | CrossRef |
| DatabaseTitle | CrossRef |
| DatabaseTitleList | CrossRef |
| DeliveryMethod | fulltext_linktorsrc |
| Discipline | Library & Information Science |
| EISSN | 1983-5213 |
| EndPage | 184 |
| ExternalDocumentID | 10_26512_rici_v16_n1_2023_47537 |
| GroupedDBID | 5VS 91A AAYXX ADBBV ALMA_UNASSIGNED_HOLDINGS BCNDV CITATION FAEIB GROUPED_DOAJ KQ8 M~E OK1 RNS |
| ID | FETCH-LOGICAL-c118t-a8f5168eb52f583b5f4a76f58e7c9070b08a0a2d46c6fb77457d0d399130aa673 |
| ISSN | 1983-5213 |
| IngestDate | Sat Nov 29 03:45:09 EST 2025 |
| IsPeerReviewed | true |
| IsScholarly | true |
| Issue | 1 |
| Language | Portuguese |
| License | https://creativecommons.org/licenses/by/4.0 |
| LinkModel | OpenURL |
| MergedId | FETCHMERGED-LOGICAL-c118t-a8f5168eb52f583b5f4a76f58e7c9070b08a0a2d46c6fb77457d0d399130aa673 |
| ORCID | 0000-0002-0450-7138 0000-0003-3506-0479 0000-0001-7873-6040 0000-0003-3360-7872 |
| PageCount | 18 |
| ParticipantIDs | crossref_primary_10_26512_rici_v16_n1_2023_47537 |
| PublicationCentury | 2000 |
| PublicationDate | 2023-03-27 |
| PublicationDateYYYYMMDD | 2023-03-27 |
| PublicationDate_xml | – month: 03 year: 2023 text: 2023-03-27 day: 27 |
| PublicationDecade | 2020 |
| PublicationTitle | Revista Ibero-americana de Ciência da Informação |
| PublicationYear | 2023 |
| SSID | ssj0001342361 |
| Score | 2.1596224 |
| Snippet | Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de... |
| SourceID | crossref |
| SourceType | Index Database |
| StartPage | 167 |
| Title | Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural” |
| Volume | 16 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| journalDatabaseRights | – providerCode: PRVAON databaseName: DOAJ Directory of Open Access Journals customDbUrl: eissn: 1983-5213 dateEnd: 20231231 omitProxy: false ssIdentifier: ssj0001342361 issn: 1983-5213 databaseCode: DOA dateStart: 20080101 isFulltext: true titleUrlDefault: https://www.doaj.org/ providerName: Directory of Open Access Journals – providerCode: PRVHPJ databaseName: ROAD: Directory of Open Access Scholarly Resources customDbUrl: eissn: 1983-5213 dateEnd: 99991231 omitProxy: false ssIdentifier: ssj0001342361 issn: 1983-5213 databaseCode: M~E dateStart: 20080101 isFulltext: true titleUrlDefault: https://road.issn.org providerName: ISSN International Centre |
| link | http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwtV1Jb9QwFLbawoELYhVbKx8QFytD9oVbmYJAKhVSC-otcmJnFKmTjDKTUdVD1d_AGU4cOHHjH8w_6S_hPdvJTEsl6IHDRJETPyexv3mL30LIcyELUQgntsLcE5af-a7Fw0RavpsHObR5iaqi8Hk32tuLDw-Tj2vroouFmR9FVRUfHyeT_zrV0AaTjaGz15junig0wDlMOhxh2uH4TxNvXP85mv1qJiTDgHM0SY6ZyuIJc4JOq-hDKbuiESO4xNA3alQ35QlXu-eROnqKBA4zqqdMRU-q9p0ClpByp2vHTGKS2prBCKDBV9CjZp0TxRCN7eUY-7z2q7JmXaqP7oadVfEYdypAXGXv0Y3F4mY3ieMjDEs17jamB2ECbtFxVBcetXcHktNWV1lGGzlnxljOdS10baloMHHt1IQrAcld_VqjsudT-3LUVqI2-yTaowAdYgBTNduHFckbY_dGwBxlLRBs4GcGxopp8P9Z9aMa24rroXOZTlVg2EESe6Cq62jZgbyireMh4R9Y0QzB0cVGjGzh6HJ4l9mWG4LYBesKvmk5mDvhoELLhesNfFAmoyWn7rwTLjHw3q0SFDpFKkVCKRBKKydFQqkitE5uuFGQoOPjh9MVSyQmgdSJhbtX046QitbLqx9qRYxbkccO7pDbRpGi2xoAd8naZHaPbJowHPqCmvWBOKOGgd0nXy6AgwpJe3BQAw4qqQEH7cABl-gSHIsfi--qqwEFVaBY_FSAeEXbMdVwoEBTwYHC-fnZVw2ExS8AAe1AcH727QH59PbNwfCdZaqSWDko4zOLx0XghLHMArcIYi8LCp9HIZzKKE-AgWZ2zG3uCj_MwyID7SqIhC1ADwBpkfMw8h6Sjaqu5CNC7RyE6yB2ImCzvmOLxLd9aMoSbudBmInHxO4-cjrRyWfSv8zxk-t3eUpuLdf-M7Ixa1q5SW7m81k5bbaUkWpLrZjfSVPZFw |
| linkProvider | ISSN International Centre |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=Processamento+de+linguagem+natural+e+machine+learning+na+categoriza%C3%A7%C3%A3o+de+artigos+cient%C3%ADficos%3A+um+estudo+em+torno+do+%E2%80%9Cpatrim%C3%B4nio+cultural%E2%80%9D&rft.jtitle=Revista+Ibero-americana+de+Ci%C3%AAncia+da+Informa%C3%A7%C3%A3o&rft.au=Jesus%2C+Ananda+Fernanda+de&rft.au=Triques%2C+Maria+L%C3%ADgia&rft.au=Segundo%2C+Jos%C3%A9+Eduardo+Santarem&rft.au=Albuquerque%2C+Ana+Cristina+de&rft.date=2023-03-27&rft.issn=1983-5213&rft.eissn=1983-5213&rft.volume=16&rft.issue=1&rft.spage=167&rft.epage=184&rft_id=info:doi/10.26512%2Frici.v16.n1.2023.47537&rft.externalDBID=n%2Fa&rft.externalDocID=10_26512_rici_v16_n1_2023_47537 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1983-5213&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1983-5213&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1983-5213&client=summon |