Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”

Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posterior...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Veröffentlicht in:Revista Ibero-americana de Ciência da Informação Jg. 16; H. 1; S. 167 - 184
Hauptverfasser: Jesus, Ananda Fernanda de, Triques, Maria Lígia, Segundo, José Eduardo Santarem, Albuquerque, Ana Cristina de
Format: Journal Article
Sprache:Portugiesisch
Veröffentlicht: 27.03.2023
ISSN:1983-5213, 1983-5213
Online-Zugang:Volltext
Tags: Tag hinzufügen
Keine Tags, Fügen Sie den ersten Tag hinzu!
Abstract Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra. Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters. Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.
AbstractList Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de artigos científicos sobre a temática “patrimônio cultural” a partir de duas situações em que categorias são estabelecidas a priori e a posteriori. Desenvolve-se uma pesquisa aplicada, com resultados quantitativos e qualitativos. O primeiro corpus é constituído de artigos científicos em português, em base temática da Ciência da Informação, selecionados e categorizados manualmente; e o segundo corpus, composto por artigos científicos em inglês recuperados na Web of Science, categorizados de forma automática por estratégias de busca e aplicação de booleanos. Ambos foram submetidos à dois procedimentos de teste de categorização (algoritmo supervisionado e não supervisionado). Os resultados demonstram que em ambas a participação do pesquisador é essencial na definição da representatividade da amostra escolhida, e que esta tem impacto direto na precisão e acurácia dos algoritmos aplicados. Destaca-se a importância do detalhamento e rigor no pré-processamento dos dados e do tamanho da amostra, contudo, ressalta-se que, no caso deste estudo, somente um volume maior de dados não garantiu que os resultados fossem representativos do ponto de vista do domínio estudado, o que alerta para que haja sempre discussões e análises multidisciplinares que permitam verificar e readequar os parâmetros da amostra. Aims to verify the potential of applying Natural Language Processing (NLP) and Machine Learning (ML) techniques in the thematic categorization of scientific articles on the theme “cultural heritage” from two situations in which categories are established a priori and later. Applied research is developed, with quantitative and qualitative results, where the first corpus consisting of scientific articles in Portuguese, on a thematic basis of Information Science, manually selected and categorized; and the second corpus, composed of scientific articles in English retrieved from the Web of Science, automatically categorized by search strategies and application of Booleans. Both were submitted to two categorization test procedures (supervised and unsupervised algorithm). The results show that in both, the participation of the researcher is essential in defining the representativeness of the chosen sample, and this has an impact on the precision and accuracy of the applied algorithms. The importance of detailing and rigor in the pre-processing of data and sample size is highlighted, however, it is emphasized that, in the case of this study, only a larger volume of data did not guarantee that the results were representative from the point of view of the domain studied, which warns that there are always multidisciplinary discussions and analyzes that allow verifying and readjusting the sample parameters. Objetiva verificar el potencial de aplicar técnicas de Procesamiento del Lenguaje Natural (PNL) y Aprendizaje Automático (ML) en la categorización temática de artículos científicos sobre el tema “patrimonio cultural” a partir de dos situaciones en las que se establecen categorías a priori y posteriormente. Se desarrolla una investigación aplicada, con resultados cuantitativos y cualitativos, donde el primer corpus consiste en artículos científicos en portugués, sobre una base temática de Ciencias de la Información, seleccionados y categorizados manualmente; y el segundo corpus, compuesto por artículos científicos en inglés recuperados de la Web of Science, categorizados automáticamente por estrategias de búsqueda y aplicación de booleanos. Ambos fueron sometidos a dos procedimientos de prueba de categorización (algoritmo supervisado y no supervisado). Los resultados muestran que en ambos enfoques la participación del investigador es fundamental para definir la representatividad de la muestra elegida, y que esta tiene un impacto directo en la precisión y exactitud de los algoritmos aplicados. Se destaca la importancia del detalle y rigor en el preprocesamiento de los datos y el tamaño de la muestra, sin embargo, se destaca que, en el caso de este estudio, solo un mayor volumen de datos no garantizaba que los resultados fueran representativos desde el punto de vista de vista del dominio estudiado, lo que advierte que siempre hay discusiones y análisis multidisciplinarios que permiten verificar y reajustar los parámetros de la muestra.
Author Albuquerque, Ana Cristina de
Triques, Maria Lígia
Jesus, Ananda Fernanda de
Segundo, José Eduardo Santarem
Author_xml – sequence: 1
  givenname: Ananda Fernanda de
  orcidid: 0000-0001-7873-6040
  surname: Jesus
  fullname: Jesus, Ananda Fernanda de
– sequence: 2
  givenname: Maria Lígia
  orcidid: 0000-0002-0450-7138
  surname: Triques
  fullname: Triques, Maria Lígia
– sequence: 3
  givenname: José Eduardo Santarem
  orcidid: 0000-0003-3360-7872
  surname: Segundo
  fullname: Segundo, José Eduardo Santarem
– sequence: 4
  givenname: Ana Cristina de
  orcidid: 0000-0003-3506-0479
  surname: Albuquerque
  fullname: Albuquerque, Ana Cristina de
BookMark eNpNkE1OwzAQhS1UJErpGfAFEuw4iRN2qOJPqgQLWEcTxwlGiV3ZCRKsegbWsGLBih03yE16EtzCgtU86c28efoO0UQbLRE6piSM0oRGJ1YJFT7RNNQ0jEjEwpgnjO-hKc0zFiQRZZN_-gDNnXskhFAWRyylU_R6a42QzkEndW9wJXGrdDNAIzusoR8stFjiDsSD0t6TYLX3vYUF9LIxVr3A-Dl-7E7B9qoxDgvlw8avWgnjTvHQYen6oTLYZ_bGar9r8Gb9toLeqm781spgMbS7Z5v1-xHar6F1cv43Z-j-4vxucRUsby6vF2fLQFCa9QFkdULTTJZJVCcZK5M6Bp56KbnICSclyYBAVMWpSOuS8zjhFalYnlNGAFLOZoj_5gprnLOyLla-DtjngpJiR7fY0i083ULTYku32NFlPzdfeX4
ContentType Journal Article
DBID AAYXX
CITATION
DOI 10.26512/rici.v16.n1.2023.47537
DatabaseName CrossRef
DatabaseTitle CrossRef
DatabaseTitleList CrossRef
DeliveryMethod fulltext_linktorsrc
Discipline Library & Information Science
EISSN 1983-5213
EndPage 184
ExternalDocumentID 10_26512_rici_v16_n1_2023_47537
GroupedDBID 5VS
91A
AAYXX
ADBBV
ALMA_UNASSIGNED_HOLDINGS
BCNDV
CITATION
FAEIB
GROUPED_DOAJ
KQ8
M~E
OK1
RNS
ID FETCH-LOGICAL-c118t-a8f5168eb52f583b5f4a76f58e7c9070b08a0a2d46c6fb77457d0d399130aa673
ISSN 1983-5213
IngestDate Sat Nov 29 03:45:09 EST 2025
IsPeerReviewed true
IsScholarly true
Issue 1
Language Portuguese
License https://creativecommons.org/licenses/by/4.0
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-c118t-a8f5168eb52f583b5f4a76f58e7c9070b08a0a2d46c6fb77457d0d399130aa673
ORCID 0000-0002-0450-7138
0000-0003-3506-0479
0000-0001-7873-6040
0000-0003-3360-7872
PageCount 18
ParticipantIDs crossref_primary_10_26512_rici_v16_n1_2023_47537
PublicationCentury 2000
PublicationDate 2023-03-27
PublicationDateYYYYMMDD 2023-03-27
PublicationDate_xml – month: 03
  year: 2023
  text: 2023-03-27
  day: 27
PublicationDecade 2020
PublicationTitle Revista Ibero-americana de Ciência da Informação
PublicationYear 2023
SSID ssj0001342361
Score 2.1596224
Snippet Objetiva verificar o potencial de aplicação de técnicas de Processamento de Linguagem Natural (PLN) e de Machine Learning (ML) na categorização temática de...
SourceID crossref
SourceType Index Database
StartPage 167
Title Processamento de linguagem natural e machine learning na categorização de artigos científicos: um estudo em torno do “patrimônio cultural”
Volume 16
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
journalDatabaseRights – providerCode: PRVAON
  databaseName: DOAJ Directory of Open Access Journals
  customDbUrl:
  eissn: 1983-5213
  dateEnd: 20231231
  omitProxy: false
  ssIdentifier: ssj0001342361
  issn: 1983-5213
  databaseCode: DOA
  dateStart: 20080101
  isFulltext: true
  titleUrlDefault: https://www.doaj.org/
  providerName: Directory of Open Access Journals
– providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  customDbUrl:
  eissn: 1983-5213
  dateEnd: 99991231
  omitProxy: false
  ssIdentifier: ssj0001342361
  issn: 1983-5213
  databaseCode: M~E
  dateStart: 20080101
  isFulltext: true
  titleUrlDefault: https://road.issn.org
  providerName: ISSN International Centre
link http://cvtisr.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwtV1Jb9QwFLbawoELYhVbKx8QFytD9oVbmYJAKhVSC-otcmJnFKmTjDKTUdVD1d_AGU4cOHHjH8w_6S_hPdvJTEsl6IHDRJETPyexv3mL30LIcyELUQgntsLcE5af-a7Fw0RavpsHObR5iaqi8Hk32tuLDw-Tj2vroouFmR9FVRUfHyeT_zrV0AaTjaGz15junig0wDlMOhxh2uH4TxNvXP85mv1qJiTDgHM0SY6ZyuIJc4JOq-hDKbuiESO4xNA3alQ35QlXu-eROnqKBA4zqqdMRU-q9p0ClpByp2vHTGKS2prBCKDBV9CjZp0TxRCN7eUY-7z2q7JmXaqP7oadVfEYdypAXGXv0Y3F4mY3ieMjDEs17jamB2ECbtFxVBcetXcHktNWV1lGGzlnxljOdS10baloMHHt1IQrAcld_VqjsudT-3LUVqI2-yTaowAdYgBTNduHFckbY_dGwBxlLRBs4GcGxopp8P9Z9aMa24rroXOZTlVg2EESe6Cq62jZgbyireMh4R9Y0QzB0cVGjGzh6HJ4l9mWG4LYBesKvmk5mDvhoELLhesNfFAmoyWn7rwTLjHw3q0SFDpFKkVCKRBKKydFQqkitE5uuFGQoOPjh9MVSyQmgdSJhbtX046QitbLqx9qRYxbkccO7pDbRpGi2xoAd8naZHaPbJowHPqCmvWBOKOGgd0nXy6AgwpJe3BQAw4qqQEH7cABl-gSHIsfi--qqwEFVaBY_FSAeEXbMdVwoEBTwYHC-fnZVw2ExS8AAe1AcH727QH59PbNwfCdZaqSWDko4zOLx0XghLHMArcIYi8LCp9HIZzKKE-AgWZ2zG3uCj_MwyID7SqIhC1ADwBpkfMw8h6Sjaqu5CNC7RyE6yB2ImCzvmOLxLd9aMoSbudBmInHxO4-cjrRyWfSv8zxk-t3eUpuLdf-M7Ixa1q5SW7m81k5bbaUkWpLrZjfSVPZFw
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=Processamento+de+linguagem+natural+e+machine+learning+na+categoriza%C3%A7%C3%A3o+de+artigos+cient%C3%ADficos%3A+um+estudo+em+torno+do+%E2%80%9Cpatrim%C3%B4nio+cultural%E2%80%9D&rft.jtitle=Revista+Ibero-americana+de+Ci%C3%AAncia+da+Informa%C3%A7%C3%A3o&rft.au=Jesus%2C+Ananda+Fernanda+de&rft.au=Triques%2C+Maria+L%C3%ADgia&rft.au=Segundo%2C+Jos%C3%A9+Eduardo+Santarem&rft.au=Albuquerque%2C+Ana+Cristina+de&rft.date=2023-03-27&rft.issn=1983-5213&rft.eissn=1983-5213&rft.volume=16&rft.issue=1&rft.spage=167&rft.epage=184&rft_id=info:doi/10.26512%2Frici.v16.n1.2023.47537&rft.externalDBID=n%2Fa&rft.externalDocID=10_26512_rici_v16_n1_2023_47537
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1983-5213&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1983-5213&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1983-5213&client=summon