A identificação de áreas do conhecimento do CNPq usando o GPT

Autores

DOI:

https://doi.org/10.22477/ix.ebbc.356

Palavras-chave:

Classificação, Processamento de linguagem natural, Bibliometría, GPT

Resumo

A compreensão da ciência é facilitada pela classificação em áreas do conhecimento. Ter um panorama da produção científica é importante para otimizar recursos, identificar colaborações e promover a interdisciplinaridade. Este artigo mostra a utilização do Generative Pre-trained Transformer (GPT) para classificar artigos científicos. Foram considerados como estudo de caso 8.753 artigos produzidos por pesquisadores da Fundação Oswaldo Cruz, e as áreas do conhecimento do CNPq. Os resultados mostram desempenho comparável ou superior à avaliação humana. A maior acurácia foi alcançada na área de Ciências da Saúde (85,35%), seguida por Ciências Biológicas (63,19%) e Ciências Sociais Aplicadas (55,26%).

Referências

ALIZADEH, Meysam et al. Content moderation as a political issue: the twitter discourse around Trump’s ban. Journal of Quantitative Description: Digital Media, v. 2, 4 out. 2022. DOI: https://doi. org/10.51685/jqd.2022.023. Disponível em: https://journalqd.org/article/view/3424 Acesso em: 6 mar. 2024.

BROWN, Tom B. et al. Language models are few-shot learners. Advances in neural information processing systems, v. 33, p. 1877-1901, 2020. DOI: https://doi.org/10.48550/arXiv.2005.14165. Disponível em: https://arxiv.org/abs/2005.14165. Acesso em: 8 mai. 2024.

CARAGEA, Cornelia; BULGAROV, Florin; MIHALCEA, Rada. Co-training for topic classification of scholarly data. In: Proceedings of the 2015 Conference on empirical methods in natural language processing, Lisbon, Portugal. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2015. DOI: https:// doi.org/10.18653/v1/d15-1283. Disponível em: https://aclanthology.org/D15-1283. Acesso em: 6 mar. 2024.

CHIANG, Cheng-Han.; LEE, Hung-yi. Can large language models be an alternative to human evaluations? ArXiv preprint, arXiv:2305.01937, 2023. DOI: https://doi.org/10.48550/arXiv.2305.01937. Disponível em: https://arxiv.org/abs/2305.01937. Acesso em: 8 mai. 2024.

CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICO. Áreas de conhecimento do CNPq. 2024. Disponível em: https://lattes.cnpq.br/documents/11871/24930/TabeladeAreasdoConhecimento.pdf. Acesso em: 6 mar. 2024.

GILARDI, Fabrizio; ALIZADEH, Meysam; KUBLI, Maël. ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the national academy of sciences, v. 120, n. 30, 18 jul. 2023. DOI: https://doi.org/10.1073/pnas.2305016120. Disponível em: https://www.pnas.org/doi/10.1073/ pnas.2305016120. Acesso em: 6 mar. 2024.

HJORLAND, Birger. Domain analysis in information science. Journal of documentation, v. 58, n. 4, p. 422-462, ago. 2002. DOI: https://doi.org/10.1108/00220410210431136. Disponível em: https://www. emerald.com/insight/content/doi/10.1108/00220410210431136/full/html. Acesso em: 6 mar. 2024.

HUANG, Fan; KWAK, Haewoon; AN, Jisun. Is ChatGPT better than human annotators? Potential and limitations of ChatGPT in explaining implicit hate speech. ArXiv preprint, arXiv:2302.07736, 2023. Disponível em: https://arxiv.org/abs/2302.07736. Acesso em: 8 mai. 2024.

LEYDESDORFF, Loet. Various methods for the mapping of science. Scientometrics, v. 11, n. 5-6, p. 295- 324, maio 1987. DOI: https://doi.org/10.1007/bf02279351. Disponível em: https://link.springer.com/ article/10.1007/BF02279351. Acesso em: 6 mar. 2024.

LEYDESDORFF, Loet.; Rafols, I. Indicators of the interdisciplinarity of journals: Diversity, centrality, and citations. Journal of informetrics, v. 5, n. 1, p. 87-100, jan. 2011. DOI: https://doi.org/10.1016/j.joi.2010.09.002. Disponível em: https://www.sciencedirect.com/science/article/pii/ S1751157710000854?via%3Dihub. Acesso em: 6 mar. 2024.

MENDOZA, Óscar E. et al. Benchmark for research theme classification of scholarly documents. In: WORKSHOP ON SCHOLARLY DOCUMENT PROCESSING, 3., 2022. Anais […]. Gyeongju: Association for computational linguistics, 2022. p. 253-262. Disponível em: https://aclanthology.org/2022.sdp-1.31. Acesso em: 8 mai. 2024.

OBSERVATÓRIO DA FIOCRUZ EM C,T&I EM SAÚDE, 2024. Disponível em: https://observatorio.fiocruz. br. Acesso em: 6 mar. 2024.

RAHMAN, Mizanur et al. ChatGPT and academic research: a review and recommendations based on practical examples. Journal of education, management and development studies, v. 3, n. 1, p. 1-12, 27 mar. 2023. DOI: https://doi.org/10.52631/jemds.v3i1.175. Disponível em: https://journals.cspc.edu. ph/index.php/jemds/article/view/175. Acesso em: 6 mar. 2024.

WAGNER, Caroline S. et al. Approaches to understanding and measuring interdisciplinary scientific research (IDR): A review of the literature. Journal of informetrics, v. 5, n. 1, p. 14-26, jan. 2011. DOI: https://doi.org/10.1016/j.joi.2010.06.004. Disponível em: https://www.sciencedirect.com/science/article/pii/S1751157710000581?via%3Dihub. Acesso em: 6 mar. 2024.

Downloads

Publicado

23-07-2024

Edição

Seção

Comunicação Oral - Técnicas, Ferramentas e Infraestruturas