O desafio da deduplicação de publicações
criação e avaliação de um benchmark
DOI:
https://doi.org/10.22477/ix.ebbc.411Palavras-chave:
Deduplicação, Publicações científicas, Benchmark, RegrasResumo
O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.
Referências
HE, Qinlu; LI, Zhanhuai; ZHANG, Xiao. Data deduplication techniques. In: INTERNATIONAL CONFERENCE ON FUTURE INFORMATION TECHNOLOGY AND MANAGEMENT ENGINEERING, 2010, Changzhou, China. Proceedings [...]. Changzhou, China: IEEE, 2010. p. 430-433. DOI: https://doi.org/10.1109/FITME.2010.5656539. Disponível em: http://ieeexplore.ieee.org/document/5656539. Acesso em: 14 mar. 2024.
JIANG, Yu et al. Rule-based deduplication of article records from bibliographic databases. Database: The Journal of Biological Databases and Curation, [S. l.], v. 2014, article bat086, p. 1-7, 2014. DOI: https://doi.org/10.1093/database/bat086. Disponível em: https://academic.oup.com/database/article/ doi/10.1093/database/bat086/2633762. Acesso em: 14 mar. 2024.
KAUFMAN, Aaron. R.; KLEVS, AJA. Adaptive fuzzy string matching: how to merge datasets with only one (messy) identifying field. Political Analysis, [S. l.], v. 30, n. 4, p. 590-596, Oct. 2022. DOI: https://doi. org/10.1017/pan.2021.38. Disponível em: https://www.cambridge.org/core/journals/political-analysis/ article/adaptive-fuzzy-string-matching-how-to-merge-datasets-with-only-one-messy-identifying-field/ 275D7890548359215AC728C1E35B53CE. Acesso em: 14 mar. 2024.
SAAVEDRA, Rafael H.; SMITH, Alan J. Analysis of benchmark characteristics and benchmark performance prediction. ACM Transactions on Computer Systems, [S. l.], v. 14, n. 4, p. 344-384, Nov. 1996. DOI: https://doi.org/10.1145/235543.235545. Disponível em: https://dl.acm.org/ doi/10.1145/235543.235545. Acesso em: 14 mar. 2024.
UKKONEN, Esko. Algorithms for approximate string matching. Information and Control, [S. l.], v. 64, n. 1/3, p. 100–118, Jan./Mar. 1985. DOI: https://doi.org/10.1016/S0019-9958(85)80046-2. Disponível em: https://linkinghub.elsevier.com/retrieve/pii/S0019995885800462. Acesso em: 14 mar. 2024
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2024 Encontro Brasileiro de Bibliometria e Cientometria

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.