O desafio da deduplicação de publicações

criação e avaliação de um benchmark

Autores

DOI:

https://doi.org/10.22477/ix.ebbc.411

Palavras-chave:

Deduplicação, Publicações científicas, Benchmark, Regras

Resumo

O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.

Referências

HE, Qinlu; LI, Zhanhuai; ZHANG, Xiao. Data deduplication techniques. In: INTERNATIONAL CONFERENCE ON FUTURE INFORMATION TECHNOLOGY AND MANAGEMENT ENGINEERING, 2010, Changzhou, China. Proceedings [...]. Changzhou, China: IEEE, 2010. p. 430-433. DOI: https://doi.org/10.1109/FITME.2010.5656539. Disponível em: http://ieeexplore.ieee.org/document/5656539. Acesso em: 14 mar. 2024.

JIANG, Yu et al. Rule-based deduplication of article records from bibliographic databases. Database: The Journal of Biological Databases and Curation, [S. l.], v. 2014, article bat086, p. 1-7, 2014. DOI: https://doi.org/10.1093/database/bat086. Disponível em: https://academic.oup.com/database/article/ doi/10.1093/database/bat086/2633762. Acesso em: 14 mar. 2024.

KAUFMAN, Aaron. R.; KLEVS, AJA. Adaptive fuzzy string matching: how to merge datasets with only one (messy) identifying field. Political Analysis, [S. l.], v. 30, n. 4, p. 590-596, Oct. 2022. DOI: https://doi. org/10.1017/pan.2021.38. Disponível em: https://www.cambridge.org/core/journals/political-analysis/ article/adaptive-fuzzy-string-matching-how-to-merge-datasets-with-only-one-messy-identifying-field/ 275D7890548359215AC728C1E35B53CE. Acesso em: 14 mar. 2024.

SAAVEDRA, Rafael H.; SMITH, Alan J. Analysis of benchmark characteristics and benchmark performance prediction. ACM Transactions on Computer Systems, [S. l.], v. 14, n. 4, p. 344-384, Nov. 1996. DOI: https://doi.org/10.1145/235543.235545. Disponível em: https://dl.acm.org/ doi/10.1145/235543.235545. Acesso em: 14 mar. 2024.

UKKONEN, Esko. Algorithms for approximate string matching. Information and Control, [S. l.], v. 64, n. 1/3, p. 100–118, Jan./Mar. 1985. DOI: https://doi.org/10.1016/S0019-9958(85)80046-2. Disponível em: https://linkinghub.elsevier.com/retrieve/pii/S0019995885800462. Acesso em: 14 mar. 2024

Downloads

Publicado

23-07-2024

Edição

Seção

Comunicação Oral - Bases e Fontes de Dados