Estratégia de integração de métricas de impacto da produção acadêmica institucional por meio de um Data Warehouse
estudo de caso com OpenAlex, OpenAIRE e COAR
DOI:
https://doi.org/10.5195/biblios.2025.1348Palavras-chave:
Produção acadêmica institucional, Identificadores persistentes, Métricas responsáveis, Data Warehouse, Data VaultResumo
Objetivo. Este artigo propõe uma estratégia para integrar dados de múltiplas fontes sobre a produção acadêmica, facilitando a tomada de decisões. A abordagem é adaptável a diferentes organizações, independentemente da quantidade ou tipo de fontes envolvidas. Método. Foi desenvolvido um sistema de integração baseado em ferramentas de código aberto e em um modelo de dados híbrido e escalável. Combina técnicas de Data Warehouse (Kimball & Ross) para otimizar a análise, e Data Vault 2.0 para gerenciar a heterogeneidade e garantir a rastreabilidade, possibilitando uma integração flexível. Resultados. Os dados do OpenAIRE, OpenAlex e COAR foram integrados em uma tabela unificada de publicações acadêmicas, reunindo métricas-chave como citações, visualizações e downloads. A tabela inclui informações relevantes como título, DOI, tipo e ano de publicação, além do status de acesso aberto. Conclusões. A integração de dados permite uma visão mais completa do impacto da produção científica institucional. Essa abordagem favorece a adoção de métricas responsáveis.
Referências
Add seeds to your DAG. (2025, Abril 3). dbt Developer Hub. Recuperado el Abril 4, 2025, de https://docs.getdbt.com/docs/build/seeds
Aghassibake, N., Castello, O. G., Gujilde, P., & Rabun, S. (2023). Visualizing institutional activity using persistent identifier metadata. Information Services & Use, 43(3-4), 335–342. https://doi.org/10.3233/ISU-230218
Albuquerque, P. C. (2024a). PabloDeAlbu/dbt-scholar [Software]. GitHub. https://github.com/PabloDeAlbu/dbt-scholar
Albuquerque, P. C. (2024b). PabloDeAlbu/kedro-scholar [Cuaderno Jupyter]. GitHub. https://github.com/PabloDeAlbu/kedro-scholar
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2021, Junio 22–25). Proposal of a data warehouse for scholarly institutions built on institutional repositories [Objeto de conferencia]. IX Jornadas de Cloud Computing, Big Data & Emerging Topics, La Plata, Buenos Aires, Argentina. http://sedici.unlp.edu.ar/handle/10915/125161
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2022, Octubre 3-7). WebID como base para el desarrollo de una marca personal en repositorios institucionales [Objeto de conferencia]. XI Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Costa Rica. http://sedici.unlp.edu.ar/handle/10915/145739
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2023, Octubre 18-20). Modelo dimensional para la medición de la producción académica [Objeto de conferencia]. XII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Montevideo, Uruguay. http://sedici.unlp.edu.ar/handle/10915/161906
Apache Superset. (2025). Apache Superset™ is an open-source modern data exploration and visualization platform. Recuperado el Abril 4, 2025, de https://superset.apache.org/
Bollini, A., Knoth, P., Perakakis, P., Rodrigues, E., Shearer, K., Sompel, V. de, & Walk, P. (2017). Next generation repositories: Behaviours and technical recommendations of the COAR Next Generation Repositories Working Group (Version 2) [Original report]. Zenodo. https://doi.org/10.5281/zenodo.8077381
Cabezas-Clavijo, A., & Torres-Salinas, D. (2021). Bibliometric reports for institutions: Best practices in a responsible metrics scenario. Frontiers in Research Metrics and Analytics, 6, Article e696470. https://doi.org/10.3389/frma.2021.696470
Carletti, E., Rucci, E., & Villarreal, G. L. (2024, Octubre 22-24). HERA 2.0: Más funcionalidad para la evaluación de recursos académicos [Objeto de conferencia]. XIII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Santiago de Chile, Chile. http://sedici.unlp.edu.ar/handle/10915/177287
Ciuciu-Kiss, J. T., & Garijo, D. (2024, May 27). Assessing the overlap of science knowledge graphs: A quantitative analysis [Conference paper]. International Workshop on Natural Scientific Language Processing and Research Knowledge Graphs, Hersonissos, Crete, Greece. In G. Rehm, S. Dietze, S. Schimmler, & F. Krüger (Eds.), Natural scientific language processing and research knowledge graphs, Lecture Notes in Computer Science (Vol. 14770, pp. 171-185). Springer. https://doi.org/10.1007/978-3-031-65794-8_11
Cuartas, G. V., Tirado, A. U., Restrepo-Quintero, D., Gutiérrez, J. O., Pallares, C., Gómez-Molina, H. F., Suárez-Tamayo, M., & Calle, J. (2019). Hacia un modelo de medición de la ciencia desde el Sur Global: Métricas responsables. Palabra Clave, 8(2), Artículo e068. https://doi.org/10.24215/18539912e068
Data catalog. (2025). Kedro. Recuperado el Julio 22, 2025, de https://docs.kedro.org/en/1.0.0/catalog-data/introduction/
Dhaouadi, A., Bousselmi, K., Gammoudi, M. M., Monnet, S., & Hammoudi, S. (2022). Data warehousing process modeling from classical approaches to new trends: Main features and comparisons. Data, 7(8), Article 113. https://doi.org/10.3390/data7080113
Donthu, N., Kumar, S., Mukherjee, D., Pandey, N., & Lim, W. M. (2021, September). How to conduct a bibliometric analysis: An overview and guidelines. Journal of Business Research, 133, 285–296. https://doi.org/10.1016/j.jbusres.2021.04.070
Filtering search results. (2025). OpenAIRE Graph Documentation. Recuperado el Julio 22, 2025, de https://graph.openaire.eu/docs/10.3.0/apis/graph-api/searching-entities/filtering-search-results/
Harder, R. (2024, June). Using Scopus and OpenAlex APIs to retrieve bibliographic data for evidence synthesis: A procedure based on Bash and SQL. MethodsX, 12, Article 102601. https://doi.org/10.1016/j.mex.2024.102601
Hogan, A., Blomqvist, E., Cochez, M., D’Amato, C., Melo, G. de, Gutierrez, C., Kirrane, S., Gayo, J. E. L., Navigli, R., Neumaier, S., Ngomo, A. C. N., Polleres, A., Rashid, S. M., Rula, A., Schmelzeisen, L., Sequeda, J., Staab, S., & Zimmermann, A. (2021). Knowledge graphs. ACM Computing Surveys, 54(4), Article 71. https://doi.org/10.1145/3447772
Kimball, R., & Ross, M. (2013). The data warehouse lifecycle toolkit (3rd ed.). John Wiley & Sons.
Linstedt, D., & Olschimke, M. (2015). Building a scalable data warehouse with Data Vault 2.0 (1st ed.). Morgan Kaufmann.
Manghi, P., Bardi, A., Atzori, C., Baglioni, M., Manola, N., Schirrwagen, J., & Principe, P. (2019). The OpenAIRE research graph data model (Version 1.3) [Original report]. Zenodo. https://doi.org/10.5281/zenodo.2643199
Öztürk, O., Kocaman, R., & Kanbach, D. K. (2024). How to design bibliometric research: An overview and a framework proposal. Review of Managerial Science, 18, 3333-3361. https://doi.org/10.1007/s11846-024-00738-0
Priem, J., Piwowar, H., & Orr, R. (2022, May 4). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts [Preprint arXiv]. Submitted to the 26th International Conference on Science, Technology and Innovation Indicators (STI 2022), Granada, Spain. arXiv. https://doi.org/10.48550/arXiv.2205.01833
Searching entities. (2025). OpenAIRE Graph Documentation. Recuperado el Julio 22, 2025, de https://graph.openaire.eu/docs/apis/graph-api/searching-entities/
Silva, V. S., Matas, L., Moreira, T., & Segundo, W. C. (2022). An ETL strategy for integrating the LA Referencia platform and VIVO for the Brazilian CRIS. Procedia Computer Science, 211, 111-117. https://doi.org/10.1016/j.procs.2022.10.182
Tomczyńska, A., Ostrowska, S., Protasiewicz, J., & Podwysocki, E. (2023, June 15). Beyond CRIS: A research and higher education information system in Poland [Paper]. EUNIS 2023 Annual Conference, Vigo, Spain. http://hdl.handle.net/11366/2477
Universidad Nacional de La Plata. (2025). OpenAlex. Recuperado el Abril 4, 2025, de https://openalex.org/institutions/i874386039
Use a Jupyter notebook for Kedro project experiments. (2024). Kedro. Recuperado el Abril 4, 2025, de https://docs.kedro.org/en/stable/notebooks_and_ipython/kedro_and_notebooks.html
Works overview: Schema reference for Works entities. (2025). OpenAlex. Recuperado el Abril 4, 2025, de https://docs.openalex.org/api-entities/works/work-object
Downloads
Publicado
Como Citar
Edição
Seção
Licença
Copyright (c) 2026 Pablo César de Albuquerque, Gonzalo Luján Villarreal

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Os autores que publicam neste periódico estão de acordo nos seguintes termos:
- O Autor retém o Direito sobre a sua Obra, onde o termo "Obra" incluirá todos os objetos digitais que podem resultar da publicação eletrônica posterior e/ou distribuição.
- Uma vez aceitada a Obra, o Autor concede à Editorial o direito da primeira publicação da Obra.
- O Autor lhe concederá à Editorial e seus agentes o direito permanente não exclusivo e licença para publicar, arquivar e fazer acessível a Obra em sua totalidade ou em parte, em todas as formas e os meios agora conhecidos ou no futuro, mediante uma Licença Creative Commons Atribuição 4.0 Internacional ou seu equivalente que, para evitar qualquer dúvida, permite a outros copiar, distribuir e comunicar publicamente a Obra nas condições seguintes: Atribuição - outros usuários devem reconhecer a Obra da forma especificada pelo Autor ou como se indica no lugar web do periódico científico; Entendendo que esta condição possa ser modificada com a licença do Autor e que, quando a Obra ou qualquer de seus elementos se ache no domínio público segundo a legislação aplicável, que seu status não esteja em absoluto afetado pela licença.
- O Autor é capaz de entrar em acordos contratuais independentes, adicionais para a distribuição não exclusiva da versão da Obra publicada no periódico científico (por exemplo, publicá-la num repositório institucional ou publicá-la num livro) sempre que se proporcione no documento um reconhecimento de sua publicação inicial neste periódico científico.
- Os Autores estão autorizados e tem o apoio para publicar em linha um manuscrito antes da sua publicação (mas não a versão final da Obra formatada em PDF para a Editorial) em repositórios institucionais ou em seu sitio, antes e durante o processo de envio, já que pode dar lugar a intercâmbios produtivos, e a uma citação primigênia maior do trabalho publicado (ver o efeito do acesso aberto). Dita Obra depois de sua aceitação e publicação se deverá atualizar, incluindo a referência DOI (Digital Object Identifier) atribuída pela Editorial e o vínculo ao resumo em linha da versão final publicada no periódico.
- A petição da Editorial, o Autor se compromete a comunicar e apresentar oportunamente ao Editor, e por conta dele, as provas escritas das permissões, licenças e autorizações para o uso de material de terceiros incluso na Obra, exceto o determinado pela Editorial a cobrir-se pelos princípios de uso justo.
- O Autor declara e garante que:
a. A Obra é um trabalho original do Autor;
b. O Autor não transferiu e não transferirá, os direitos exclusivos sobre a Obra para um terceiro;
c. A Obra não está em avaliação em outro periódico científico;
d. A Obra não foi publicada em outro periódico científico;
e. A Obra não contém nenhuma tergiversação ou infração ao trabalho propriedade de outros autores ou terceiros, e
f. A Obra não contém nenhuma difamação, invasão da privacidade, ou qualquer outro assunto ilegal. - O Autor se compromete a indenizar e eximir à Editorial se não cumprir com as declarações e garantias contidas no parágrafo 7 anterior, assim como de qualquer reclamação ou procedimento relacionado com o uso e a publicação da Editorial de qualquer conteúdo da Obra, incluído o conteúdo de terceiros.



