Estrategia de integración de métricas de impacto de la producción académica institucional mediante un Data Warehouse
caso de uso con OpenAlex, OpenAIRE y COAR
DOI:
https://doi.org/10.5195/biblios.2025.1348Palabras clave:
Producción académica institucional, Identificadores persistentes, Métricas responsables, Data Warehouse, Data VaultResumen
Objetivo. Este artículo propone una estrategia para integrar datos de múltiples fuentes sobre producción académica, facilitando la toma de decisiones. Su enfoque es adaptable a diversas organizaciones sin restricciones en la cantidad o variedad de fuentes. Método. Se diseñó un sistema de integración basado en herramientas de código abierto y un modelo de datos híbrido escalable. Se combinan Data Warehouse (Kimball & Ross) para optimizar el análisis y Data Vault 2.0 para gestionar la heterogeneidad y trazabilidad, asegurando una integración flexible. Resultados. Se integraron los datos de OpenAIRE, OpenAlex y COAR en una tabla unificada de publicaciones académicas, combinando métricas clave como citas, vistas y descargas. La tabla incluye información relevante, como título, DOI, tipo y año de publicación, además del estado de acceso abierto. Conclusiones. La integración de datos permite obtener una visión más completa del impacto de la producción científica institucional. Este enfoque favorece la implementación de métricas responsables.
Citas
Add seeds to your DAG. (2025, Abril 3). dbt Developer Hub. Recuperado el Abril 4, 2025, de https://docs.getdbt.com/docs/build/seeds
Aghassibake, N., Castello, O. G., Gujilde, P., & Rabun, S. (2023). Visualizing institutional activity using persistent identifier metadata. Information Services & Use, 43(3-4), 335–342. https://doi.org/10.3233/ISU-230218
Albuquerque, P. C. (2024a). PabloDeAlbu/dbt-scholar [Software]. GitHub. https://github.com/PabloDeAlbu/dbt-scholar
Albuquerque, P. C. (2024b). PabloDeAlbu/kedro-scholar [Cuaderno Jupyter]. GitHub. https://github.com/PabloDeAlbu/kedro-scholar
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2021, Junio 22–25). Proposal of a data warehouse for scholarly institutions built on institutional repositories [Objeto de conferencia]. IX Jornadas de Cloud Computing, Big Data & Emerging Topics, La Plata, Buenos Aires, Argentina. http://sedici.unlp.edu.ar/handle/10915/125161
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2022, Octubre 3-7). WebID como base para el desarrollo de una marca personal en repositorios institucionales [Objeto de conferencia]. XI Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Costa Rica. http://sedici.unlp.edu.ar/handle/10915/145739
Albuquerque, P. C., Villarreal, G. L., & De Giusti, M. R. (2023, Octubre 18-20). Modelo dimensional para la medición de la producción académica [Objeto de conferencia]. XII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Montevideo, Uruguay. http://sedici.unlp.edu.ar/handle/10915/161906
Apache Superset. (2025). Apache Superset™ is an open-source modern data exploration and visualization platform. Recuperado el Abril 4, 2025, de https://superset.apache.org/
Bollini, A., Knoth, P., Perakakis, P., Rodrigues, E., Shearer, K., Sompel, V. de, & Walk, P. (2017). Next generation repositories: Behaviours and technical recommendations of the COAR Next Generation Repositories Working Group (Version 2) [Original report]. Zenodo. https://doi.org/10.5281/zenodo.8077381
Cabezas-Clavijo, A., & Torres-Salinas, D. (2021). Bibliometric reports for institutions: Best practices in a responsible metrics scenario. Frontiers in Research Metrics and Analytics, 6, Article e696470. https://doi.org/10.3389/frma.2021.696470
Carletti, E., Rucci, E., & Villarreal, G. L. (2024, Octubre 22-24). HERA 2.0: Más funcionalidad para la evaluación de recursos académicos [Objeto de conferencia]. XIII Conferencia Internacional de Bibliotecas y Repositorios Digitales (BIREDIAL-ISTEC), Santiago de Chile, Chile. http://sedici.unlp.edu.ar/handle/10915/177287
Ciuciu-Kiss, J. T., & Garijo, D. (2024, May 27). Assessing the overlap of science knowledge graphs: A quantitative analysis [Conference paper]. International Workshop on Natural Scientific Language Processing and Research Knowledge Graphs, Hersonissos, Crete, Greece. In G. Rehm, S. Dietze, S. Schimmler, & F. Krüger (Eds.), Natural scientific language processing and research knowledge graphs, Lecture Notes in Computer Science (Vol. 14770, pp. 171-185). Springer. https://doi.org/10.1007/978-3-031-65794-8_11
Cuartas, G. V., Tirado, A. U., Restrepo-Quintero, D., Gutiérrez, J. O., Pallares, C., Gómez-Molina, H. F., Suárez-Tamayo, M., & Calle, J. (2019). Hacia un modelo de medición de la ciencia desde el Sur Global: Métricas responsables. Palabra Clave, 8(2), Artículo e068. https://doi.org/10.24215/18539912e068
Data catalog. (2025). Kedro. Recuperado el Julio 22, 2025, de https://docs.kedro.org/en/1.0.0/catalog-data/introduction/
Dhaouadi, A., Bousselmi, K., Gammoudi, M. M., Monnet, S., & Hammoudi, S. (2022). Data warehousing process modeling from classical approaches to new trends: Main features and comparisons. Data, 7(8), Article 113. https://doi.org/10.3390/data7080113
Donthu, N., Kumar, S., Mukherjee, D., Pandey, N., & Lim, W. M. (2021, September). How to conduct a bibliometric analysis: An overview and guidelines. Journal of Business Research, 133, 285–296. https://doi.org/10.1016/j.jbusres.2021.04.070
Filtering search results. (2025). OpenAIRE Graph Documentation. Recuperado el Julio 22, 2025, de https://graph.openaire.eu/docs/10.3.0/apis/graph-api/searching-entities/filtering-search-results/
Harder, R. (2024, June). Using Scopus and OpenAlex APIs to retrieve bibliographic data for evidence synthesis: A procedure based on Bash and SQL. MethodsX, 12, Article 102601. https://doi.org/10.1016/j.mex.2024.102601
Hogan, A., Blomqvist, E., Cochez, M., D’Amato, C., Melo, G. de, Gutierrez, C., Kirrane, S., Gayo, J. E. L., Navigli, R., Neumaier, S., Ngomo, A. C. N., Polleres, A., Rashid, S. M., Rula, A., Schmelzeisen, L., Sequeda, J., Staab, S., & Zimmermann, A. (2021). Knowledge graphs. ACM Computing Surveys, 54(4), Article 71. https://doi.org/10.1145/3447772
Kimball, R., & Ross, M. (2013). The data warehouse lifecycle toolkit (3rd ed.). John Wiley & Sons.
Linstedt, D., & Olschimke, M. (2015). Building a scalable data warehouse with Data Vault 2.0 (1st ed.). Morgan Kaufmann.
Manghi, P., Bardi, A., Atzori, C., Baglioni, M., Manola, N., Schirrwagen, J., & Principe, P. (2019). The OpenAIRE research graph data model (Version 1.3) [Original report]. Zenodo. https://doi.org/10.5281/zenodo.2643199
Öztürk, O., Kocaman, R., & Kanbach, D. K. (2024). How to design bibliometric research: An overview and a framework proposal. Review of Managerial Science, 18, 3333-3361. https://doi.org/10.1007/s11846-024-00738-0
Priem, J., Piwowar, H., & Orr, R. (2022, May 4). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts [Preprint arXiv]. Submitted to the 26th International Conference on Science, Technology and Innovation Indicators (STI 2022), Granada, Spain. arXiv. https://doi.org/10.48550/arXiv.2205.01833
Searching entities. (2025). OpenAIRE Graph Documentation. Recuperado el Julio 22, 2025, de https://graph.openaire.eu/docs/apis/graph-api/searching-entities/
Silva, V. S., Matas, L., Moreira, T., & Segundo, W. C. (2022). An ETL strategy for integrating the LA Referencia platform and VIVO for the Brazilian CRIS. Procedia Computer Science, 211, 111-117. https://doi.org/10.1016/j.procs.2022.10.182
Tomczyńska, A., Ostrowska, S., Protasiewicz, J., & Podwysocki, E. (2023, June 15). Beyond CRIS: A research and higher education information system in Poland [Paper]. EUNIS 2023 Annual Conference, Vigo, Spain. http://hdl.handle.net/11366/2477
Universidad Nacional de La Plata. (2025). OpenAlex. Recuperado el Abril 4, 2025, de https://openalex.org/institutions/i874386039
Use a Jupyter notebook for Kedro project experiments. (2024). Kedro. Recuperado el Abril 4, 2025, de https://docs.kedro.org/en/stable/notebooks_and_ipython/kedro_and_notebooks.html
Works overview: Schema reference for Works entities. (2025). OpenAlex. Recuperado el Abril 4, 2025, de https://docs.openalex.org/api-entities/works/work-object
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Pablo César de Albuquerque, Gonzalo Luján Villarreal

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Los autores que publican en esta revista están de acuerdo en los siguientes términos:
- El Autor retiene los Derechos sobre su Obra, donde el término "Obra" incluirá todos los objetos digitales que pueden resultar de la publicación electrónica posterior y/o distribución.
- Una vez aceptada la Obra, el Autor concede a la Editorial el derecho de la primera publicación de la Obra.
- Además el Autor le concederá a la Editorial y sus agentes el derecho permanente no exclusivo y licencia para publicar, archivar y hacer accesible la obra en su totalidad o en parte, en todas las formas de los medios ahora conocidos o en el futuro, bajo una Licencia Creative Commons de Reconocimiento 4.0 Internacional o su equivalente que, para evitar cualquier duda, permite a otros copiar, distribuir y comunicar públicamente la obra bajo la condición siguiente:
Reconocimiento - otros usuarios deben reconocer los créditos de la Obra de la manera especificada por el Autor o como se indica en el sitio web de la revista;
Entendido de que esta condición pueda ser modificada con permiso del Autor y que, cuando la Obra o cualquiera de sus elementos se halle en el dominio público según la legislación aplicable, que su estatus no esté en absoluto afectado por la licencia. - El Autor es capaz de entrar en acuerdos contractuales independientes, adicionales para la distribución no exclusiva de la versión de la Obra publicada en la revista (por ejemplo, publicarla en un repositorio institucional o publicarla en un libro) siempre y cuando se proporcione en el documento un reconocimiento de su publicación inicial en esta revista científica.
- A los Autores se les permite y apoya a publicar en línea un manuscrito previo (pero no la versión final de la Obra formateada en PDF para la Editorial), en repositorios institucionales o en sus páginas web, antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, y a una citación más temprana del trabajo publicado. Dicha Obra después de su aceptación y publicación se deberá actualizar, incluyendo la referencia DOI (Digital Object Identifier) asignada por la Editorial y el enlace al resumen en línea de la versión final publicada en la revista.
- A petición de la Editorial, el Autor se compromete a comunicar y presentar oportunamente al Editor, por cuenta del mismo, las pruebas escritas de los permisos, licencias y autorizaciones para el uso de material de terceros incluido en la Obra, excepto lo determinado por la Editorial a cubrirse por los principios de uso justo.
- El Autor declara y garantiza que:
a. La Obra es un trabajo original del Autor;
b. El Autor no ha transferido y no transferirá, los derechos exclusivos sobre la Obra a un tercero;
c. La Obra no está en evaluación en otra revista científica;
d. La Obra no fue publicada en otra revista científica;
e. La Obra no contiene ninguna tergiversación o infracción al trabajo propiedad de otros autores o terceros, y
f. La Obra no contiene ninguna difamación, invasión de la privacidad, o cualquier otro asunto ilegal. - El Autor se compromete a indemnizar y eximir a la Editorial del incumplimiento por parte del Autor de las declaraciones y garantías contenidas en el párrafo 7 anterior, así como de cualquier reclamación o procedimiento relacionado con el uso y la publicación de la Editorial de cualquier contenido de la Obra, incluido el contenido de terceros.



