Minería de texto en la clasificación de documentos digitales
DOI:
https://doi.org/10.5195/biblios.2016.309Palabras clave:
Minería de texto, Clasificación, Clasificador automatizado, Material bibliográficoResumen
Objetivo: Desarrollar un clasificador automatizado para la clasificación de material bibliográfico por medio de la minería de texto. Metodología: La minería de texto es empleada para el desarrollo del clasificador, basado en un método de tipo supervisado conformado por dos etapas; de aprendizaje y reconocimiento, en la etapa de aprendizaje, el clasificador aprende patrones a través del análisis de registros bibliográficos, de la clasificación Z, del área de bibliotecología, ciencias de la información y recursos de información recuperados de la base de datos LIBRUNAM , en esta etapa se obtiene el clasificador capaz de reconocer diferentes subclases (LC). En la etapa de reconocimiento el clasificador se valida y evalúa a través de pruebas de clasificación, para este fin se toman aleatoriamente registros bibliográficos de la clasificación Z, clasificados por un catalogador y procesados por el clasificador automatizado, con el fin de obtener la precisión del clasificador automatizado. Resultados: La utilización de la minería de texto permitió el desarrollo del clasificador automatizado, a través del método de clasificación de documentos de tipo supervisado. La precisión del clasificador fue calculada realizando la comparación entre los temas asignados de manera manual y automatizada obteniendo un grado de precisión del 75.70%. Conclusiones: La aplicación de la minería de texto facilito la creación del clasificador automatizado, permitiendo obtener tecnología útil para la clasificación de material bibliográfico con la finalidad de mejorar y agilizar el proceso de organización de información.Citas
Abbott, D. (10 de Julio de 2013). Introduction to Text Mining. Recuperado el 17 de 6 de 2014, de http://www.vscse.org/summerschool/2013/Abbott.pdf
Abdullah Muhammad, A. (2014). Medical Document Classification Based on MeSH. 2014 47th Hawaii International Conference on System Sciences (págs. 2571 - 2575). Waikoloa, HI: I EEE.
Ananiadou, S., Kell, D. B., & Tsujiii, J.-i. (October de 2006). Text mining and its potential applications in systems biology. (ELSEVIER, Ed.) Trends in Biotechnology, 24(12), 9.
Arkaitz Zubiaga, V. F. (2009). Comparativa de aproximaciones a SVM semisupervisado multiclase para clasificación de páginas Web. Recuperado el 16 de 10 de 2015, de Dialnet: http://dialnet.unirioja.es/servlet/articulo?codigo=2973575
Dey, L., Rastogi, A. C., & Kumar, S. (2006). Generating Concept Ontologies Through Text Mining. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (págs. 23 - 32 ). Hong Kong : IEEE.
Katerina Frantzi, S. A. (August de 2000). Automatic recognition of multi-word terms:. the C-value/NC-value method. (S. Link, Ed.) International Journal on Digital Libraries, 3(2), 115-130.
LAN, Q. (2010). Extraction of News Content for Text Mining Based on Edit Distance. Journal of Computational Information Systems, (págs. 3761-3777).
Lee, S., Baker, J., Song, J., & Wetherbe, J. C. (2010). An Empirical Comparison of Four Text Mining Methods . Proceedings of the 43rd Hawaii International Conference on System Sciences - 2010 (págs. 1-10). Hawaii : IEEE.
Lévano, G. L. (12 de 06 de 2011). Clasificación de colecciones. Recuperado el 12 de 08 de 2013, de http://www.ugel05.edu.pe/
M.Sukanya, S. (2012). Techniques on Text Mining. 2012 IEEE International Conference on Advanced Communication Control and Computing Technologies (ICACCCT), (págs. 269-271). Ramanathapuram .
Maggini, M., Rigutini, L., & Turchi, M. (2004). Pseudo-Supervised Clustering for Text Documents. Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on (págs. 363 - 369 ). IEEE .
Mahdi Shafiei, S. W. (2007). Document Representation and Dimension Reduction for Text Clustering. Workshop on Text Data Mining and Management (TDMM) in conjuction with 23rd IEEE conference (págs. 770-778). Turquia: IEEE.
Maowen, W., Caidong, Z., Weiyao, L., & QingQiang, W. (2012 ). Text Topic Mining Based on LDA and Co-occurrence Theory. Computer Science & Education (ICCSE), 2012 7th International Conference on (págs. 525 - 528 ). Melbourne, VIC : IEEE .
Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic keyword extraction from individual documents. En J. K. Michael W. Berry, Text mining : applications and theory. New Jersey: Mic hael W. Berry and Jacob Kogan.
Salton, G. (1989). Automatic text processing : The transformation, analysis, and retrieval of information by computer. E.U.A: Eddison Wesley.
Salton, G., & Mcgill, M. J. (1983). Introduction to modern information retrieval. New York: McGraw-Hill.
Swanson, D. R. (1991). Complementary structures in disjoint science literatures. In Proceedings of the 14th Annual International ACM/SIGIR Conference, 280-289.
Swanson, D., & Smalhaiser, N. (1994). Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease. Neuroscience research communications, 15, 1-9.
Verma, V. K., Ranjan, M., & Mishra, P. (2015). Text mining and information professionals: Role, issues and challenges . Emerging Trends and Technologies in Libraries and Information Services (ETTLIS), 2015 4th International Symposium on (págs. 133 - 137 ). Noida : IEEE .
Wang, Z. (2010). Document Classification Algorithm Based on Kernel Logistic Regression. Industrial and Information Systems (IIS), 2010 2nd International Conference on (Volume:1 ) (págs. 76 - 79 ). Dalian : IEEE.
Wei, W., & Barnaghi, P. M. (23 de sep de 2013). University of Surrey. Recuperado el 15 de octubre de 2015, de http://epubs.surrey.ac.uk/533646/
Xiu-Li, P., Feng, Y.-Q., & Jiang, W. (2007). An improved document classificaction approach with maximum entropy and entropy feauture selection. 2007 International Conference on Machine Learning and Cybernetics (págs. 3911-3915). Hong Kong: IEEE.
Zhang, Y., & Gu, H. (2011). Text Mining with Application to Academic Libraries. En Computer Science for Environmental Engineering and EcoInformatics (págs. 200-205). Springer Berlin Heidelberg.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Los autores que publican en esta revista están de acuerdo en los siguientes términos:
- El Autor retiene los Derechos sobre su Obra, donde el término "Obra" incluirá todos los objetos digitales que pueden resultar de la publicación electrónica posterior y/o distribución.
- Una vez aceptada la Obra, el Autor concede a la Editorial el derecho de la primera publicación de la Obra.
- Además el Autor le concederá a la Editorial y sus agentes el derecho permanente no exclusivo y licencia para publicar, archivar y hacer accesible la obra en su totalidad o en parte, en todas las formas de los medios ahora conocidos o en el futuro, bajo una Licencia Creative Commons de Reconocimiento 4.0 Internacional o su equivalente que, para evitar cualquier duda, permite a otros copiar, distribuir y comunicar públicamente la obra bajo la condición siguiente:
Reconocimiento - otros usuarios deben reconocer los créditos de la Obra de la manera especificada por el Autor o como se indica en el sitio web de la revista;
Entendido de que esta condición pueda ser modificada con permiso del Autor y que, cuando la Obra o cualquiera de sus elementos se halle en el dominio público según la legislación aplicable, que su estatus no esté en absoluto afectado por la licencia. - El Autor es capaz de entrar en acuerdos contractuales independientes, adicionales para la distribución no exclusiva de la versión de la Obra publicada en la revista (por ejemplo, publicarla en un repositorio institucional o publicarla en un libro) siempre y cuando se proporcione en el documento un reconocimiento de su publicación inicial en esta revista científica.
- A los Autores se les permite y apoya a publicar en línea un manuscrito previo (pero no la versión final de la Obra formateada en PDF para la Editorial), en repositorios institucionales o en sus páginas web, antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, y a una citación más temprana del trabajo publicado. Dicha Obra después de su aceptación y publicación se deberá actualizar, incluyendo la referencia DOI (Digital Object Identifier) asignada por la Editorial y el enlace al resumen en línea de la versión final publicada en la revista.
- A petición de la Editorial, el Autor se compromete a comunicar y presentar oportunamente al Editor, por cuenta del mismo, las pruebas escritas de los permisos, licencias y autorizaciones para el uso de material de terceros incluido en la Obra, excepto lo determinado por la Editorial a cubrirse por los principios de uso justo.
- El Autor declara y garantiza que:
a. La Obra es un trabajo original del Autor;
b. El Autor no ha transferido y no transferirá, los derechos exclusivos sobre la Obra a un tercero;
c. La Obra no está en evaluación en otra revista científica;
d. La Obra no fue publicada en otra revista científica;
e. La Obra no contiene ninguna tergiversación o infracción al trabajo propiedad de otros autores o terceros, y
f. La Obra no contiene ninguna difamación, invasión de la privacidad, o cualquier otro asunto ilegal. - El Autor se compromete a indemnizar y eximir a la Editorial del incumplimiento por parte del Autor de las declaraciones y garantías contenidas en el párrafo 7 anterior, así como de cualquier reclamación o procedimiento relacionado con el uso y la publicación de la Editorial de cualquier contenido de la Obra, incluido el contenido de terceros.