Mineração de texto em a classificação de documentos digitais

Autores

DOI:

https://doi.org/10.5195/biblios.2016.309

Palavras-chave:

Mineração de texto, Classificação, Classificador automatizado, Material bibliográfico

Resumo

Objetivo: Desenvolver um classificador automatizado para a classificação de material bibliográfico por meio da mineração de texto. Metodologia: A mineração de texto é empregue para o desenvolvimento do classificador, baseado num método de controle conformado por duas etapas; de aprendizagem e reconhecimento, na etapa de aprendizagem, o classificador aprende padrões através da análise de registros bibliográficos, da classificação Z, da área da biblioteconomia, as ciências da informação e recursos de informação recuperados da base de dados LIBRUNAM , nesta etapa se obtém o classificador com capacidade de reconhecer as diferentes subclases (LC). Na etapa de reconhecimento o classificador se valida e avalia mediante provas de classificação, para issp se tomam aleatoriamente registros bibliográficos da classificação Z, classificados por um catalogador e processados pelo classificador automatizado, com o fim de obter a precisão do classificador automatizado. Resultados: A utilização da mineração de texto permitiu o desenvolvimento do classificador automatizado, mediante o método de classificação de documentos de forma controlada. A precisão do classificador foi calculada realizando a comparação entre os temas atribuídos de forma manual e automatizada obtendo um grau de precisão de 75.70%. Conclusões: A aplicação da mineração de texto facilitou a criação do classificador automatizado, permitindo obter tecnologia útil para a classificação de material bibliográfico com a finalidade de melhorar e agilizar o processo de organização da informação.

Biografia do Autor

Marcial Contreras Barrera, Universidad Nacional Autónoma de México – UNAM

Técnico Académico, Subdirección de Informática, Departamento de Producción, Dirección General de Bibliotecas, Universidad Nacional Autónoma de México – UNAM, México.

Referências

Abbott, D. (10 de Julio de 2013). Introduction to Text Mining. Recuperado el 17 de 6 de 2014, de http://www.vscse.org/summerschool/2013/Abbott.pdf

Abdullah Muhammad, A. (2014). Medical Document Classification Based on MeSH. 2014 47th Hawaii International Conference on System Sciences (págs. 2571 - 2575). Waikoloa, HI: I EEE.

Ananiadou, S., Kell, D. B., & Tsujiii, J.-i. (October de 2006). Text mining and its potential applications in systems biology. (ELSEVIER, Ed.) Trends in Biotechnology, 24(12), 9.

Arkaitz Zubiaga, V. F. (2009). Comparativa de aproximaciones a SVM semisupervisado multiclase para clasificación de páginas Web. Recuperado el 16 de 10 de 2015, de Dialnet: http://dialnet.unirioja.es/servlet/articulo?codigo=2973575

Dey, L., Rastogi, A. C., & Kumar, S. (2006). Generating Concept Ontologies Through Text Mining. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (págs. 23 - 32 ). Hong Kong : IEEE.

Katerina Frantzi, S. A. (August de 2000). Automatic recognition of multi-word terms:. the C-value/NC-value method. (S. Link, Ed.) International Journal on Digital Libraries, 3(2), 115-130.

LAN, Q. (2010). Extraction of News Content for Text Mining Based on Edit Distance. Journal of Computational Information Systems, (págs. 3761-3777).

Lee, S., Baker, J., Song, J., & Wetherbe, J. C. (2010). An Empirical Comparison of Four Text Mining Methods . Proceedings of the 43rd Hawaii International Conference on System Sciences - 2010 (págs. 1-10). Hawaii : IEEE.

Lévano, G. L. (12 de 06 de 2011). Clasificación de colecciones. Recuperado el 12 de 08 de 2013, de http://www.ugel05.edu.pe/

M.Sukanya, S. (2012). Techniques on Text Mining. 2012 IEEE International Conference on Advanced Communication Control and Computing Technologies (ICACCCT), (págs. 269-271). Ramanathapuram .

Maggini, M., Rigutini, L., & Turchi, M. (2004). Pseudo-Supervised Clustering for Text Documents. Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on (págs. 363 - 369 ). IEEE .

Mahdi Shafiei, S. W. (2007). Document Representation and Dimension Reduction for Text Clustering. Workshop on Text Data Mining and Management (TDMM) in conjuction with 23rd IEEE conference (págs. 770-778). Turquia: IEEE.

Maowen, W., Caidong, Z., Weiyao, L., & QingQiang, W. (2012 ). Text Topic Mining Based on LDA and Co-occurrence Theory. Computer Science & Education (ICCSE), 2012 7th International Conference on (págs. 525 - 528 ). Melbourne, VIC : IEEE .

Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic keyword extraction from individual documents. En J. K. Michael W. Berry, Text mining : applications and theory. New Jersey: Mic hael W. Berry and Jacob Kogan.

Salton, G. (1989). Automatic text processing : The transformation, analysis, and retrieval of information by computer. E.U.A: Eddison Wesley.

Salton, G., & Mcgill, M. J. (1983). Introduction to modern information retrieval. New York: McGraw-Hill.

Swanson, D. R. (1991). Complementary structures in disjoint science literatures. In Proceedings of the 14th Annual International ACM/SIGIR Conference, 280-289.

Swanson, D., & Smalhaiser, N. (1994). Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease. Neuroscience research communications, 15, 1-9.

Verma, V. K., Ranjan, M., & Mishra, P. (2015). Text mining and information professionals: Role, issues and challenges . Emerging Trends and Technologies in Libraries and Information Services (ETTLIS), 2015 4th International Symposium on (págs. 133 - 137 ). Noida : IEEE .

Wang, Z. (2010). Document Classification Algorithm Based on Kernel Logistic Regression. Industrial and Information Systems (IIS), 2010 2nd International Conference on (Volume:1 ) (págs. 76 - 79 ). Dalian : IEEE.

Wei, W., & Barnaghi, P. M. (23 de sep de 2013). University of Surrey. Recuperado el 15 de octubre de 2015, de http://epubs.surrey.ac.uk/533646/

Xiu-Li, P., Feng, Y.-Q., & Jiang, W. (2007). An improved document classificaction approach with maximum entropy and entropy feauture selection. 2007 International Conference on Machine Learning and Cybernetics (págs. 3911-3915). Hong Kong: IEEE.

Zhang, Y., & Gu, H. (2011). Text Mining with Application to Academic Libraries. En Computer Science for Environmental Engineering and EcoInformatics (págs. 200-205). Springer Berlin Heidelberg.

Publicado

2016-11-21

Como Citar

Contreras Barrera, M. (2016). Mineração de texto em a classificação de documentos digitais. Biblios Journal of Librarianship and Information Science, (64), 33–43. https://doi.org/10.5195/biblios.2016.309

Edição

Seção

Original