Minería de texto en la clasificación de documentos digitales

Marcial Contreras Barrera

doi:10.5195/biblios.2016.309

Mineração de texto em a classificação de documentos digitais

Autores

Marcial Contreras Barrera Universidad Nacional Autónoma de México – UNAM http://orcid.org/0000-0002-2837-5221

DOI:

https://doi.org/10.5195/biblios.2016.309

Palavras-chave:

Mineração de texto, Classificação, Classificador automatizado, Material bibliográfico

Resumo

Objetivo: Desenvolver um classificador automatizado para a classificação de material bibliográfico por meio da mineração de texto. Metodologia: A mineração de texto é empregue para o desenvolvimento do classificador, baseado num método de controle conformado por duas etapas; de aprendizagem e reconhecimento, na etapa de aprendizagem, o classificador aprende padrões através da análise de registros bibliográficos, da classificação Z, da área da biblioteconomia, as ciências da informação e recursos de informação recuperados da base de dados LIBRUNAM , nesta etapa se obtém o classificador com capacidade de reconhecer as diferentes subclases (LC). Na etapa de reconhecimento o classificador se valida e avalia mediante provas de classificação, para issp se tomam aleatoriamente registros bibliográficos da classificação Z, classificados por um catalogador e processados pelo classificador automatizado, com o fim de obter a precisão do classificador automatizado. Resultados: A utilização da mineração de texto permitiu o desenvolvimento do classificador automatizado, mediante o método de classificação de documentos de forma controlada. A precisão do classificador foi calculada realizando a comparação entre os temas atribuídos de forma manual e automatizada obtendo um grau de precisão de 75.70%. Conclusões: A aplicação da mineração de texto facilitou a criação do classificador automatizado, permitindo obter tecnologia útil para a classificação de material bibliográfico com a finalidade de melhorar e agilizar o processo de organização da informação.

Biografia do Autor

Marcial Contreras Barrera, Universidad Nacional Autónoma de México – UNAM

Técnico Académico, Subdirección de Informática, Departamento de Producción, Dirección General de Bibliotecas, Universidad Nacional Autónoma de México – UNAM, México.

Referências

Abbott, D. (10 de Julio de 2013). Introduction to Text Mining. Recuperado el 17 de 6 de 2014, de http://www.vscse.org/summerschool/2013/Abbott.pdf

Abdullah Muhammad, A. (2014). Medical Document Classification Based on MeSH. 2014 47th Hawaii International Conference on System Sciences (págs. 2571 - 2575). Waikoloa, HI: I EEE.

Ananiadou, S., Kell, D. B., & Tsujiii, J.-i. (October de 2006). Text mining and its potential applications in systems biology. (ELSEVIER, Ed.) Trends in Biotechnology, 24(12), 9.

Arkaitz Zubiaga, V. F. (2009). Comparativa de aproximaciones a SVM semisupervisado multiclase para clasificación de páginas Web. Recuperado el 16 de 10 de 2015, de Dialnet: http://dialnet.unirioja.es/servlet/articulo?codigo=2973575

Dey, L., Rastogi, A. C., & Kumar, S. (2006). Generating Concept Ontologies Through Text Mining. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence (págs. 23 - 32 ). Hong Kong : IEEE.

Katerina Frantzi, S. A. (August de 2000). Automatic recognition of multi-word terms:. the C-value/NC-value method. (S. Link, Ed.) International Journal on Digital Libraries, 3(2), 115-130.

LAN, Q. (2010). Extraction of News Content for Text Mining Based on Edit Distance. Journal of Computational Information Systems, (págs. 3761-3777).

Lee, S., Baker, J., Song, J., & Wetherbe, J. C. (2010). An Empirical Comparison of Four Text Mining Methods . Proceedings of the 43rd Hawaii International Conference on System Sciences - 2010 (págs. 1-10). Hawaii : IEEE.

Lévano, G. L. (12 de 06 de 2011). Clasificación de colecciones. Recuperado el 12 de 08 de 2013, de http://www.ugel05.edu.pe/

M.Sukanya, S. (2012). Techniques on Text Mining. 2012 IEEE International Conference on Advanced Communication Control and Computing Technologies (ICACCCT), (págs. 269-271). Ramanathapuram .

Maggini, M., Rigutini, L., & Turchi, M. (2004). Pseudo-Supervised Clustering for Text Documents. Web Intelligence, 2004. WI 2004. Proceedings. IEEE/WIC/ACM International Conference on (págs. 363 - 369 ). IEEE .

Mahdi Shafiei, S. W. (2007). Document Representation and Dimension Reduction for Text Clustering. Workshop on Text Data Mining and Management (TDMM) in conjuction with 23rd IEEE conference (págs. 770-778). Turquia: IEEE.

Maowen, W., Caidong, Z., Weiyao, L., & QingQiang, W. (2012 ). Text Topic Mining Based on LDA and Co-occurrence Theory. Computer Science & Education (ICCSE), 2012 7th International Conference on (págs. 525 - 528 ). Melbourne, VIC : IEEE .

Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic keyword extraction from individual documents. En J. K. Michael W. Berry, Text mining : applications and theory. New Jersey: Mic hael W. Berry and Jacob Kogan.

Salton, G. (1989). Automatic text processing : The transformation, analysis, and retrieval of information by computer. E.U.A: Eddison Wesley.

Salton, G., & Mcgill, M. J. (1983). Introduction to modern information retrieval. New York: McGraw-Hill.

Swanson, D. R. (1991). Complementary structures in disjoint science literatures. In Proceedings of the 14th Annual International ACM/SIGIR Conference, 280-289.

Swanson, D., & Smalhaiser, N. (1994). Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease. Neuroscience research communications, 15, 1-9.

Verma, V. K., Ranjan, M., & Mishra, P. (2015). Text mining and information professionals: Role, issues and challenges . Emerging Trends and Technologies in Libraries and Information Services (ETTLIS), 2015 4th International Symposium on (págs. 133 - 137 ). Noida : IEEE .

Wang, Z. (2010). Document Classification Algorithm Based on Kernel Logistic Regression. Industrial and Information Systems (IIS), 2010 2nd International Conference on (Volume:1 ) (págs. 76 - 79 ). Dalian : IEEE.

Wei, W., & Barnaghi, P. M. (23 de sep de 2013). University of Surrey. Recuperado el 15 de octubre de 2015, de http://epubs.surrey.ac.uk/533646/

Xiu-Li, P., Feng, Y.-Q., & Jiang, W. (2007). An improved document classificaction approach with maximum entropy and entropy feauture selection. 2007 International Conference on Machine Learning and Cybernetics (págs. 3911-3915). Hong Kong: IEEE.

Zhang, Y., & Gu, H. (2011). Text Mining with Application to Academic Libraries. En Computer Science for Environmental Engineering and EcoInformatics (págs. 200-205). Springer Berlin Heidelberg.

Downloads

PDF (Español (España))

Publicado

2016-11-21

Como Citar

Contreras Barrera, M. (2016). Mineração de texto em a classificação de documentos digitais. Biblios Journal of Librarianship and Information Science, (64), 33–43. https://doi.org/10.5195/biblios.2016.309

Baixar Citação

Edição

n. 64 (2016)

Seção

Original

Licença

Os autores que publicam neste periódico estão de acordo nos seguintes termos:

O Autor retém o Direito sobre a sua Obra, onde o termo "Obra" incluirá todos os objetos digitais que podem resultar da publicação eletrônica posterior e/ou distribuição.
Uma vez aceitada a Obra, o Autor concede à Editorial o direito da primeira publicação da Obra.
O Autor lhe concederá à Editorial e seus agentes o direito permanente não exclusivo e licença para publicar, arquivar e fazer acessível a Obra em sua totalidade ou em parte, em todas as formas e os meios agora conhecidos ou no futuro, mediante uma Licença Creative Commons Atribuição 4.0 Internacional ou seu equivalente que, para evitar qualquer dúvida, permite a outros copiar, distribuir e comunicar publicamente a Obra nas condições seguintes: Atribuição - outros usuários devem reconhecer a Obra da forma especificada pelo Autor ou como se indica no lugar web do periódico científico; Entendendo que esta condição possa ser modificada com a licença do Autor e que, quando a Obra ou qualquer de seus elementos se ache no domínio público segundo a legislação aplicável, que seu status não esteja em absoluto afetado pela licença.
O Autor é capaz de entrar em acordos contratuais independentes, adicionais para a distribuição não exclusiva da versão da Obra publicada no periódico científico (por exemplo, publicá-la num repositório institucional ou publicá-la num livro) sempre que se proporcione no documento um reconhecimento de sua publicação inicial neste periódico científico.
Os Autores estão autorizados e tem o apoio para publicar em linha um manuscrito antes da sua publicação (mas não a versão final da Obra formatada em PDF para a Editorial) em repositórios institucionais ou em seu sitio, antes e durante o processo de envio, já que pode dar lugar a intercâmbios produtivos, e a uma citação primigênia maior do trabalho publicado (ver o efeito do acesso aberto). Dita Obra depois de sua aceitação e publicação se deverá atualizar, incluindo a referência DOI (Digital Object Identifier) atribuída pela Editorial e o vínculo ao resumo em linha da versão final publicada no periódico.
A petição da Editorial, o Autor se compromete a comunicar e apresentar oportunamente ao Editor, e por conta dele, as provas escritas das permissões, licenças e autorizações para o uso de material de terceiros incluso na Obra, exceto o determinado pela Editorial a cobrir-se pelos princípios de uso justo.
O Autor declara e garante que:

a. A Obra é um trabalho original do Autor;
b. O Autor não transferiu e não transferirá, os direitos exclusivos sobre a Obra para um terceiro;
c. A Obra não está em avaliação em outro periódico científico;
d. A Obra não foi publicada em outro periódico científico;
e. A Obra não contém nenhuma tergiversação ou infração ao trabalho propriedade de outros autores ou terceiros, e
f. A Obra não contém nenhuma difamação, invasão da privacidade, ou qualquer outro assunto ilegal.
O Autor se compromete a indenizar e eximir à Editorial se não cumprir com as declarações e garantias contidas no parágrafo 7 anterior, assim como de qualquer reclamação ou procedimento relacionado com o uso e a publicação da Editorial de qualquer conteúdo da Obra, incluído o conteúdo de terceiros.