Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution
Palabras clave:
Vector space modelling, Classifying features, Feature reductionResumen
For automatic classification, the implications of having too many classificatory features are twofold. On the one hand, features may not be helpful to discriminate classes and should be removed from the classification. On the other hand, redundant features may produce negative effects as their number grows and their detrimental impact should be minimized or limited. In text classification tasks, where word and word-derived features are commonly employed, the number of distinctive features extracted from text samples can grow fast. For the specific context of authorship attribution, a number of features traditionally used, such as n-grams or word sequences, can produce long lists of distinctive features, a great majority of which have very few instances. Previous research has shown that in this task feature reduction can supersede the performance of noise tolerant algorithms to solve the issues associated with the abundance of classificatory features. However, there has been no attempt to show the motivation of this solution. This article shows how even in the small data collections characteristically used in authorship attribution, the frequency rank of common elements remains stable as their instances accumulate and novel, uncommon words are constantly found. Given this general vocabulary property, present even in very small text collections, the application of techniques to reduce vector space dimensionality is especially beneficial across the various experimental settings typical of this task. The implications of this may be helpful for other automatic classification tasks with similar conditions.Descargas
Publicado
2019-02-15
Número
Sección
Artículos
Licencia
- Los autores que publican en esta revista están de acuerdo con los siguientes términos: Los autores conservan todos los derechos de autor y garantizan a la revista el derecho de ser la primera en publicar el trabajo.
- Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
- Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados (Véase The Effect of Open Access) (en inglés).
- Los contenidos de la revista se distribuyen bajo una licencia Creative Commons Attribution-NonCommercial 4.0. Esto significa que se permite su copia y distribución por cualquier medio, siempre que mantenga el reconocimiento de sus autores y no se haga uso comercial de las obras. La licencia completa puede consultarse en:
https://creativecommons.org/licenses/by/4.0/deed.es_ES