Evaluation of data balancing techniques. Application to CAD of lung nodules using the LUNA16 framework
Palabras clave:
Data balance, Computer Aided Detection, Near-Miss, CNN, Random Under-sample, Tomek links, Self-Organized Map, Random Over-sample, ADASYN, SMOTE, LUNA16Resumen
Due to the high incidence of the lung cancer all over the world, computer-aided detection (CAD) systems play an important role in screening. Classification in CAD systems have to deal with highly imbalanced datasets composed by actual nodules and non-nodules structures. The application of data balancing techniques helps the training process of the classifiers making the generation of the classification rules more effective. The purpose of this paper is to compare the performance of different data balancing techniques applied to the classification of lung nodules. According to the reviewed literature, this is the first time that different data balancing methods are evaluated on the problem of lung nodule detection using a large data set. A web-based framework was used to evaluate the different methods applied to a classical CAD system (ETROCAD) presented in the LUNA16 Challenge. In the experiments, data balance using SMOTE and SMOTE-TL lead to the best results, with a score of 0.760 and 0.759 respectively, in comparison to 0.748 when not balancing the data. At the time of writing this paper, the SMOTE-based ETROCAD system have the best score among all the classical systems using handcrafted features in LUNA16 web sit.Descargas
Publicado
2018-10-18
Número
Sección
Artículos
Licencia
- Los autores que publican en esta revista están de acuerdo con los siguientes términos: Los autores conservan todos los derechos de autor y garantizan a la revista el derecho de ser la primera en publicar el trabajo.
- Los autores pueden establecer por separado acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarlo en un repositorio institucional o publicarlo en un libro), con un reconocimiento de su publicación inicial en esta revista.
- Se permite y se anima a los autores a difundir sus trabajos electrónicamente (por ejemplo, en repositorios institucionales o en su propio sitio web) antes y durante el proceso de envío, ya que puede dar lugar a intercambios productivos, así como a una citación más temprana y mayor de los trabajos publicados (Véase The Effect of Open Access) (en inglés).
- Los contenidos de la revista se distribuyen bajo una licencia Creative Commons Attribution-NonCommercial 4.0. Esto significa que se permite su copia y distribución por cualquier medio, siempre que mantenga el reconocimiento de sus autores y no se haga uso comercial de las obras. La licencia completa puede consultarse en:
https://creativecommons.org/licenses/by/4.0/deed.es_ES