Statistical analysis of the performance of four Apache Spark ML algorithms

Detalles Bibliográficos
Autor Principal: Camele, Genaro
Otros autores o Colaboradores: Hasperué, Waldo, Ronchetti, Franco, Quiroga, Facundo Manuel
Formato: Capítulo de libro
Lengua:inglés
Temas:
Acceso en línea:https://doi.org/10.24215/16666038.22.e14
Consultar en el Cátalogo
Resumen:Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros.
Notas:Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca)
Descripción Física:1 archivo (829,7 kB)
DOI:10.24215/16666038.22.e14

MARC

LEADER 00000naa a2200000 a 4500
003 AR-LpUFIB
005 20250311170527.0
008 230201s2022 xx o 000 0 eng d
024 8 |a DIF-M8761  |b 8988  |z DIF008029 
040 |a AR-LpUFIB  |b spa  |c AR-LpUFIB 
100 1 |a Camele, Genaro 
245 1 0 |a Statistical analysis of the performance of four Apache Spark ML algorithms 
300 |a 1 archivo (829,7 kB) 
500 |a Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca) 
520 |a Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros. 
534 |a Journal of Computer Science & Technology, 2022, 22(2), pp. 175-182. 
650 4 |a BIG DATA 
650 4 |a APRENDIZAJE AUTOMÁTICO 
653 |a Apache Spark 
700 1 |a Hasperué, Waldo 
700 1 |a Ronchetti, Franco 
700 1 |a Quiroga, Facundo Manuel 
856 4 0 |u https://doi.org/10.24215/16666038.22.e14 
942 |c CP 
952 |0 0  |1 0  |4 0  |6 A1277  |7 3  |8 BD  |9 84182  |a DIF  |b DIF  |d 2025-03-11  |l 0  |o A1277   |r 2025-03-11 17:05:27  |u http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2656  |w 2025-03-11  |y CP 
999 |c 57801  |d 57801