Statistical analysis of the performance of four Apache Spark ML algorithms

Mostrar todas las versiones(2)

Detalles Bibliográficos
Autor Principal:	Camele, Genaro
Otros autores o Colaboradores:	Hasperué, Waldo, Ronchetti, Franco, Quiroga, Facundo Manuel
Formato:	Capítulo de libro
Lengua:	inglés
Temas:	BIG DATA APRENDIZAJE AUTOMÁTICO Apache Spark
Acceso en línea:	https://doi.org/10.24215/16666038.22.e14 Consultar en el Cátalogo
Resumen:	Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros.
Notas:	Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca)
Descripción Física:	1 archivo (829,7 kB)
DOI:	10.24215/16666038.22.e14

MARC


LEADER	00000naa a2200000 a 4500
003	AR-LpUFIB
005	20250311170527.0
008	230201s2022 xx o 000 0 eng d
024	8		\|a DIF-M8761 \|b 8988 \|z DIF008029
040			\|a AR-LpUFIB \|b spa \|c AR-LpUFIB
100	1		\|a Camele, Genaro
245	1	0	\|a Statistical analysis of the performance of four Apache Spark ML algorithms
300			\|a 1 archivo (829,7 kB)
500			\|a Formato de archivo PDF. -- Este documento es producción intelectual de la Facultad de Informática - UNLP (Colección BIPA/Biblioteca)
520			\|a Las técnicas de selección de características suelen requerir el entrenamiento y la evaluación repetida de modelos con el fin de evaluar la ünportancia de cada característica para una tarea concreta. Sin embargo, debido al aumento del tamaño de las bases de datos disponibles actualmente, el procesamiento distribuido se ha convertido en una necesidad para muchas tareas tareas. En este contexto, la librería Apache Spark ML es una de las más utilizadas para realizar clasificación y otras tareas con grandes conjuntos de datos. Por ello, conocer tanto el rendimiento predictivo como la eficiencia de sus principales algoritmos antes de aplicar una técnica de selección de características es crucial para planificar los cálculos y ahorrar tiempo. En este trabajo se realiza un estudio comparativo de cuatro algoritmos de clasificación de Spark ML, midiendo estadísticamente los tiempos de ejecución y el poder predictivo en función del número de atributos de una base de datos de cáncer de colon. Los resultados fueron analizados estadísticamente, mostrando que, aunque Random Forest y Naive Bayes son los algoritmos con menores tiempos de ejecución, Support Vector Machine obtiene modelos con el mejor poder predictivo. El estudio de la performance de estos algoritmos resulta interesante ya que los mismos son utilizados en problemas muy diversos, como por ejemplo, la clasificación de diferentes patologías a partir de datos epigenómicos, clasificación de imágenes, la predicción de ataques informáticos en problemas de seguridad en redes, entre otros.
534			\|a Journal of Computer Science & Technology, 2022, 22(2), pp. 175-182.
650		4	\|a BIG DATA
650		4	\|a APRENDIZAJE AUTOMÁTICO
653			\|a Apache Spark
700	1		\|a Hasperué, Waldo
700	1		\|a Ronchetti, Franco
700	1		\|a Quiroga, Facundo Manuel
856	4	0	\|u https://doi.org/10.24215/16666038.22.e14
942			\|c CP
952			\|0 0 \|1 0 \|4 0 \|6 A1277 \|7 3 \|8 BD \|9 84182 \|a DIF \|b DIF \|d 2025-03-11 \|l 0 \|o A1277 \|r 2025-03-11 17:05:27 \|u http://catalogo.info.unlp.edu.ar/meran/getDocument.pl?id=2656 \|w 2025-03-11 \|y CP
999			\|c 57801 \|d 57801

Statistical analysis of the performance of four Apache Spark ML algorithms

MARC

Ejemplares similares