Artículo original/ Original article
ISSN 2953-6553
Implementación de un Modelo de Regresión Lineal Múltiple aplicando
(PLN) para predicción de artículos científicos.
Implementation of a Multiple Linear Regression Model
applying (PLN) for prediction of scientific articles.
David Crespo-Campoverde1 0009-0006-3127-6626, Juan Campoverde-Villalta2 0009-0000-5371-1402,
Wilson Sánchez-Bermeo3 0009-0002-5515-9986, Diana Romero-Córdova4 0000-0001-8456-4660
david.crespo.est@tecazuay.edu.ec, juan.campoverde.est@tecazuay.edu.ec,
wilson.sanchez.est@tecazuay.edu.ec, diana.romero@tecazuay.edu.ec
Instituto Superior Universitario Tecnológico del Azuay, Cuenca, Ecuador
DOI 10.36500/atenas.2.008
Resumen
En este artículo se explica la importancia de la
regresión lineal múltiple en diferentes aplicaciones,
como el procesamiento del lenguaje natural y la
predicción de series de tiempo. Se destaca su relevancia
en la creación de sistemas de tutoría inteligente que se
adapten a las necesidades individuales de los
estudiantes. Se presenta el marco teórico sobre los
modelos de regresión, desde la regresión lineal simple
hasta la regresión lineal múltiple, y se describen los
diferentes tipos de variables que intervienen en el
modelo. Además, se discuten los tipos de datos, técnicas
de preparación de datos, evaluación del modelo y
metodología utilizada en un trabajo de análisis de
datos. Se aplicó la metodología de crisp-dm, que se
divide en seis fases: recolectar datos, preparar los datos,
modelar, evaluar, implementar y mantener. Se describe
el proceso de recolección de datos y etiquetación de la
data de IoT, la carga y visualización de la base de datos,
y las técnicas utilizadas en la limpieza y transformación
de variables. También se explican algunas técnicas de
preparación de datos y medidas comunes utilizadas
para evaluar la calidad del ajuste del modelo.
Abstract
This article explains the importance of multiple linear
regression in different applications, such as natural
language processing and time series forecasting. Its
relevance in the creation of intelligent tutoring systems
that adapt to the individual needs of students is
highlighted. The theoretical framework on regression
models is presented, from simple linear regression to
multiple linear regression, and the different types of
variables involved in the model are described. In
addition, the types of data, data preparation techniques,
model evaluation, and methodology used in data
analysis work are discussed. The crisp-dm methodology
was applied, which is divided into six phases: collect
data, prepare the data, model, evaluate, implement and
maintain. The process of data collection and labeling of
the IoT data, the loading and visualization of the
database, and the techniques used in the cleaning and
transformation of variables are described. Some
common data preparation techniques and measures
used to assess the quality of model fit are also explained.
Palabras Claves – Regresión lineal, Análisis de texto, Clasificación de texto, Aprendizaje Automático, Predicción
de resultados, Modelos de regresión.
Recibido: 2023-05-05, Aprobado tras revisión: 2023-11-10
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Keywords– Linear regression, Text analysis, Text classification, Machine learning, Prediction of results,
Regression models
I. INTRODUCCIÓN
La regresión lineal múltiple es una técnica de aprendizaje automático que se utiliza en una
variedad de aplicaciones, como el procesamiento del lenguaje natural, la minería de datos y la
predicción de series de tiempo. El conocimiento de la regresión lineal múltiple es importante
para los científicos de datos y los ingenieros informáticos que trabajan en estas áreas, la
regresión lineal múltiple se puede utilizar en modelos de clasificación para predecir la
probabilidad de que una observación pertenezca a una categoría en particular.
Los algoritmos de regresión lineal múltiple son esenciales en el procesamiento del lenguaje
natural (PLN) porque permiten modelar la relación entre múltiples variables de entrada y una
variable de salida continua. En el contexto del PLN, estas variables de entrada pueden
representar características lingüísticas, como el número de palabras en una oración, la
frecuencia de ciertas palabras, la complejidad sintáctica y semántica, entre otras. Al aplicar la
regresión lineal múltiple a datos lingüísticos, se pueden realizar análisis cuantitativos y
predecir el valor de la variable de salida en función de las variables de entrada.
La capacidad de predecir el rendimiento del lenguaje puede tener importantes aplicaciones
prácticas, como en el diseño de sistemas de tutoría inteligente que pueden adaptarse a las
necesidades individuales de los estudiantes.
II. MARCO TEÓRICO
Perspectiva general sobre los modelos de regresión
En este apartado se explican los aspectos claves de los modelos de regresión usados más
adelante. Se divide en dos secciones: Regresión Lineal Simple y Regresión Lineal Múltiple.
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
El valor del modelo de RLS.
Las RLS es un componente del aprendizaje supervisado, permite predecir cantidades
continuas a partir de datos históricos y etiquetados. Este aprendizaje utiliza un tipo de modelo
que correlaciona una relación entre ciertas características Xcontinuas con una variable
objetivo Ycontinua, su respuesta an una variable dependiente identificada con Y, con la
condición de que se de al menos una variable independiente X, representada a través de una
recta Y= f(X), es decir, de una o más variables dependientes describidas en valores de la
combinación de forma basado en la cantidad de variables independientes xi que se relacionan
con el modelo mencionado anteriormente. (Roque López, 2021)
Este tipo de modelo (RLS) hace referencia en la expresión de dependencia a la lineal de su
variable meta o dependiente además de la variable referente a la independiente o explicativa
xy de la ecuación del error o desviación ε del modelo. Donde: yt es la variable dependiente,
explicada o endógena. Xt es una variable independiente, muy explicativa o también exógena.
Figura 1
fórmula matemática de regresión lineal simple
Determinación del modelo de Regresión Múltiple
Para desarrollar la técnica, es fundamental y muy importante el comprender tanto la variable
llamadas dependiente como las variables llamadas independientes, las cuales deben ser
continuas. Como resultado, esto permitirá utilizar la técnica principalmente para relacionar
una variable dependiente continua con un conjunto de variables categóricas; o para relacionar
una variable dependiente nominal con una muestra de valores que se consideran variables
continuas. Este modelo de regresión lineal múltiple bien conocido considera una serie de
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
variables a tomar y afecta cómo se relacionan con los valores de la tercera variable, o
reacciones. (Montero, 2016)
A continuación se procede a especificar cada una de las variables, para determinar el modelo
multivariante o Regresión múltiple, en el presente documento.
Se definen de la siguiente forma: y=variable dependiente, a= variables independientes cuando
son igual a cero, bi = p son los valores de los coeficientes parciales de regresión de cada
una de las predictoras, xi= por cada unidad de variación de la variable predictora mantiene
las demás predictoras constantes.
Figura 2
fórmula matemática de regresión lineal múltiple
Tipos de variables
Proponiendo a nuestro MRLM quedaría a la forma siguiente Y hace referencia a variables
endógenas dependientes, X son variables exógenas independientes. (Junco, 2021)
La regresión lineal que se pretende aplicar, cuenta con variables categóricas para analizar, se
debe realizar un tratamiento adecuado respecto de la naturaleza de este tipo de información.
Las variables en mención permiten darle una interpretación a las n categorías que se tienen en
una variable a través de la asignación de n – 1 coeficientes, los cuales indican ausencia o
presencia de cada categoría. Se considera n – 1 porque la ausencia de todas las variables
igualmente se traduce en la presencia de otra variable, ya que, si estuviera representada como
otro coeficiente, se trataría de una colinealidad de variables. (Montero, 2016)
En el análisis de esta regresión llamada múltiple se tiene que tomar en cuenta los mismos
aspectos que en una regresión simple: Como la validez y ajuste del modelo, ecuación de
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
regresión y el análisis de los supuestos. (Portugal, 2020)
Según Baños Ruth (2019) los supuestos que se deben cumplir son: Linealidad: La relación
entre variables debe ser lineal, Independencia: Los errores en la medición de las
variables explicativas sean independientes entre sí, Homocedasticidad: Los errores tienen
varianza constante, Normalidad: Las variables sigan la Ley Normal, No colinealidad: Las
variables independientes no estén correlacionadas entre ellas. El objetivo de la regresión
múltiple es obtener valores de parámetros de regresión que minimicen la suma de errores al
cuadrado o residuos de manera similar a la regresión simple con la finalidad de optimizar las
predicciones.
METODOLOGÍA CRISP-DM
Esta metodología es ideal para proyectos de ciencia de datos, cuenta con seis fases iterativas
para el desarrollo las cuales son: Entendimiento del negocio, Entendimiento de datos,
Preparación de datos, Construcción del modelo, Evaluación del modelo, Despliegue del
modelo (Jiménez, 2023).
Utilizada en entorno al proyecto: Recolectar datos: Identifica el objetivo de este artículo, para
resolver el problema planteado. Preparación de los datos: Se limpian los datos, se integran y
se transforman para prepararlos para su uso en el modelo. Elegir el modelo: En esta fase, se
seleccionan y se construyen modelos de regresión lineal múltiple. Entrenar la máquina: Se
eligen las variables que utilizaremos para entrenar nuestro modelo. Evaluación: Se evalúan
los modelos de regresión lineal múltiple y se determina el mejor modelo.
Tipos de datos
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Existen varios tipos de datos que se utilizan en programación y análisis de datos. A
continuación, se mencionan algunos de los tipos de datos más comunes: Números enteros
(int): Son números enteros, sin decimales. Números de punto flotante (float): Son los
números con decimales. Cadenas de texto (string): Es una secuencia de caracteres que se
utilizan para representar texto, como palabras y frases. Booleanos (bool): se refiere a valores
que pueden ser verdadero o falso (True o False), y se utilizan para representar condiciones
lógicas.
Técnicas de preparación de los datos
Las técnicas de preparación de datos son procesos que se realizan para limpiar, transformar y
dar formato a los datos para que puedan ser analizados de manera efectiva. Algunas técnicas
comunes son: Limpieza de datos: Es la identificación y eliminación de errores y valores
atípicos en los datos, así como también la imputación de datos faltantes. Transformación de
datos: Se refiere a la conversión de los datos a un formato más adecuado para su análisis.
Integración de datos: Combina distintos datos de varias fuentes en un conjunto de datos.
Reducción de datos: La eliminación de variables redundantes o irrelevantes para el análisis.
(Peña, 2017).
Evaluación del Modelo
Para la evaluación de la calidad del ajuste del modelo se utilizó el MSE (error cuadrático
medio) y el R2 (coeficiente de determinación). El MSE mide la diferencia promedio entre los
valores observados y los valores predichos por el modelo. El R2 mide la proporción de la
varianza total en la variable dependiente que se puede explicar por el modelo. (Roque López,
2021)
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Coeficientes e Intersecciones
Los coeficientes representan el cambio en la variable dependiente por unidad de cambio en
una variable independiente, manteniendo todas las demás variables constantes. La
intersección representa el valor de la variable dependiente cuando todas las variables
independientes son iguales a cero. (Roque López, 2021)
Gráfico de residuos
El gráfico de residuos es una herramienta utilizada para evaluar la calidad del ajuste del
modelo. Los residuos son las diferencias entre los valores observados y los valores predichos
por el modelo. Un gráfico de residuos muestra los residuos en el eje “y” con los valores
predichos en el eje x.
III. METODOLOGÍA
Para la metodología se aplicó la metodología de crisp-dm
Paso 1: Recolectar Datos
Para el siguiente paso, se revisaron varios artículos que contenían información sobre IoT de
en un repositorio online el cual esta información se presentó en hojas de cálculo, la
información en algunos casos estaba incompleta o con errores. Dado este inconveniente, se
unificó la data de las diferentes bases de datos en un solo archivo de origen .csv.
Con las bases de datos unificada se procedió a realizar una verificación de los artículos para
saber si tenían temática de IoT y en qué áreas del mismo se pertenecían, lo que se realizó para
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
saber si estos artículos eran sobre Iot se procedió a leer las conclusiones y los resúmenes de
los mismo y de esa manera poder identificar cuales trataban del tema de IoT.
Con la data ya unificada se procedió a eliminar los artículos que eran de origen Scopus puesto
que no presentaban información muy confiable y de igual manera se eliminaron aquellos que
tenían información incompleta. Después de la eliminación de los respectivos artículos,
quedaron 280 artículos en total, con los que se procedió a trabajar. Concluido lo anterior se
procedió con la etiquetación de la data. Las palabras que se colocaron en la etiquetación
fueron seleccionadas del abstract y las conclusiones que presentan los artículos, en la data de
IoT se obtuvieron 30 palabras que poseían relevancia sobre el tema a tratar.
Paso 2: Preparar los datos
Carga de la Base de datos
Para empezar nuestro trabajo se realizó la carga de la base de datos de origen csv. en una
variable con nombre data y de esta manera poder trabajar de una mejor manera.
Visualización de los Datos
En la exploración de datos, se realizó una exploración de los datos numéricos y categóricos
de nuestra data al igual que se realizó una exploración de los tipos de valores.
Preprocesamiento de la data
Para poder realizar un buen preprocesamiento de datos se utilizó diferentes técnicas las cuales
fueron limpieza de los datos y adicionalmente la transformación de las variables.
Limpieza de Datos.
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Se prepararon los datos, con la finalidad de eliminar aquellos datos nulos y faltantes en la
data teniendo con variables con más datos nulos Extracción de datos y Análisis Exploratorio
de Datos (EDA).
Transformación de variables.
Se realizó una transformación de variables por lo que se procedió a transformar una variable
la variable de descarga directa desde fuente oficial (SI/NO) que era de tipo “object”. Lo que
se realizó fue una codificación numérica dado que la variable que se escogió tenía valores de
Si y No dentro de ella, para cambiar esos valores a valores numéricos. Siguiendo en la
transformación de variables se realizaron dos cambios en dos variables que eran de origen
Float64, las cuales por medio de otro código se transformaron a valores int64.
Una vez se concluyó con el preprocesamiento se realizó un nuevo código con el fin de
conocer aquellas variables con más datos dentro de ellas, teniendo como resultado a las
siguientes columnas: 'IOT', 'Deep Learning', 'Aprendizaje Supervisado', ‘Industria 4.0’. Se
realizó una gráfica con las variables antes mencionadas comparándolas con la variable de
IOT y de esta manera poder observar cómo se representan con nuestra variable, en la gráfica
se muestran dos columnas las cuales corresponden a los valores de si (Pertenece al artículo) o
no (No pertenece al artículo) que están representadas como 0 y 1 respectivamente.
Figura 3
Gráfica de las variables con más datos.
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Nota. En la gráfica se muestran las variables con más datos en nuestra base de datos. Fuente:
Elaborado por: Los autores.
Una vez concluido todo el preprocesamiento se guardaron todos los datos ya procesados en
una nueva variable con nombre de data IoT procesada la cual se volvió a cargar en la variable
de data para comenzar con el entrenamiento.
Paso 3: Elegir el modelo
En este paso se procedió a escoger un modelo el cual encaje bien con nuestro objetivo
planteado para trabajar la data, siendo este el modelo de regresión lineal múltiple.
Paso 4: Entrenar la máquina
Una vez planteado el modelo se procedió a realizar el entrenamiento, como primer paso se
definieron las variables a trabajar X, “y” las cuales tendrán como valores las columnas con
mayor cantidad de datos.
De esta manera “X” posee los valores de las columnas de Deep Learning, Aprendizaje
Supervisado, Industria 4.0 y en cambio la variable “y” posee los valores de la columna de
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
IOT. Ya con las variables X, y definidas se procedió a realizar el entrenamiento de las
variables, en si lo que se realizó fue dividir el conjunto de datos original (‘X’ e ‘y’) en dos
conjuntos separados para poder entrenar en el conjunto de entrenamiento y luego evaluar su
rendimiento en el conjunto de prueba.
Realizado el entrenamiento se procedió a realizar un escalamiento de los datos con el objetivo
de asegurar que todas las características se encuentren en la misma escala.
Por lo tanto, se utiliza una técnica de normalización de características como la
estandarización. Esto asegura que las mismas transformaciones se aplican a los datos de
entrenamiento y prueba, lo que garantiza una comparación justa de los resultados de la
regresión lineal múltiple. Al momento de realizar el entrenamiento del modelo se utilizó un
comando para entrenar un modelo de regresión lineal múltiple.
Paso 5: Evaluación
Concluido el entrenamiento se empleó un código que se utiliza para realizar predicciones
utilizando un modelo de regresión que ya ha sido entrenado en un conjunto de datos, el
código realiza la tarea de hacer predicciones utilizando un modelo de regresión previamente
entrenado.
Con estos parámetros sacamos como resultados: MSE: 7.361968094464915e-30 el valor del
MSE presentado es extremadamente pequeño, lo que indica que el modelo tiene un ajuste
perfecto a los datos de entrenamiento, R2: 1.0 en este caso, lo que indica que el modelo
explica el 100% de la variabilidad en la variable objetivo y tiene un ajuste perfecto a los datos
de entrenamiento.
Figura 4
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Resultados de MSE y R2
Nota. En la gráfica se puede observar los resultados de MSE y R2. Fuente: Elaborado por:
Los autores.
A Continuación, se realizó un código para observar los coeficientes y la intersección en el
resultado. Los coeficientes son todos muy cercanos a cero, lo que puede indicar que el
modelo no tiene una buena capacidad predictiva. Sin embargo, el valor de la intersección es
de 0.528, lo que significa que todas las variables independientes sean o se acerquen a cero.
Para finalizar en el análisis del modelo se utilizó la gráfica de residuos que es una
herramienta útil de la regresión lineal múltiple.
Figura 5
Gráfico de residuos.
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Nota. Gráfica comparativa de valores predichos y residuos. Fuente: Elaborado por: Los
autores.
Resultados
Se logró un manejo adecuado del modelo de regresión lineal y un análisis sólido de las
variables planteadas durante el proceso de entrenamiento y preprocesamiento. Los resultados
del modelo son altamente prometedores, ya que se obtuvo un MSE de 7. Esto sugiere un
ajuste prácticamente perfecto a los datos de entrenamiento. Además, el coeficiente de
determinación R2 alcanzó el valor de 1.0, lo que indica que el modelo es capaz de explicar el
100% de la variabilidad en la variable objetivo y presenta un ajuste excepcional a los datos de
entrenamiento.
Un aspecto importante a destacar es que, en la gráfica de residuos, se observan valores
dispersos de manera aleatoria. Esta dispersión aleatoria es una señal positiva que indica que
el modelo de regresión se ajusta adecuadamente. En conjunto, estos resultados respaldan la
eficacia del modelo y sugieren que es una herramienta confiable para realizar predicciones
precisas basadas en las variables consideradas.
Conclusiones
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
Con los pasos de preprocesamiento de la data se logró obtener datos afines con los que se
pudo trabajar con el modelo. En base a esto, se pudo desarrollar el planteamiento de manera
correcta en cuanto a la extracción y preparación de los datos. También se analiza en qué casos
se aplica la metodología de regresión lineal en este artículo:
Predicción de Temática de Artículos Científicos: Se utiliza la regresión lineal múltiple para
predecir la temática de los artículos científicos. En este caso, las variables independientes
incluyen características relacionadas con el procesamiento del lenguaje natural, como la
presencia de palabras clave específicas, la frecuencia de ciertas palabras, etc. La variable
dependiente es la temática del artículo, convirtiéndolo en un problema de regresión donde se
busca predecir una variable categórica.
Procesamiento del Lenguaje Natural (PLN): La regresión lineal múltiple se utiliza en el
contexto del procesamiento del lenguaje natural, lo que significa que se aplica a datos
lingüísticos. Se trata de un caso donde las características lingüísticas se utilizan como
variables independientes para predecir resultados relacionados con el procesamiento del
lenguaje, como la temática de los artículos.
Análisis de Variables: El artículo describe cómo se seleccionan y utilizan las variables
lingüísticas como predictores en el modelo de regresión lineal múltiple. Esto implica analizar
y procesar las variables para que sean adecuadas para su uso en el modelo.
Evaluación del Modelo: El artículo también se enfoca en la evaluación del modelo de
regresión lineal múltiple mediante medidas como el Error Cuadrático Medio (MSE) y el
coeficiente de determinación (R^2). Estas medidas se utilizan para evaluar la calidad del
ajuste del modelo.
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
La implementación del modelo de regresión lineal dio como resultado un rendimiento
favorable al momento de la evaluación del modelo, cumpliendo con los parámetros
establecidos en el artículo y proporcionando resultados que indican que el modelo
implementado se aplicó de manera correcta y bien estructurada. Finalmente, se puede
mencionar que se obtuvieron favorables resultados al aplicar el modelo de regresión lineal
múltiple basándose en la aplicación del PLN.
Bibliografía
Baños Ruth, F. M. (2019). Análisis de regresión lineal múltiple con SPSS: un ejemplo
práctico. REIRE Revista d'Innovació i Recerca en Educació, 12(2), 1-10.
Cárdenas-Pérez, A. E. (2021). Explicación del crecimiento económico en la Economía
Popular y Solidaria mediante la aplicación del modelo econométrico de Regresión
Lineal y Múltiple. Revista Publicando, 8(28), 74-84.
Jiménez, S. A. (2023). Modelos de Aprendizaje Automático basados en CRISP-DM para el
Análisis de los niveles de Depresión en los estudiantes de la Escuela Politécnica
Nacional. ARTICLE HISTORY LATIN-AMERICAN JOURNAL OF COMPUTING
(LAJC), 22-43.
Junco, E. E. (2021). Diseño de un Modelo de Regresión Lineal Múltiple Para Predecir el
Rendimiento de Estudiantes de Institutos Superiores Tecnológicos Públicos Frente a
la Nueva Normalidad. European Scientific Journal ESJ, 17.
Montero, R. (2016). Modelos de regresión lineal múltiple (Documento interno, Departamento
de Economía Aplicada, Universidad de Granada).
Portugal, R. T. (2020). MODELO DE REGRESIÓN LINEAL MÚLTIPLE DE LA GESTIÓN
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
DEL CONOCIMIENTO, CON LA CULTURA ORGANIZACIONAL, EL LIDERAZGO
Y LAS TECNOLOGÍAS DE LA INFORMACIÓN Y COMUNICACIÓN, EN
TRABAJADORES DE UNA EMPRESA DE LA CD. DE DURANGO, DURANGO,
MÉXICO. Hitos de Ciencias Económico Administrativas, 266-284.
Roque López, J. (2021). Técnicas de selección de variables en regresión lineal múltiple
(Tesis de maestría, Universidad Internacional de Andalucía). Andalucía, España.
Arellano, A. P. (2020). Modelos de regresión lineal para predecir el consumo de agua potable.
Revista Digital Novasinergia, 3(1), 27-36.
Avalos Tapia, A. G. (2022). Estimación de la cantidad de heridos en accidentes de tránsito
dentro de la provincia de Lima utilizando modelos de regresión lineal múltiple y PCA.
Morantes-Quintana, G. R.-P.-S. (2019). Modelo de regresión lineal múltiple para estimar
concentración de PM 1. Revista Internacional de Contaminación Ambiental, 179-194.
Abuín, J. M., & Rojo, J. M. (2007). Regresión con variable dependiente cualitativa.
Recuperado de
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_variable_d
ependiente_dicotomica_3.pdf.
Tejada, G. V.-T. (2021). Predicción del contenido de almidón en queso fresco adulterado
utilizando Regresión de Mínimos Cuadrados Parciales, Regresión Lineal Múltiple e
Imágenes Hiperespectrales. Journal of Agro-industry Sciences, 3(1), 15-20.
Branzuela, N. F., San Diego, A. L., & Namoco, S. O. (s/f). A multiple regression analysis of
the factors affecting academic performance of computer-aided designing students
during flexible learning program. Sci-int.com. Recuperado el 16 de marzo de 2023,
REVISTA ATENAS Vol 2, No. 1, año de publicación 2023
de
http://www.sci-int.com/pdf/638057079331871453.7%20525-530%20Nicanor%20F.%
20Branzuela%20Jr-SARA-MATH%20-28-11-22.pdf
Ouedraogo, I., Defourny, P., & Vanclooster, M. (2018). Application of random forest
regression and comparison of its performance to multiple linear regression in
modeling groundwater nitrate concentration at the African continent scale.
Hydrogeology Journal.
Peña, S. (2017). Análisis de datos. Bogotá, Colombia: AREANDINA. Fundación
Universitaria del Área Andina.