Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/545

Browse

0-9ABCDEFGHIJKLMNOPQRSTUVWXYZ

Now showing 1 - 20 of 23

Open Access
Análisis del comportamiento de la mortalidad en el Ecuador, mediante el uso de Machine Learning
(PUCE - Quito, 2024) Jiménez Torres, Adriana Nataly; Roa Marín, Henry Nelson
El presente trabajo tiene la finalidad analizar el comportamiento de la mortalidad en el Ecuador, mediante el uso de métodos de pronóstico de series temporales como el método de Holt con tendencia, el método multiplicativo de Holt Winters con estacionalidad y tendencia, así como los métodos autorregresivos ARIMA y SARIMA, además se emplea la técnica de agrupación k modes, para identificar patrones sobre la mortalidad. Para llevar a cabo este análisis, se utiliza la metodología CRISP-DM, que permite desarrollar y evaluar los modelos, adicionalmente para los métodos de series de tiempo se utilizan diversas métricas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utiliza el Silhouette Score. Basándose en las métricas utilizadas, se concluye que el método SARIMA es el más adecuado para predecir la causa de muerte tanto por enfermedades isquémicas del corazón como por enfermedades cerebrovasculares, por otro lado, para la diabetes mellitus, el método de suavizado exponencial de Holt con tendencia se destaca como el más preciso entre los modelos evaluados. En el análisis de agrupación se identifican tres grupos distintos que presentan variaciones notables en la edad, causas de muerte y características demográficas.
Open Access
Análisis predictivo de la demanda de especies valoradas en el consulado del Ecuador en Queens, Estados Unidos de América
(PUCE - Quito, 2024) Chiza Monarco, Víctor Alfonso; Melgarejo Heredia, Rafael
La optimización de la gestión del stock de especies valoradas y la eficiente asignación de este tipo de recursos en el Consulado del Ecuador en Queens son fundamentales para garantizar un servicio consular ágil y efectivo a los ciudadanos ecuatorianos en Estados Unidos. Dada la variedad de trámites consulares y la necesidad de contar con las especies valoradas adecuadas para cada uno, es muy importante comprender y prever la demanda de estos recursos de manera precisa.El análisis y la predicción de la demanda de especies valoradas permitirán al Consulado anticipar las necesidades futuras de trámites consulares y planificar apropiadamente el abastecimiento de especies valoradas en su stock. Esto no solo mejorará la eficiencia en la prestación de servicios consulares, sino que también evitará la escasez o el exceso de estos insumos, optimizando así el uso de recursos financieros y logísticos.Al implementar este proyecto, se espera mejorar significativamente la calidad y la eficiencia de los servicios consulares ofrecidos por el Consulado del Ecuador en Queens, lo que contribuirá a fortalecer la relación entre la comunidad ecuatoriana residente en Estados Unidos y las autoridades consulares. Además, esta iniciativa ayudará a promover una gestión más transparente y eficaz de los recursos públicos asignados a los servicios consulares.
Open Access
Análisis predictivo del churn de clientes para una empresa proveedora del servicio de internet para hogares en el Ecuador
(PUCE - Quito, 2024) Chuquer Erazo, William Hernán; Pincay Nieves, Jhonny Vladimir
El presente estudio se enfoca en el desarrollo de un modelo predictivo para identificar el churn de clientes en una empresa proveedora del servicio de internet para hogares en el Ecuador. Utilizando la metodología CRISP-DM, en la fase de preparación de los datos se realizó un análisis exploratorio utilizando Python, lo que permitió identificar patrones preliminares en el comportamiento de los clientes. En las fases posteriores, se utilizaron herramientas como Alteryx, que facilitó la creación de flujos de trabajo para lograr un análisis exhaustivo de los datos de clientes, aplicando técnicas de limpieza, segmentación y parametrización para garantizar la calidad y relevancia de la información. Qlik Sense fue empleada para lograr una visualización clara y efectiva de los resultados. La técnica de WOE + IV fue crucial para la segmentación y parametrización de variables, mejorando la precisión predictiva.Se entrenaron y compararon varios modelos de machine learning, entre ellos, Regresión Logística, Árboles de Decisión y Random Forest, siendo este último el modelo con el mejor desempeño. Random Forest alcanzó una precisión del 99.5% para la predicción de cancelaciones administrativas y del 81% para cancelaciones voluntarias. Estos resultados proporcionan a la empresa herramientas sólidas para la implementación de estrategias de retención de clientes, permitiendo una intervención proactiva en la gestión de riesgos y mejorando la satisfacción del cliente. El estudio también destaca la importancia de actualizar periódicamente los modelos para adaptarse a cambios en los patrones de comportamiento de los clientes.
Open Access
Aplicación de técnicas de machine learning para predecir la desnutrición infantil en Ecuador
(PUCE - Quito, 2024) Puente Tiscama, Cleber Damián; Montero Bermúdez, Eduardo José
El presente trabajo de titulación establece un modelo optimizado de machine learning que permite predecir la desnutrición crónica infantil con un nivel de accuracy lo suficientemente alto como para tomar decisiones. Se utiliza la base de datos de la Encuesta Nacional de Salud y Nutrición (ENSANUT). El proyecto realizado tiene como objetivo principal implementar un modelo de aprendizaje supervisado que permita predecir la desnutrición crónica infantil en el Ecuador, este modelo tendrá muy buenas métricas de performance e.g.roc auc superior a 0.8, acurracy por encima del 80%. Como resultado se obtendrá un modelo computacional de clasificación binaria de machine learning en lenguaje de programación Python con un nivel alto de accuracy que permita caracterizar y clasificar a los niños con desnutrición crónica infantil. Se recomienda proveer una estrategia de implementación y uso del modelo, así como un análisis del grado de influencia de las variables.
Open Access
Automatización de la logística de última milla mediante técnicas de inteligencia artificial
(PUCE - Quito, 2024) Tamayo Proaño, Sebastián Felipe; Mora Londoño, Edison Vicente
El presente trabajo de titulación corresponde al desarrollo de LUMA (Logística de Ultima Milla Automatizada) cuyo enfoque consiste en la automatización de la fase de planificación de la asignación de mercancías a vehículos de despacho.A lo largo de cada capítulo, se detallan los procesos que fueron empleados para el desarrollo de LUMA, entre ellos, se utilizaron técnicas de aprendizaje no supervisado mediante la agrupación en clústeres que permitió identificar sectores de entrega a los que, posteriormente, se les asigno vehículos de despacho de acuerdo con un algoritmo que fue desarrollado para dicho propósito; para que, finalmente, las mercancías identificadas de cada sector, sean atribuidas a los vehículos correspondientes.Sin embargo, para esto se tuvo que realizar una exploración y preparación de datos con registros históricos de mercancías despachadas, donde, se emplearon diversas técnicas para identificar parámetros óptimos que permitieron obtener un resultado adecuado del modelo de agrupación en clústeres.Finalmente, se demostró que la propuesta de solución para la optimización de la logística de última milla, basada en el uso de aprendizaje no supervisado y la agrupación en clústeres, tuvo éxito al disminuir los porcentajes de subutilización de vehículos en cuanto a sus capacidades.
Open Access
Clasificación de clientes y predicción de deserciones usando algoritmos K-means y regresión logística
(PUCE - Quito, 2023) Torres Flores, Raúl Alejandro; Calderón Serrano, Jorge Alfredo
El análisis de la deserción de clientes se ha vuelto un desafío común en muchas organizaciones, dado que comprender a fondo las razones detrás de la pérdida de clientes resulta crucial para el éxito y la continuidad de cualquier empresa. En este contexto, este trabajo propone el uso de dos enfoques complementarios: el algoritmo no supervisado K-Means y el algoritmo supervisado Regresión Logística. Por un lado, el algoritmo K-Means permite explorar datos no etiquetados en busca de patrones y segmentos ocultos que puedan revelar información valiosa sobre la deserción de clientes. Por otro lado, la Regresión Logística se emplea para construir modelos que predigan la probabilidad de que un cliente abandone su servicio, basándose en variables relevantes del negocio. La combinación de estos enfoques de análisis brinda una comprensión más profunda y precisa del comportamiento de los clientes, lo cual resulta fundamental para que las empresas puedan adaptar estrategias efectivas de retención y fidelización permitiéndoles tomar decisiones informadas y proactivas, implementando acciones que reduzcan la pérdida de clientes y aumenten la satisfacción y lealtad.
Open Access
Clasificación de los productos de una empresa de Quito considerando el recurso tiempo de mano de obra asignado a cada uno de sus procesos durante el año 2021- 2022 utilizando algoritmos de aprendizaje no supervisado
(PUCE - Quito, 2022) Guañuna Viteri, Norka Germania; Melgarejo Heredia, Rafael
Dentro de una organización se generan grandes cantidades de datos las mismas que al no ser utilizadas se convierten en información poco útil, por eso incursionar con este tema ayuda a visibilizar datos y problemas que al ser tomados en consideración y clasificados ayudarán a que la empresa actúe de forma oportuna frente a ellos sin esperar que estos se vuelvan más grandes e incontrolables. Al usar un exceso de mano de obra en un producto sube el precio del producto y también le resta el uso del recurso en otros procesos productivos que se encuentran planificados, si estos recursos se usan eficientemente la planificación programada se puede cumplir a cabalidad, cumpliendo con los requerimientos de los clientes a tiempo y aumentando así la confiabilidad de estos hacia la compañía ayudándole a que su posicionamiento en el mercado sea mucho mayor al que tiene actualmente.
Open Access
Desarrollar un modelo predictivo de detección de ataques a herramientas de seguridad perimetral, de la COAC Jardín Azuayo
(PUCE - Quito, 2024) Cando Jara, Romel Mauricio; Montero Bermúdez, Eduardo José
En el panorama actual de la ciberseguridad, las amenazas han evolucionado considerablemente siendo mucho más complejas, con un mayor incremento e impacto, afectando tanto a organizaciones como a usuarios. Este incremento en los últimos años ha planteado un desafío significativo para las instituciones, que deben estar preparadas y emplear estrategias efectivas para mitigar estas amenazas.En este contexto, la institución financiera COAC Jardín Azuayo se enfrenta a la tarea crucial de analizar los logs generados por herramientas de seguridad de frontera, como firewalls. Estos dispositivos, producen grandes volúmenes de datos, cuya gestión y análisis se ven dificultados por la limitada capacidad de almacenamiento de los dispositivos actuales, los cuales no están diseñados para tal propósito.Existen regulaciones internas y externas que requieren la conservación de datos históricos, con la necesidad de garantizar la disponibilidad de logs, conforme a las políticas institucionales. Este proyecto busca contribuir a la implementación de medidas efectivas, optimizando el tiempo de análisis de datos mediante la aplicación de técnicas de machine learning.La adecuada preparación y explotación de estos datos permiten no solo la extracción de información clave, sino también el desarrollo de modelos predictivos y técnicas de aprendizaje automático, elementos fundamentales para fomentar la innovación en campos como la ciencia y la tecnología.Esta tesis presenta un análisis mediante el uso de algoritmo de regresión logística que permite realizar una predicción basada en la severidad de los ataques registrados en los logs de las herramientas de seguridad, se realizaron evaluaciones de los resultados para estimar la efectividad del modelo. Los resultados demostraron que el modelo clasificó correctamente los ataques en diferentes niveles de severidad, como se reflejó en las métricas de rendimiento de cada clase. Esto indicó que el agrupamiento de comportamientos según la severidad fue adecuado.
Open Access
Desarrollo de un modelo de análisis de datos que permita predecir la ocurrencia de incendios forestales en el Distrito Metropolitano de Quito, basado en factores ambientales, geoespaciales y socioeconómicos
(PUCE - Quito, 2024) López Revelo, María Gabriela; Melgarejo Heredia, Rafael
En las últimas décadas, la ciudad de Quito ha experimentado un incremento significativo en la frecuencia e intensidad de los incendios forestales, un fenómeno atribuido principalmente a factores como el cambio climático, la expansión urbana descontrolada y la interacción compleja de variables ambientales, geoespaciales y socioeconómicas. Los datos históricos sugieren que las condiciones climáticas adversas, como el aumento de las temperaturas y las fluctuaciones en los patrones de precipitación, junto con la baja humedad relativa, han creado un entorno favorable para la propagación de incendios. Además, la topografía accidentada y la presencia de vegetación seca en varias zonas de la ciudad y sus alrededores han facilitado la rápida expansión de estos incendios una vez iniciados.Las áreas periurbanas de Quito, donde coexisten usos del suelo residencial y forestal, son especialmente vulnerables. La expansión urbana ha intensificado la interacción entre las actividades humanas y las áreas forestales, incrementando el riesgo de incendios debido a prácticas agrícolas, la deforestación y el manejo inadecuado del fuego. A pesar de los esfuerzos realizados por las autoridades locales y diversas organizaciones ambientales para gestionar y mitigar el riesgo de incendios forestales, la falta de herramientas predictivas avanzadas ha limitado la efectividad de estas iniciativas. La capacidad de anticipar la ocurrencia de incendios y de implementar medidas preventivas adecuadas es crucial para reducir el impacto de estos eventos catastróficos y contribuir a la gestión integral del riesgo de desastres.En el ámbito global, se han llevado a cabo diversos estudios sobre la predicción de incendios forestales utilizando modelos de análisis de datos que incorporan factores ambientales, geoespaciales y socioeconómicos. Por ejemplo, en regiones como California, Australia y el Mediterráneo, se han desarrollado modelos predictivos basados en técnicas de aprendizaje automático y análisis de big data que han mostrado resultados prometedores en la predicción de incendios. Estos modelos integran variables como la temperatura, la humedad relativa, la velocidad del viento, la precipitación, el uso del suelo, la topografía y la densidad poblacional, utilizando datos satelitales y sistemas de información geográfica (SIG) para mejorar la precisión de las predicciones y generar mapas de riesgo.El desarrollo de modelos predictivos específicos para el Distrito Metropolitano de Quito es esencial debido a las particularidades climáticas, geográficas y socioeconómicas de la región. La implementación de estos modelos permitirá a las autoridades locales y a las organizaciones de gestión de riesgos anticipar y mitigar los impactos de los incendios forestales, mejorando la planificación y la respuesta ante emergencias. Esta investigación se alinea con las prioridades locales de sostenibilidad y protección ambiental, representando una contribución significativa al campo de la ciencia de datos aplicada a la gestión del riesgo de desastres.
Open Access
Desarrollo de un modelo que prediga el nivel de contaminación del aire en la ciudad de Quito
(PUCE - Quito, 2023) Mora González, Bairon Hernán; Mora Londoño, Edison Vicente
La calidad del aire es un tema de creciente preocupación en las áreas urbanas debido a sus impactos negativos en la salud humana y el medio ambiente. Las ciudades experimentan altos niveles de contaminación atmosférica debido a la concentración de actividades industriales, el aumento del tráfico vehicular y otros factores antropogénicos. Quito, la capital de Ecuador, no es una excepción a esta problemática.El monitoreo y la predicción de la contaminación del aire en Quito son fundamentales para comprender la naturaleza y los patrones de la calidad del aire en la ciudad, así como para implementar medidas adecuadas de mitigación y control. Para lograrlo, es necesario contar con un modelo preciso que pueda predecir el nivel de contaminación del aire en función de los datos históricos disponibles.En este estudio, se propone el desarrollo de un modelo predictivo basado en estadísticas de bases de datos de años anteriores para predecir el nivel de contaminación del aire en la ciudad de Quito. El enfoque meso implica considerar la ciudad en su conjunto, abordando la variabilidad espacial y temporal de los contaminantes atmosféricos en diferentes zonas de la ciudad y en diferentes momentos del día.El modelo meso utilizará una combinación de datos meteorológicos, datos de emisiones y datos de calidad del aire recopilados a lo largo de varios años. Estos datos incluirán variables como la temperatura, la humedad, la velocidad del viento, la precipitación, las emisiones industriales y vehiculares, así como las concentraciones históricas de contaminantes como partículas PM2.5, dióxido de nitrógeno (NO2), ozono (O3) y otros contaminantes relevantes.Además del enfoque meso, es importante considerar el ámbito micro en el desarrollo de un modelo predictivo para la contaminación del aire en la ciudad de Quito. El ámbito micro se refiere a la escala más localizada, donde se tienen en cuenta factores como la topografía, la densidad de población y las características específicas de los diferentes barrios y áreas urbanas.La contaminación del aire puede variar significativamente dentro de una ciudad debido a la presencia de fuentes de emisión específicas, como fábricas, áreas industriales, zonas de alta densidad de tráfico o áreas verdes. Estas variaciones pueden influir en la calidad del aire en diferentes vecindarios y en diferentes momentos del día.El objeto de estudio de esta investigación científica es el nivel de contaminación del aire en la ciudad de Quito. El objetivo es comprender la dinámica de la contaminación atmosférica en la ciudad, identificar los factores que influyen en ella y desarrollar un modelo predictivo que pueda estimar con precisión los niveles de contaminación en función de datos estadísticos disponibles recopilados de años anteriores.El campo de estudio abarca la calidad del aire en Quito, centrándose en la recopilación, análisis e interpretación de datos relacionados con la contaminación atmosférica. Se explorarán diferentes aspectos dentro de este campo, como la variabilidad espacial y temporal de los contaminantes, las fuentes de emisión, los factores meteorológicos y las características urbanas que influyen en la calidad del aire. Este modelo utilizará técnicas de análisis de datos y aprendizaje automático para establecer relaciones entre los factores que influyen en la contaminación del aire y los niveles de contaminantes registrados en el pasado.
Open Access
Desarrollo e implementación de un modelo de segmentación en perfiles de disolución utilizando técnicas de Machine Learning para determinar el factor de similitud (F2) en un estudio de bioequivalencia in vitro para metformina clorhidrato
(PUCE - Quito, 2024) Criollo Llumiquinga, Bryan Santiago
La presente investigación se centró en la aplicación y evaluación de modelos de segmentación para clasificar los perfiles de disolución del medicamento genérico Metformina Clorhidrato 500 mg en variados niveles de pH (6,8 - 4,5 - 1,2). La técnica empleada fue el Random Forest, la cual se eligió por su capacidad para abordar eficazmente relaciones no lineales y gestionar variables predictoras sin una preparación exhaustiva de datos, lo cual es crucial en el contexto de resultados de laboratorio con limitaciones para manipulación o transformación. Los resultados obtenidos destacaron un rendimiento sólido de los modelos, alcanzando precisiones del 79.76% para pH 6,8, 82.14% para pH 4,5 y 80.95% para pH 1,2. Estos resultados demuestran la capacidad de los modelos para prever de manera acertada la disolución del medicamento en diferentes condiciones de pH, siendo el modelo para pH 4,5 el que mostró una leve inclinación hacia una mayor precisión. La evaluación de sensibilidad y especificidad reveló la eficiencia general de los modelos en la identificación de casos positivos y negativos, respectivamente. Aunque se observaron algunas variaciones en ciertos intervalos de tiempo, los modelos demostraron su confiabilidad para clasificar los perfiles de disolución de Metformina Clorhidrato 500 mg. El análisis del factor de similitud (F2) confirmó la equivalencia terapéutica entre el medicamento genérico y el innovador ya que todos los lotes cumplieron con los criterios de bioequivalencia in vitro, con valores de F2 superiores a 50, respaldando la capacidad del medicamento genérico para disolverse y liberar el principio activo de manera similar al medicamento innovador.
Open Access
Diseño de un modelo predictivo de fuga de clientes utilizando algoritmos de Machine Learning
(PUCE - Quito, 2023) Navas Ayala, José Ricardo
El presente trabajo tiene como fin el desarrollo de un modelo predictivo utilizando algoritmos de Machine Learning para la predicción de los clientes que pueden llegar a convertirse en fuga, de tal manera que pueda ser una herramienta de alerta temprana para tomar acciones en cuanto a evitar que un cliente abandone la marca, incentivándolo nuevamente a realizar alguna compra ya sea esta por promociones o descuentos que se le pueda otorgar en determinados productos.Se empleó la metodología CRISP-DM para organizar de manera estructurada la información relevante y el flujo de actividades durante el desarrollo y evaluación del modelo predictivo. El modelo fue creado utilizando Python y se aprovecharon las bibliotecas de pandas y scikit-learn. Se eligió un algoritmo específico para desarrollar el modelo, el cual es el de árboles de decisión con 4 variables predictorasde tipo numérico, que fueron tomadas entre la recencia, frecuencia, valor monetario y RFM_Score. El modelo seleccionado es de suma utilidad para el negocio ya que ha resuelto un problema que venía manejando la corporación desde hace tiempo, al no poder identificar a sus clientes previamente antes de convertirse en fuga, siendo validado por los indicadores de precisión con 91.63%, una curva ROC_AUC de 95.40% y un recall de 96.3%. Con el modelo obtenido se obtuvo la base final que es exportada a Excel a través de una ruta compartida.
Open Access
Identificación automática de tweets de emergencia en la red social “X”: caso de estudio en Ecuador
(PUCE - Quito, 2024) Franco Cantos, Jandry Hernaldo; Montero Bermúdez, Eduardo José
Las redes sociales, en particular la plataforma X, representan mecanismos potencialmente valiosos para el reporte e identificación oportuna de situaciones de emergencia, gracias a la vasta cantidad de información generada continuamente por los usuarios. No obstante, la disponibilidad de corpus específicos relacionados con situaciones de emergencia es limitada, así como la automatización para la identificación de contenido textual pertinente. En este contexto, el presente estudio tiene como objetivo desarrollar un modelo de inteligencia artificial para la identificación automática de textos que abordan situaciones de emergencia, utilizando como base de aprendizaje el contenido generado por usuarios en Ecuador. El análisis y experimentación contempla una comprensión de la incidencia de las características lingüísticas específicas del país al momento de reportar situaciones de emergencia. Los resultados obtenidos de los experimentos muestran un desempeño satisfactorio en la identificación de textos sobre emergencias mediante el clasificador SVM y el clasificador LR, a su vez, los datos indican que las particularidades lingüísticas del español ecuatoriano tienen una incidencia poco significativa para identificar temas de emergencia, sugiriendo que el modelo desarrollado puede generalizarse eficazmente dentro del contexto ecuatoriano. En conclusión, el estudio confirma que es posible identificar textos relacionados con emergencias utilizando técnicas de procesamiento de lenguaje natural en el contexto específico de Ecuador, y que las características lingüísticas particulares del español ecuatoriano no representan una barrera significativa para la eficacia del modelo. Esta contribución puede ser relevante para mejorar los sistemas de alerta y respuesta ante emergencias, utilizando las redes sociales como una herramienta complementaria en la gestión de crisis.
Open Access
Minería de datos para el modelado de aprendizaje automático en la resistencia de materiales por la inclusión de fibras naturales. Caso de estudio: Influencia de la inclusión de fibra de abacá en la resistencia a la compresión de limos arenosos, Laboratorio de, Mecánica de Suelos, Pavimentos y Geotécnica de la Pontificia Universidad Católica del Ecuador
(PUCE - Quito, 2022) Escobar Terán, Charles Edisson; Melgarejo Heredia, Rafael
El propósito del proyecto es buscar modelos de aprendizaje automático que permitan predecir la influencia de fibras naturales de abacá en la resistencia a la compresión de limos arenosos. Para el efecto, se aplicará el ciclo de vida de CRISP-DM1 a la data registrada en el Laboratorio de Resistencia de Materiales, Mecánica de Suelos, Pavimentos y Geotécnica de la PUCE. De encontrarse modelos de aprendizaje automático para este conjunto de datos, partiendo de casos particulares se podrá generalizar y predecir valores futuros de resistencia de materiales. Dentro de la metodología CRISP-DM, para seleccionar el modelo de aprendizaje de máquina será necesario experimentar con los datos disponibles y encontrar aquel en los que el error sea menor, de tal manera que la máquina pueda resolver situaciones con datos no conocidos. Los resultados serán evaluados y se seleccionará el que presente la mejor aproximación para entrenar una máquina. Una vez entrenada, se utilizarán nuevos datos de casos particulares, y se evaluará su despliegue. Si el despliegue no es satisfactorio será necesario argumentar las posibles razones por la que los datos no pudieran converger en un modelo de aprendizaje automático en cada una de las pruebas. Conforme a como se han planteado los objetivos, las etapas de Comprensión del negocio, Comprensión de datos y Preparación de datos se desarrollan en el acápite 4.1, mientras que el modelado se realiza en el 4.2, quedando la evaluación en el acápite 4.3.
Open Access
Modelo de minería de datos para el análisis de variables ambientales y sus tendencias, tomadas de sensores en distintas épocas del año en la Estación Meteorológica de la Escuela Superior Politécnica de Chimborazo
(PUCE - Quito, 2024) Esparza Parra, José Fernando; Melgarejo Heredia, Rafael
El análisis de variables ambientales a través de la minería de datos ha ganado una creciente relevancia en la investigación científica y la toma de decisiones. Numerosos estudios han demostrado la eficacia de estas técnicas en la interpretación de datos ambientales para comprender patrones y tendencias. En este contexto, se evidencia la necesidad de aplicar estas metodologías a la problemática específica de la Estación meteorológica de la Escuela Superior Politécnica de Chimborazo.Investigaciones recientes resaltan el papel clave de la minería de datos en ciencias ambientales, según Wang et al. (2020), la minería de datos ha demostrado ser esencial para analizar datos ambientales complejos, identificar patrones y predecir tendencias climáticas, pero con respecto a proyectos realizados en el ámbito específico de estaciones experimentales, como la de la ESPOCH, al revisar investigaciones como la de García et al. (2018), se logra comprender la importancia de utilizar técnicas de minería de datos para maximizar la utilidad de los datos recopilados, mejorando la capacidad predictiva y optimizando la gestión ambiental.Para Modelos Predictivos usando variables ambientales, la investigación de Li et al. (2019) dan el punto de partida de casos de éxito en el uso de modelos predictivos utilizando técnicas avanzadas de minería de datos, mismo que han demostrado y aportado significativamente en el pronóstico de cambios climáticos, proporcionando una base sólida para la toma de decisiones en la agricultura y la gestión ambiental.En el contexto latinoamericano, estudios como el de Gómez et al. (2021) subrayan la relevancia de aplicar técnicas de minería de datos para abordar desafíos ambientales específicos de la región, estas experiencias destacan la necesidad de adaptar las metodologías a entornos locales para lograr resultados efectivos.
Open Access
Modelo de reconocimiento facial con redes neuronales: un enfoque de visión por computador
(PUCE - Quito, 2024) Molina Guaján, Luis Tarquino; Montero Bermúdez, Eduardo José
La inteligencia artificial ha emergido como una herramienta crucial en la mejora de la seguridad informática. Este estudio se centra en la implementación de un modelo de redes neuronales convolucionales (CNN) utilizando TensorFlow para identificar individuos a partir de imágenes faciales, evaluando su utilización como un segundo factor de autenticación en sistemas computacionales. El objetivo general de este estudio es implementar un modelo de inteligencia artificial basado en redes neuronales convolucionales (CNN) utilizando la librería TensorFlow para técnicas de reconocimiento facial, con un enfoque en explorar y analizar el desempeño de estas redes dentro del campo de la visión por computador. Se adoptó un enfoque cuantitativo con un diseño experimental Cuasiexperimental. La unidad de análisis fue un conjunto de imágenes faciales, para lo cual se utilizó un clasificador de rostros pre-entrenado, haarcascade_frontalface. Se utilizaron métodos de regularización, ajustes en los hiperparámetros y la manipulación de variables independientes, con el fin de optimizar tanto la precisión (precision) como la adaptabilidad del modelo ante diferentes condiciones. El principal hallazgo revela que el modelo final, alcanzó una precisión (precision) del 98%, demostrando una sólida capacidad para adaptarse y responder a diferentes variaciones en los datos. Los resultados sugieren que las redes neuronales convolucionales (CNN) podrían tener un gran potencial para mejorar la seguridad en sistemas de autenticación, dada su capacidad para procesar y reconocer patrones faciales complejos. Al ajustar cuidadosamente los hiperparámetros y aplicar técnicas de regularización, el modelo desarrollado mostró una precisión (precision) notable y una capacidad de generalización que lo hacen prometedor para su implementación en entornos donde la seguridad es crítica. Estos hallazgos podrían abrir la puerta a futuras investigaciones y aplicaciones en sistemas de autenticación basados en redes neuronales convolucionales (CNN).
Open Access
Modelo predictivo aplicando algoritmos de Machine Learning para la producción lechera en la hacienda el prado, del Instituto Agropecuario Superior Andino (IASA)
(PUCE - Quito, 2023) Ordoñez Merino, Jorge Isaac
El presente trabajo tiene como fin el desarrollo de un aplicativo web aplicando algoritmos de Machine Learning para la predicción de la producción lechera, de tal manera que pueda ser utilizado en programas de mejoramiento genético y en la toma de decisiones de los administradores de la ganadería del Instituto Agropecuario Superior Andino IASA. La ganadería mencionada se ubica en la Sierra Norte del Ecuador, tiene un sistema de producción de pastoreo, y cuanta con ejemplares de las razas Holstein y las del producto de la cruza Montbéliarde x Holstein. El sistema en pastoreo es influenciado por variables exógenas al sistema, que son determinadas por factores agroecológicos y de manejo de praderas, cuya influencia tiene variación local. Se utilizó la metodología CRISP-DM para sistematizar la información clave y el flujo de actividades para el desarrollo y posterior evaluación del modelo predictivo. El modelo se desarrolló con Python con el uso de las librerías pandas y scikit-learn. El algoritmo seleccionado para el desarrollo del modelo fue el de regresión lineal múltiple, con 17 variables predictoras, que fueron tomadas entre los factores productivos, reproductivos y ambientales. El modelo obtenido es útil para la predicción de la producción lechera, siendo validado por los indicadores R2ajsutado de 0.80 y razón entre la raíz del error cuadrático y la media de producción total de 0.11. Con el modelo obtenido se desarrolló el aplicativo web utilizando la plataforma Stramlit, de tal manera que el acceso al mismo sea público.
Open Access
Modelo predictivo fidelización de clientes en una empresa de telecomunicaciones
(PUCE - Quito, 2024) Mejía Medina, Blanca Lucía; Ortíz Navarrete, Miguel Dimitri
El objetivo principal del proyecto fue aplicar técnicas de clasificación, desarrollar modelos de aprendizaje automático para ayudar a entender y predecir el comportamiento de un cliente cuando pretende cancelar el servicio en una empresa de Telecomunicaciones.Los modelos predictivos Regresión Logística, Árbol de decisión, Redes Neuronales, Random Forest Classifier y Lazy Classifier fueron desarrollados en Python, aplicando técnicas de clasificación de aprendizaje supervisado, empleando técnicas de Data Mining y todas las fases que compone el modelo CRISP-DM, en cada una de las etapas se desarrollaron acciones con el conjunto de datos usado como base para el proyecto, en cada una cada una se detallaron los resultados y hallazgos encontrados.Al finalizar el desarrollo se han comparado los resultados de los diferentes modelos y la precisión de cada uno de ellos, arrojando que el modelo óptimo para este proyecto fue el de Regresión Logística. Al analizar todos los resultados, evaluar el modelo con mayor precisión se sugerirán a las jefaturas, marketing y todas las áreas se considere ingresar datos reales en los modelos predictivos y en base a los resultados se puedan personalizar campañas de promociones, optimizar los planes actualmente contratados y aplicar técnicas para garantizar la fidelizad de los clientes con la empresa.
Open Access
Predicción de ventas en tiendas de retail farmaceútico ecuatoriano mediante modelos agrupados de aprendizaje automático y series temporales
(PUCE - Quito, 2024) Becerra Ortiz, Alexander David; Ortíz Navarrete, Miguel Dimitri
La industria del retail farmacéutico en Ecuador, al igual que en muchos otros países, enfrenta numerosos desafíos relacionados con la precisión de los pronósticos de ventas. Consultoras como IQVIA, en su reciente informe, señalan que la industria farmacéutica en América Latina podría experimentar un crecimiento significativo. Se proyectaba un aumento del 17.4% para 2022 y del 16.6% para 2023, utilizando dólares constantes como unidad de medida. Además, se explica que entre 2022 y 2026, la actividad en la región crecerá a una tasa anual compuesta del 15.2%. En Ecuador, se espera un crecimiento del 4.2% durante el mismo período. La consultora destaca también que el sector institucional tendrá un desempeño superior al retail, con proyecciones de crecimiento del 16.5% en el quinquenio 2022-2026 para el retail en farmacias. (Atance, 2022).En el entorno competitivo actual, donde la demanda puede ser volátil y está influenciada por múltiples factores internos y externos, las empresas de retail farmacéutico necesitan herramientas avanzadas que les permitan anticiparse a las necesidades del mercado. Estas herramientas no solo deben ser capaces de procesar grandes volúmenes de datos, sino también de identificar patrones complejos que no son evidentes mediante métodos tradicionales.Uno de los principales factores externos que condujo a la expansión de tiendas de retail farmacéutico en Ecuador fue la pandemia de COVID-19. Este evento resaltó la importancia de la disponibilidad de medicamentos, así como de artículos de desinfección y suministros de limpieza. En 2024, todavía existen pequeños focos de reinfecciones que contribuyen a la volatilidad del fenómeno, además de las enfermedades estacionales que dificultan la precisión de los modelos clásicos de pronósticos.El avance en técnicas de aprendizaje automático y modelos de series temporales ha abierto nuevas posibilidades para mejorar la precisión de los pronósticos de ventas. Entre estas técnicas, las redes neuronales LSTM (Long Short-Term Memory) destacan por su capacidad para gestionar dependencias a largo plazo en datos secuenciales, lo que las hace particularmente adecuadas para la predicción de ventas en entornos dinámicos y complejos como el retail farmacéutico.Adicionalmente, la agrupación de puntos de venta en clústers homogéneos mediante técnicas de clustering, como K-means, permite personalizar los modelos de predicción. Esta personalización puede ser esencial para considerar las características específicas de cada punto de venta, así como patrones históricos de ventas, mejorando la precisión en los pronósticos.Este proyecto propone desarrollar un modelo de predicción de ventas que combine técnicas de aprendizaje automático y series temporales, aplicadas a clústers de puntos de venta en una empresa de retail farmacéutico ecuatoriano. El objetivo es proporcionar un enfoque más preciso y personalizado que los métodos tradicionales, mejorando la toma de decisiones estratégicas.Los capítulos siguientes de este trabajo detallarán los antecedentes teóricos, la metodología propuesta, los resultados esperados y las conclusiones derivadas de la implementación y evaluación del modelo de predicción de ventas.
Open Access
Rendimiento académico de los estudiantes de educación secundaria en el Ecuador período 2021-2022
(PUCE - Quito, 2023) Cabrera Barbecho, Fanny Narcisa; Melgarejo Heredia, Rafael
El acceso a la educación superior en Ecuador enfrenta obstáculos significativos debido a diversos factores, como la calidad de la educación secundaria. El rendimiento académico de los estudiantes de bachillerato desempeña un papel crucial en la probabilidad de acceder a una institución de educación superior. Para ser admitidos, los estudiantes deben cumplir ciertos requisitos mínimos, incluyendo el puntaje del examen Ser Estudiante y el promedio académico logrado en la secundaria. Este estudio examina el rendimiento académico de los estudiantes de bachillerato en Ecuador durante el período 2021-2022, utilizando la metodología CRISP DM y técnicas de aprendizaje automático basadas en los datos del Instituto Nacional de Evaluación Educativa. La investigación emplea una variedad de métodos supervisados para predecir el rendimiento académico, incluyendo Regresión lineal múltiple, K vecinos cercanos, Árbol de decisión, Random forest, Elastic NET y Gradient Boosting. Además, se aborda la clasificación del nivel de rendimiento como elemental o insuficiente mediante el uso de modelos como Logit, K vecinos más cercanos, Árbol de decisión, Random forest, Naive bayes, Gradient boosting y Multilayer perceptron. En última instancia, se implementan enfoques no supervisados, tales como K-means, DBSCAN (Density-Based Spatial Clustering of Applications with Noise) y Agglomerative clustering, con el objetivo de identificar grupos distintivos de estudiantes. Los resultados revelan que el rendimiento académico se ve afectado por factores como el nivel socioeconómico, la región y el área de ubicación de la institución educativa. Asimismo, aspectos institucionales, como el tipo de institución, y características educativas del estudiante, como la cantidad de horas y días dedicados a las tareas y la pérdida de años escolares, influyen en el rendimiento del bachiller. Se determinó que la satisfacción del estudiante con su entorno familiar también incide en su desempeño académico. A través del análisis, se identificaron tres grupos de estudiantes para los cuales se pueden proponer estrategias de mejora específicas. Estos hallazgos brindan información valiosa para apoyar la toma de decisiones informadas en relación con la educación secundaria en Ecuador.

Browse

Browsing Tesis - Maestría en Sistemas de Información mención en Data Science by Subject "Aprendizaje automático (Inteligencia artificial)"

Results Per Page

Sort Options