Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/545

Browse

0-9ABCDEFGHIJKLMNOPQRSTUVWXYZ

Now showing 1 - 10 of 10

Open Access
Análisis exploratorio de datos e identificación de agentes que influyen en la desnutrición crónica de niños menores a cinco años del Ecuador mediante la aplicación de técnicas de ciencia de datos
(PUCE - Quito, 2023) Yánez Carrera, Catherine Eleana; Montero Bermúdez, Eduardo José
El presente estudio permitió determinar los factores más relevantes que influyen en la desnutrición crónica infantil en ecuatorianos menores de 5 años, para este propósito se usó la base de datos abierta obtenida de la Encuesta Nacional de Salud y Nutrición realizada por el Instituto Nacional de Estadísticas y Censos en el año 2018, donde constan 20.356 observaciones de niños menores de 5 años y el 28,73% pertenecen a niños con DCI. Después de un análisis exploratorio de datos se consiguió un total de 101 variables disponibles, de las cuales se seleccionó de forma automática diez de ellas, haciendo uso de la librería featurewiz. Con este nuevo grupo de variables se creó un modelo de Regresión Logística y un Random Forest, al medir el rendimiento de los modelos con la métrica accuracy, ambos obtuvieron más del 68%, mientras que, al medir la capacidad de diferenciar entre valores positivos y negativos mediante la métrica AUC, ambos modelos alcanzaron más de 0,6. Sin embargo según los valores de la matriz de confusión, el modelo de Regresión Logística es mejor para predecir falsos positivos, es decir predice mejor los casos sin DCI, tiene una precisión del 45,65% y predice correctamente el 97,7% de casos de menores sin DCI , mientras que el modelo Random Forest es mejor para predecir verdaderos positivos, es decir que predice mejor los casos con DCI, adicionalmente tiene una precisión de 68,2% y predice de forma correcta el 22,18% de casos de menores con DCI, bajo este criterio el modelo Random Forest es el modelo seleccionado que mejor explica la desnutrición crónica infantil. Las variables más importantes para construir los modelos fueron: segunda dosis de la vacuna contra el Neumococo: no, área donde habita el menor: rural, nivel de instrucción de la madre: Educación Básica, etnia del menor: indígena, material del techo de la vivienda del menor: palma/ paja/ hoja, baño de la vivienda del menor: no tiene, fuente del agua que bebe el menor: embotellada /envasada, material del piso de la vivienda del menor: tierra. Para conocer similitudes entre las categorías de algunas variables se realizó el análisis de correspondencia, para esto se dividió la data en observaciones con DCI = 1 y DCI = 0, entre las similitudes más relevantes están: “Nivel de instrucción de la madre: Educación Básica” con “Área donde habita el menor: rural”, “Etnia del menor: indígena” con “Baño de la vivienda del menor: no tiene”, “Baño de la vivienda del menor: tiene” con “Etnia del menor: diferente a indígena”, “Área donde habita el menor: urbana” con “Instrucción de la madre: diferente a Educación Básica ” las categorías que no tienen ninguna similitud son: “Material de la vivienda del menor: palma /paja /hoja” y “Material del piso de la vivienda: tierra”.
Open Access
Análisis predictivo del churn de clientes para una empresa proveedora del servicio de internet para hogares en el Ecuador
(PUCE - Quito, 2024) Chuquer Erazo, William Hernán; Pincay Nieves, Jhonny Vladimir
El presente estudio se enfoca en el desarrollo de un modelo predictivo para identificar el churn de clientes en una empresa proveedora del servicio de internet para hogares en el Ecuador. Utilizando la metodología CRISP-DM, en la fase de preparación de los datos se realizó un análisis exploratorio utilizando Python, lo que permitió identificar patrones preliminares en el comportamiento de los clientes. En las fases posteriores, se utilizaron herramientas como Alteryx, que facilitó la creación de flujos de trabajo para lograr un análisis exhaustivo de los datos de clientes, aplicando técnicas de limpieza, segmentación y parametrización para garantizar la calidad y relevancia de la información. Qlik Sense fue empleada para lograr una visualización clara y efectiva de los resultados. La técnica de WOE + IV fue crucial para la segmentación y parametrización de variables, mejorando la precisión predictiva.Se entrenaron y compararon varios modelos de machine learning, entre ellos, Regresión Logística, Árboles de Decisión y Random Forest, siendo este último el modelo con el mejor desempeño. Random Forest alcanzó una precisión del 99.5% para la predicción de cancelaciones administrativas y del 81% para cancelaciones voluntarias. Estos resultados proporcionan a la empresa herramientas sólidas para la implementación de estrategias de retención de clientes, permitiendo una intervención proactiva en la gestión de riesgos y mejorando la satisfacción del cliente. El estudio también destaca la importancia de actualizar periódicamente los modelos para adaptarse a cambios en los patrones de comportamiento de los clientes.
Open Access
Análisis, diseño e implementación de una propuesta de modelo basado en machine learning para predecir los precios de las viviendas en un sector de la ciudad de Quito
(PUCE - Quito, 2023) Recuenco Canchala, Peter Vicente; Pincay Nieves, Jhonny Vladimir
La valoración catastral de las viviendas juega un papel crucial en la recaudación de impuestos y de la planificación urbana. En este contexto, esta investigación se centra en una propuesta de mejorar la precisión y eficiencia de los procesos de valoración catastral en la ciudad de Quito mediante la aplicación de análisis de datos y técnicas de aprendizaje automático, específicamente con modelos de regresión.El estudio aborda los retos inherentes a la revalorización y actualización de la base catastra, donde la agilidad y eficiencia son fundamentales para reflejar la valoración actual de los inmuebles y mejorar la recaudación del impuesto predial.Los objetivos específicos de esta investigación son analizar el impacto de las variables numéricas y categóricas en la valoración catastral, experimentar con diferentes modelos de regresión y seleccionar el que proporcione los mejores resultados en términos de precisión y facilidad de interpretación.Los resultados esperados podrán tener un impacto significativo en la valoración catastral, contribuyendo a optimizar la gestión tributaria y promoviendo la equidad en la distribución del impuesto predial. Además, sentará las bases para futuras investigaciones en el campo de la valoración catastral mediante técnicas de aprendizaje automático avanzados.
Open Access
Clasificación de clientes y predicción de deserciones usando algoritmos K-means y regresión logística
(PUCE - Quito, 2023) Torres Flores, Raúl Alejandro; Calderón Serrano, Jorge Alfredo
El análisis de la deserción de clientes se ha vuelto un desafío común en muchas organizaciones, dado que comprender a fondo las razones detrás de la pérdida de clientes resulta crucial para el éxito y la continuidad de cualquier empresa. En este contexto, este trabajo propone el uso de dos enfoques complementarios: el algoritmo no supervisado K-Means y el algoritmo supervisado Regresión Logística. Por un lado, el algoritmo K-Means permite explorar datos no etiquetados en busca de patrones y segmentos ocultos que puedan revelar información valiosa sobre la deserción de clientes. Por otro lado, la Regresión Logística se emplea para construir modelos que predigan la probabilidad de que un cliente abandone su servicio, basándose en variables relevantes del negocio. La combinación de estos enfoques de análisis brinda una comprensión más profunda y precisa del comportamiento de los clientes, lo cual resulta fundamental para que las empresas puedan adaptar estrategias efectivas de retención y fidelización permitiéndoles tomar decisiones informadas y proactivas, implementando acciones que reduzcan la pérdida de clientes y aumenten la satisfacción y lealtad.
Open Access
Desarrollar un modelo predictivo de detección de ataques a herramientas de seguridad perimetral, de la COAC Jardín Azuayo
(PUCE - Quito, 2024) Cando Jara, Romel Mauricio; Montero Bermúdez, Eduardo José
En el panorama actual de la ciberseguridad, las amenazas han evolucionado considerablemente siendo mucho más complejas, con un mayor incremento e impacto, afectando tanto a organizaciones como a usuarios. Este incremento en los últimos años ha planteado un desafío significativo para las instituciones, que deben estar preparadas y emplear estrategias efectivas para mitigar estas amenazas.En este contexto, la institución financiera COAC Jardín Azuayo se enfrenta a la tarea crucial de analizar los logs generados por herramientas de seguridad de frontera, como firewalls. Estos dispositivos, producen grandes volúmenes de datos, cuya gestión y análisis se ven dificultados por la limitada capacidad de almacenamiento de los dispositivos actuales, los cuales no están diseñados para tal propósito.Existen regulaciones internas y externas que requieren la conservación de datos históricos, con la necesidad de garantizar la disponibilidad de logs, conforme a las políticas institucionales. Este proyecto busca contribuir a la implementación de medidas efectivas, optimizando el tiempo de análisis de datos mediante la aplicación de técnicas de machine learning.La adecuada preparación y explotación de estos datos permiten no solo la extracción de información clave, sino también el desarrollo de modelos predictivos y técnicas de aprendizaje automático, elementos fundamentales para fomentar la innovación en campos como la ciencia y la tecnología.Esta tesis presenta un análisis mediante el uso de algoritmo de regresión logística que permite realizar una predicción basada en la severidad de los ataques registrados en los logs de las herramientas de seguridad, se realizaron evaluaciones de los resultados para estimar la efectividad del modelo. Los resultados demostraron que el modelo clasificó correctamente los ataques en diferentes niveles de severidad, como se reflejó en las métricas de rendimiento de cada clase. Esto indicó que el agrupamiento de comportamientos según la severidad fue adecuado.
Open Access
Diseño de un modelo predictivo de fuga de clientes utilizando algoritmos de Machine Learning
(PUCE - Quito, 2023) Navas Ayala, José Ricardo
El presente trabajo tiene como fin el desarrollo de un modelo predictivo utilizando algoritmos de Machine Learning para la predicción de los clientes que pueden llegar a convertirse en fuga, de tal manera que pueda ser una herramienta de alerta temprana para tomar acciones en cuanto a evitar que un cliente abandone la marca, incentivándolo nuevamente a realizar alguna compra ya sea esta por promociones o descuentos que se le pueda otorgar en determinados productos.Se empleó la metodología CRISP-DM para organizar de manera estructurada la información relevante y el flujo de actividades durante el desarrollo y evaluación del modelo predictivo. El modelo fue creado utilizando Python y se aprovecharon las bibliotecas de pandas y scikit-learn. Se eligió un algoritmo específico para desarrollar el modelo, el cual es el de árboles de decisión con 4 variables predictorasde tipo numérico, que fueron tomadas entre la recencia, frecuencia, valor monetario y RFM_Score. El modelo seleccionado es de suma utilidad para el negocio ya que ha resuelto un problema que venía manejando la corporación desde hace tiempo, al no poder identificar a sus clientes previamente antes de convertirse en fuga, siendo validado por los indicadores de precisión con 91.63%, una curva ROC_AUC de 95.40% y un recall de 96.3%. Con el modelo obtenido se obtuvo la base final que es exportada a Excel a través de una ruta compartida.
Open Access
Estudio comparativo de la precisión de algoritmos de aprendizaje automático, regresión logística, máquinas de soporte y clasificador bayesiano, basado en la implementación de modelo predictivos en función de la mortalidad en accidentes en Ecuador
(PUCE - Quito, 2023) Salgado Escobar, Stalin Sebastián; Mora Londoño, Edison Vicente
El estudio actual se enfoca en un estudio comparativo de tres modelos predictivos que permita establecer el más preciso en el escenario planteado, construidos mediante el uso de técnicas de minería de datos, basado en el estudio de la mortalidad en accidentes de tráfico en Ecuador.El país se enfrenta una tasa de mortalidad en accidentes de tráfico muy alta, transformándose en uno de los mayores problemas dentro del país y reducir es uno de los objetivos prioritarios para la agencia nacional de tránsito del país, dicho estudio se justifica en función de la necesidad de desarrollar herramientas más efectivas para reducir la tasa de mortalidad en accidentes de tránsito, los accidentes de tráfico son una causa importante de mortalidad, y es necesario adoptar nuevas estrategias para abordar este problema de manera más efectiva. El uso de técnicas de minería de datos y modelos predictivos puede ser una forma efectiva de analizar y predecir la mortalidad en accidentes de tráfico.Varios de los ítems identificados en los accidentes de tráfico en el Ecuador se basan en detalles como infraestructura vial deficiente, falta de cultura vial, falta de educación vial, pésima señalización en algunos escenarios. Estos factores aumentan el riesgo de accidentes de tránsito, y por consiguiente el riesgo de pérdidas humanas.El objetivo principal de este estudio es desarrollar un modelo predictivo que permita predecir la mortalidad en accidentes de tránsito en Ecuador mediante el uso de técnicas de minería de datos y modelos predictivos, donde por medio de recopilar los datos históricos, selección de variables relevantes, implementación de técnicas de aprendizaje automático supervisado y evaluar la capacidad predictiva del modelo propuesto podamos entregar una herramienta que permita tomar decisiones más informadas y efectivas en la prevención de accidentes de tráfico y la reducción de la mortalidad.Los datos históricos de accidentes de tráfico en Ecuador se recopilarán de registro de accidentes publicado por agencia nacional de tránsito (ANT), entre los años 2017 y 2022.
Open Access
Identificación automática de tweets de emergencia en la red social “X”: caso de estudio en Ecuador
(PUCE - Quito, 2024) Franco Cantos, Jandry Hernaldo; Montero Bermúdez, Eduardo José
Las redes sociales, en particular la plataforma X, representan mecanismos potencialmente valiosos para el reporte e identificación oportuna de situaciones de emergencia, gracias a la vasta cantidad de información generada continuamente por los usuarios. No obstante, la disponibilidad de corpus específicos relacionados con situaciones de emergencia es limitada, así como la automatización para la identificación de contenido textual pertinente. En este contexto, el presente estudio tiene como objetivo desarrollar un modelo de inteligencia artificial para la identificación automática de textos que abordan situaciones de emergencia, utilizando como base de aprendizaje el contenido generado por usuarios en Ecuador. El análisis y experimentación contempla una comprensión de la incidencia de las características lingüísticas específicas del país al momento de reportar situaciones de emergencia. Los resultados obtenidos de los experimentos muestran un desempeño satisfactorio en la identificación de textos sobre emergencias mediante el clasificador SVM y el clasificador LR, a su vez, los datos indican que las particularidades lingüísticas del español ecuatoriano tienen una incidencia poco significativa para identificar temas de emergencia, sugiriendo que el modelo desarrollado puede generalizarse eficazmente dentro del contexto ecuatoriano. En conclusión, el estudio confirma que es posible identificar textos relacionados con emergencias utilizando técnicas de procesamiento de lenguaje natural en el contexto específico de Ecuador, y que las características lingüísticas particulares del español ecuatoriano no representan una barrera significativa para la eficacia del modelo. Esta contribución puede ser relevante para mejorar los sistemas de alerta y respuesta ante emergencias, utilizando las redes sociales como una herramienta complementaria en la gestión de crisis.
Open Access
Modelo estadístico de puntaje de crédito (Scoring Credit) para la gestión de riesgo creditico
(PUCE - Quito, 2023) Jacho Parrales, Richard Álex; Prado Albornoz, Alfonso
El riesgo crediticio es una de las principales preocupaciones en el ámbito financiero, y se refiere a la probabilidad de que una empresa o individuo no pueda cumplir con sus obligaciones de pago. El riesgo crediticio puede ser originado por una serie de factores, como la falta de capacidad de pago, la falta de voluntad para pagar, o la incertidumbre económica. El riesgo crediticio es una preocupación importante para los prestamistas, ya que representa una amenaza para la rentabilidad y la estabilidad financiera. Por lo tanto, los prestamistas utilizan diversas herramientas para medir y gestionar el riesgo crediticio, como la evaluación de la solvencia de los prestatarios, la evaluación de la calidad de la garantía y la diversificación de la cartera de préstamos. En la actualidad, el riesgo crediticio se ha convertido en un tema cada vez más importante debido a la creciente complejidad del mercado financiero y la aparición de nuevos productos financieros. Los prestamistas y los prestatarios deben estar preparados para enfrentar y gestionar el riesgo crediticio de manera efectiva para garantizar la estabilidad financiera y el crecimiento económico. La gestión de riesgo crediticio es una herramienta fundamental para las empresas y los individuos que buscan obtener financiamiento, ya que les permite reducir el riesgo de incumplimiento y mejorar su capacidad de pago. En este sentido, es importante que los prestamistas y los prestatarios comprendan los fundamentos del riesgo crediticio y utilicen herramientas efectivas para su gestión. El presente trabajo tiene como objetivo analizar los factores que inciden en el crecimiento de la cartera vencida, que es uno de los principales indicadores del riesgo crediticio en las instituciones financieras.
Open Access
Modelo predictivo fidelización de clientes en una empresa de telecomunicaciones
(PUCE - Quito, 2024) Mejía Medina, Blanca Lucía; Ortíz Navarrete, Miguel Dimitri
El objetivo principal del proyecto fue aplicar técnicas de clasificación, desarrollar modelos de aprendizaje automático para ayudar a entender y predecir el comportamiento de un cliente cuando pretende cancelar el servicio en una empresa de Telecomunicaciones.Los modelos predictivos Regresión Logística, Árbol de decisión, Redes Neuronales, Random Forest Classifier y Lazy Classifier fueron desarrollados en Python, aplicando técnicas de clasificación de aprendizaje supervisado, empleando técnicas de Data Mining y todas las fases que compone el modelo CRISP-DM, en cada una de las etapas se desarrollaron acciones con el conjunto de datos usado como base para el proyecto, en cada una cada una se detallaron los resultados y hallazgos encontrados.Al finalizar el desarrollo se han comparado los resultados de los diferentes modelos y la precisión de cada uno de ellos, arrojando que el modelo óptimo para este proyecto fue el de Regresión Logística. Al analizar todos los resultados, evaluar el modelo con mayor precisión se sugerirán a las jefaturas, marketing y todas las áreas se considere ingresar datos reales en los modelos predictivos y en base a los resultados se puedan personalizar campañas de promociones, optimizar los planes actualmente contratados y aplicar técnicas para garantizar la fidelizad de los clientes con la empresa.

Browse

Browsing Tesis - Maestría en Sistemas de Información mención en Data Science by Subject "Análisis de regresión"

Results Per Page

Sort Options