Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación

Permanent URI for this collection

https://repositorio.puce.edu.ec/handle/123456789/545

Browse

Now showing 1 - 20 of 36

Open Access
Propuesta para la implementación de gobernanza de datos en instituciones públicas de educación superior de la zona 5 del Ecuador
(PUCE - Quito, 2024) Puma Aucapiña, Luis Alberto; Loza Aguirre, Edison Fernando
El presente trabajo tiene la finalidad de desarrollar una guía metodológica basada en DAMA para la gobernanza de datos en universidades públicas de Ecuador, resaltando la importancia de una gestión de datos eficiente. Aborda la necesidad de mejorar la calidad, seguridad y accesibilidad de los datos, enfocándose en la alineación con estándares internacionales y optimización de la toma de decisiones estratégicas. La investigación subraya cómo la implementación de buenas prácticas en gobernanza de datos puede transformar la administración de la información en el sector educativo, contribuyendo a su modernización y competitividad.
Open Access
Implementación de un algoritmo ML de aprendizaje no supervisado para la creación de un cronograma de mantenimiento vial de las vías rurales de la provincia de Santo Domingo de los Tsáchilas
(PUCE - Quito, 2023) Pérez Huachamboza, Martín Mauricio; Montero Bermúdez, Eduardo José
Este trabajo investiga la optimización del mantenimiento vial en Santo Domingo de los Tsáchilas mediante el uso de algoritmos de Machine Learning no supervisados, específicamente a través del análisis de clústeres. Utilizando la metodología CRISP-DM, se analizaron datos históricos y actuales de las vías, enfocándose en variables como longitud, estado de la vía, y producción económica, para identificar patrones y priorizar intervenciones de mantenimiento. Los resultados muestran una segmentación efectiva de las vías que permite una planificación de mantenimiento más precisa y enfocada.
Open Access
Modelo de clasificación automática para identificar fallas en unidades de transformación del sistema eléctrico ecuatoriano
(PUCE - Quito, 2024) Molina Bautista, Carlos Augusto; Bonilla Venegas, Félix Vladimir
Este estudio propone el uso de técnicas de aprendizaje automático para automatizar la metodología DGA en la clasificación de fallas en unidades de transformación del sistema eléctrico ecuatoriano. Se analizó un conjunto de datos compuesto por 1099 registros de concentraciones de gases, abarcando un período de 2014 a 2023. Luego de aplicar la metodología CRISPDM para el entendimiento del negocio y de los datos, se empleó varios algoritmos de aprendizaje automático, en donde resalta el modelo entrenado en base a bosques aleatorios, como candidato potencial para clasificar y predecir el estado operativo de las unidades de transformación. Finalmente, este estudio propone a empresas del sector eléctrico ecuatoriano, tanto públicas como privadas, automatizar los procedimientos de Análisis de Gases Disueltos en Aceite Aislante, que permitan mejorar las estrategias de mantenimiento y operación, reduciendo tiempos de análisis e interpretación, y mejorando la confiabilidad y eficiencia del sistema eléctrico ecuatoriano.
Open Access
Modelo predictivo fidelización de clientes en una empresa de telecomunicaciones
(PUCE - Quito, 2024) Mejía Medina, Blanca Lucia; Ortíz Navarrete, Miguel Dimitri
El objetivo principal del proyecto fue aplicar técnicas de clasificación, desarrollar modelos de aprendizaje automático para ayudar a entender y predecir el comportamiento de un cliente cuando pretende cancelar el servicio en una empresa de Telecomunicaciones. Los modelos predictivos Regresión Logística, Árbol de decisión, Redes Neuronales, Random Forest Classifier y Lazy Classifier fueron desarrollados en Python, aplicando técnicas de clasificación de aprendizaje supervisado, empleando técnicas de Data Mining y todas las fases que compone el modelo CRISP-DM, en cada una de las etapas se desarrollaron acciones con el conjunto de datos usado como base para el proyecto, en cada una cada una se detallaron los resultados y hallazgos encontrados. Al finalizar el desarrollo se han comparado los resultados de los diferentes modelos y la precisión de cada uno de ellos, arrojando que el modelo óptimo para este proyecto fue el de Regresión Logística. Al analizar todos los resultados, evaluar el modelo con mayor precisión se sugerirán a las jefaturas, marketing y todas las áreas se considere ingresar datos reales en los modelos predictivos y en base a los resultados se puedan personalizar campañas de promociones, optimizar los planes actualmente contratados y aplicar técnicas para garantizar la fidelizad de los clientes con la empresa.
Open Access
Análisis del comportamiento de la mortalidad en el Ecuador, mediante el uso de Machine Learning
(PUCE - Quito, 2024) Jiménez Torres, Adriana Nataly; Roa Marín, Henry Nelson
El presente trabajo tiene la finalidad analizar el comportamiento de la mortalidad en el Ecuador, mediante el uso de métodos de pronóstico de series temporales como el método de Holt con tendencia, el método multiplicativo de Holt Winters con estacionalidad y tendencia, así como los métodos autorregresivos ARIMA y SARIMA, además se emplea la técnica de agrupación k modes, para identificar patrones sobre la mortalidad. Para llevar a cabo este análisis, se utiliza la metodología CRISP-DM, que permite desarrollar y evaluar los modelos, adicionalmente para los métodos de series de tiempo se utilizan diversas métricas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utiliza el Silhouette Score. Basándose en las métricas utilizadas, se concluye que el método SARIMA es el más adecuado para predecir la causa de muerte tanto por enfermedades isquémicas del corazón como por enfermedades cerebrovasculares, por otro lado, para la diabetes mellitus, el método de suavizado exponencial de Holt con tendencia se destaca como el más preciso entre los modelos evaluados. En el análisis de agrupación se identifican tres grupos distintos que presentan variaciones notables en la edad, causas de muerte y características demográficas.
Open Access
Modelo de predicción de enfermedades ocupacionales utilizando técnicas de aprendizaje automático y análisis de datos
(PUCE - Quito, 2024) Guartatanga Guartatanga, Priscila Margarita; Rueda Ayala, Christian Andrés
El presente trabajo tiene como objetivo desarrollar un modelo de predicción de enfermedades ocupacionales mediante la utilización de técnicas de Aprendizaje Automático y análisis de datos. Este trabajo se centra en el análisis de datos de exámenes de sangre y diagnósticos médicos clasificados con la Codificación Internacional de Enfermedades CIE 10ª edición. El modelo pretende ser una herramienta que permita analizar los datos y generar conocimiento para la toma de decisiones. Para el desarrollo de este trabajo se utilizó la metodología CRISP-DM, comprendiendo las necesidades del área de salud ocupacional y los datos de los que disponen, preparando los datos para finalmente generar y evaluar el modelo. Los algoritmos que se utilizaron para este trabajo fueron Bosques Aleatorios y el Máquina de vectores de soporte (SVM). El desarrollo se realizó con Python utilizando Jupyter Notebook y las librerías Pandas, Sklearn, Numpy, etc.
Open Access
Implementación de un modelo de segmentación de socios para la identificación de capacidades de pago y riesgo de morosidad de los socios de la Cooperativa de Ahorro y Crédito Jardín Azuayo
(PUCE - Quito, 2024) Goyo Cando, Juan Gabriel; Bonilla Venegas, Félix Vladimir
En el ámbito financiero, la identificación precisa de las capacidades de pago de los clientes es fundamental para garantizar una gestión eficiente de los recursos, minimizar los riesgos crediticios y ofrecer productos adecuados a diferentes segmentos de clientes. En el caso específico de la Cooperativa de Ahorro y Crédito Jardín Azuayo, una entidad financiera sólida y de gran envergadura, la automatización de un modelo de scoring de segmentación de clientes se presenta como una herramienta estratégica para mejorar la evaluación de la capacidad de pago de sus socios. Actualmente, la cooperativa tiene múltiples oficinas donde los socios (clientes) de la cooperativa acceden a los diferentes productos y servicios, así como también varios canales digitales donde se pueden acceder a los mismos servicios. El análisis de la información de los socios es un proceso que actualmente se lo realiza para establecer su capacidad de endeudamiento y pago al momento de adquirir obligaciones crediticias con la Cooperativa. Los oficiales de crédito son los encargados de realizar este análisis y determinar los riesgos de morosidad de los socios y la capacidad de endeudamiento capaces de adquirir. Estos procesos están establecidos acorde con las políticas institucionales de seguridad financiera y uso responsable de los recursos, los mismos que lamentablemente se ejecutan de forma manual. Sin embargo, esta información obtenida no tiene mayor utilidad hasta el momento ya que no hay una iniciativa de explotación de la información que permita utilizar estos datos de tal manera que los mismos clientes tipificados dentro de ciertas capacidades crediticias, bien podrían también clasificarse en grupos o segmentos para que a través de ese conocimiento la Cooperativa pueda promocionar y colocar nuevos servicios financieros o refinar algunos ya existentes que se apeguen más a las necesidades y características reales de los socios. La automatización de un modelo de scoring para la identificación de las capacidades de pago de los socios de la cooperativa impactará directamente en la efectividad y eficiencia del proceso de otorgamiento y promoción de los diferentes productos de la cooperativa ya que reduce el riesgo de morosidad y agiliza la toma de decisiones reduciendo el sesgo y sugiriendo productos adecuados de acuerdo con la capacidad de endeudamiento de los socios o su comportamiento de consumo. El uso de técnicas de análisis de datos y aprendizaje automático mejorarán la precisión y la rapidez con la cual las áreas de negocio diseñan productos más personalizados a los socios, permitiendo una toma de decisiones más fundamentada y reduciendo los riesgos asociados a la provisión de estos servicios financieros, mejorando significativamente los ingresos y beneficios para la institución.
Open Access
Desarrollo e implementación de un modelo de segmentación en perfiles de disolución utilizando técnicas de Machine Learning para determinar el factor de similitud (F2) en un estudio de bioequivalencia in vitro para metformina clorhidrato
(PUCE - Quito, 2024) Criollo Llumiquinga, Bryan Santiago; S/N
La presente investigación se centró en la aplicación y evaluación de modelos de segmentación para clasificar los perfiles de disolución del medicamento genérico Metformina Clorhidrato 500 mg en variados niveles de pH (6,8 - 4,5 - 1,2). La técnica empleada fue el Random Forest, la cual se eligió por su capacidad para abordar eficazmente relaciones no lineales y gestionar variables predictoras sin una preparación exhaustiva de datos, lo cual es crucial en el contexto de resultados de laboratorio con limitaciones para manipulación o transformación. Los resultados obtenidos destacaron un rendimiento sólido de los modelos, alcanzando precisiones del 79.76% para pH 6,8, 82.14% para pH 4,5 y 80.95% para pH 1,2. Estos resultados demuestran la capacidad de los modelos para prever de manera acertada la disolución del medicamento en diferentes condiciones de pH, siendo el modelo para pH 4,5 el que mostró una leve inclinación hacia una mayor precisión. La evaluación de sensibilidad y especificidad reveló la eficiencia general de los modelos en la identificación de casos positivos y negativos, respectivamente. Aunque se observaron algunas variaciones en ciertos intervalos de tiempo, los modelos demostraron su confiabilidad para clasificar los perfiles de disolución de Metformina Clorhidrato 500 mg. El análisis del factor de similitud (F2) confirmó la equivalencia terapéutica entre el medicamento genérico y el innovador ya que todos los lotes cumplieron con los criterios de bioequivalencia in vitro, con valores de F2 superiores a 50, respaldando la capacidad del medicamento genérico para disolverse y liberar el principio activo de manera similar al medicamento innovador.
Open Access
Aprendizaje Supervisado basado en texto para clasificar patentes de invención dentro de las subclases del sistema estandarizado de Clasificación Internacional de Patentes (CIP)
(PUCE - Quito, 2024) Atiencia Garzón, Daniel Alejandro; Pincay Nieves, Jhonny Vladimir
El presente proyecto se centra en la aplicación de técnicas de minería de datos para el desarrollo de un modelo de aprendizaje supervisado para la clasificación de patentes dentro del sistema de Clasificación Internacional de Patentes (CIP). Se aborda la clasificación de patentes únicamente en el idioma español debido a que durante la investigación de trabajos similares la mayor parte de esfuerzos están centrados en el idioma inglés y chino. Para lo cual se usó la información del Título y Resumen obtenida de la base de datos PATENTSCOPE que proporciona acceso a solicitudes internacionales de patentes que ya han sido publicadas. La fortaleza que ofrecen los modelos de aprendizaje profundo como las Redes Neuronales para encontrar patrones dentro de un conjunto de datos es importante por lo que se utilizó una Red Neuronal Convolucional Separable que es una variante de la Red Neuronal Convolucional que se enfoca en reducir la cantidad de parámetros y operaciones computacionales requeridas en las capas de convolución reduciendo la sobrecarga computacional. Las redes neuronales pueden deducir el significado de una palabra a partir del orden de estas, debido a esto se realizó una tokenización secuencial a fin de aprovechar las ventajas de su uso. Cuando se trabaja con texto es importante comprender que las palabras del conjunto de datos no son exclusivas del conjunto con el cual se está trabajando, pudiendo aprovechar las relaciones ya establecidas en otros conjuntos de datos. Para esto se usó un modelo preentrenado de Word2vec para trasferir ese aprendizaje previo al modelo y darle una ventaja durante el proceso de entrenamiento. Se espera que, al implementar el proyecto, las clasificaciones realizadas por el modelo puedan orientar de manera adecuada a un analista o investigador, además de ser una herramienta útil para detectar posibles oportunidades de innovación en las diferentes áreas tecnológicas.
Open Access
Impacto de la producción agrícola en el cambio climático en Suramérica: análisis comparativo entre 1990 y 2020
(PUCE - Quito, 2024) Aizaga Ruiz, Carlos Miguel; Melgarejo Heredia, Rafael
El cambio climático ha emergido como uno de los desafíos más apremiantes del siglo XXI, afectando diversos aspectos de la vida en nuestro planeta. Con el paso de los años se han podido evidenciar estas afectaciones, en función de cambios dentro de diferentes variables que sirven como parámetro para hacer seguimiento al estatus del ambiente, variables como lo pueden ser la temperatura en tierra, las emisiones de gases de efecto invernadero, la frecuencia en cuanto a desastres naturales, entre otras. Una de las actividades antropogénicas que afectan el cambio climático es la producción agrícola. Se estima que la población mundial incremente en al menos un 20% para el año 2050, lo que al ser analizado en conjunto con las tendencias actuales de crecimiento de cara a los niveles de ingreso y de consumo, la producción agrícola tendría que crecer en al menos un 60% para satisfacer el aumento de la demanda prevista de alimentos (Smith & Gregory, 2012). Esta cifra de aumento necesario antes mencionado en la demanda mundial de alimentos va de la mano con al aumento poblacional y los cambios en los patrones alimentarios de la población, situación que viene ocurriendo en paralelo con el impacto continuo que genera el cambio climático sobre los sistemas alimentarios mundiales. Por lo anteriormente mencionado, es necesario analizar la afectación que genera la producción agrícola sobre las variables que más afectan al cambio climático, siendo en este caso la emisión de gases de efecto invernadero, con especial énfasis en los gases CH4 (metano) y N20 (óxido de nitrógeno). Buscando comprender la relación que tienen los cultivos en términos de su rendimiento por hectárea cultivada (Yield) y producción total en los niveles de emisiones que generan.
Open Access
Modelo matemático para proyectar el crecimiento poblacional de las especies demersales con el fin de sugerir áreas sensibles o resilientes de la Reserva Marina de Galápagos (RMG)
(PUCE - Quito, 2023) Jitala Simbaña, Cristian Enrique; Albornoz, Alfonso Prado
El presente trabajo de investigación busca explorar como han venido fluctuando las poblaciones de peces demersales en la Reserva Marina de Galápagos, a través de información espacio-temporal, recopilada por la Fundación Charles Darwin por medio del proyecto de Monitoreo Ecológico Submareal. Mediante la aplicación de un modelo matemático se procura descubrir la dinámica de las poblaciones, proyectando su crecimiento o disminución en el tiempo, considerando para algunos casos un factor extractivo. Todo el trabajo de investigación está basado en la metodología CRISP-DM, lo cual permite aplicar un proceso estándar y sistemático a través de las distintas fases para extraer conocimiento útil de los datos disponibles sobre las características, el comportamiento y la dinámica de las poblaciones. Este trabajo concluye con la presentación de los resultados previa evaluación a las poblaciones de especies que muestran alguna preocupación por su decremento en un momento dado.
Open Access
Diseño de una solución de inteligencia de negocios (BI) que apoye en la toma de decisiones en el sector de la construcción
(PUCE - Quito, 2023) Sarango Rubio, Álvaro Javier; Melgarejo Heredia, Rafael
En la actualidad el análisis de las grandes cantidades de información marca un punto de inflexión en el sostenimiento y crecimiento tanto de empresas como de sectores productivos, el sector de la construcción representa para la economía ecuatoriana un eje de crecimiento significativo dado su injerencia en la generación de empleos, activación económica y atracción de inversión extranjera, contar con una herramienta que consolide información tanto histórica como actual representa una gran ventaja puesto que se puede potenciar el análisis no solo a nivel descriptivo sino también generar un valor agregado, la presente investigación tiene el objetivo del diseño y construcción de una solución de inteligencia de negocios que permita realizar un procesamiento y consolidación de datos utilizando la metodología CRISP- DM y técnicas de minería de datos para su posterior consumo a través de tableros de control utilizando la información de la encuesta ESED que proporciona estadísticas de edificaciones.
Open Access
Análisis exploratorio de datos e identificación de agentes que influyen en la desnutrición crónica de niños menores a cinco años del Ecuador mediante la aplicación de técnicas de ciencia de datos
(PUCE - Quito, 2023-08-15) Yánez Carrera, Catherine Eleana; Montero Bermúdez, Eduardo José
El presente estudio permitió determinar los factores más relevantes que influyen en la desnutrición crónica infantil en ecuatorianos menores de 5 años, para este propósito se usó la base de datos abierta obtenida de la Encuesta Nacional de Salud y Nutrición realizada por el Instituto Nacional de Estadísticas y Censos en el año 2018, donde constan 20.356 observaciones de niños menores de 5 años y el 28,73% pertenecen a niños con DCI. Después de un análisis exploratorio de datos se consiguió un total de 101 variables disponibles, de las cuales se seleccionó de forma automática diez de ellas, haciendo uso de la librería featurewiz. Con este nuevo grupo de variables se creó un modelo de Regresión Logística y un Random Forest, al medir el rendimiento de los modelos con la métrica accuracy, ambos obtuvieron más del 68%, mientras que, al medir la capacidad de diferenciar entre valores positivos y negativos mediante la métrica AUC, ambos modelos alcanzaron más de 0,6. Sin embargo según los valores de la matriz de confusión, el modelo de Regresión Logística es mejor para predecir falsos positivos, es decir predice mejor los casos sin DCI, tiene una precisión del 45,65% y predice correctamente el 97,7% de casos de menores sin DCI , mientras que el modelo Random Forest es mejor para predecir verdaderos positivos, es decir que predice mejor los casos con DCI, adicionalmente tiene una precisión de 68,2% y predice de forma correcta el 22,18% de casos de menores con DCI, bajo este criterio el modelo Random Forest es el modelo seleccionado que mejor explica la desnutrición crónica infantil. Las variables más importantes para construir los modelos fueron: segunda dosis de la vacuna contra el Neumococo: no, área donde habita el menor: rural, nivel de instrucción de la madre: Educación Básica, etnia del menor: indígena, material del techo de la vivienda del menor: palma/ paja/ hoja, baño de la vivienda del menor: no tiene, fuente del agua que bebe el menor: embotellada /envasada, material del piso de la vivienda del menor: tierra. Para conocer similitudes entre las categorías de algunas variables se realizó el análisis de correspondencia, para esto se dividió la data en observaciones con DCI = 1 y DCI = 0, entre las similitudes más relevantes están: “Nivel de instrucción de la madre: Educación Básica” con “Área donde habita el menor: rural”, “Etnia del menor: indígena” con “Baño de la vivienda del menor: no tiene”, “Baño de la vivienda del menor: tiene” con “Etnia del menor: diferente a indígena”, “Área donde habita el menor: urbana” con “Instrucción de la madre: diferente a Educación Básica ” las categorías que no tienen ninguna similitud son: “Material de la vivienda del menor: palma /paja /hoja” y “Material del piso de la vivienda: tierra”.
Open Access
Aplicación de las ciencias de datos para identificar segmentos de clientes en una cadena de farmacias
(PUCE - Quito, 2023-08) Villacrés Venegas, Edgar Javier; Ortíz Navarrete, Miguel Dimitri
El trabajo de segmentación de clientes realizado implicó el uso de técnicas avanzadas de ciencias de datos para analizar e identificar tendencias de compra y comportamiento de los clientes. Se implementaron dos algoritmos de agrupamiento, k-means y DBSCAN, para segmentar los clientes basándonos en diferentes parámetros, lo cual resultó en una segmentación altamente precisa con más del 90% de certeza en ambos casos. El algoritmo k-means fue particularmente efectivo, logrando una precisión del 95.2% y permitiendo identificar los productos más vendidos en 2022. Por otro lado, el algoritmo DBSCAN, aunque generó un número considerablemente mayor de clusters (8080), permitió identificar a los 10 clientes que más compraron, lo que es crucial para entender sus tendencias de compra y preferencias locales. El análisis también implicó la eliminación de ruido en los datos, lo que mejoró la calidad de los resultados obtenidos. Posteriormente, se utilizó el método silhouette para evaluar la eficacia de ambos algoritmos, obteniendo un valor muy cercano a 1, indicando una segmentación adecuada. Además, se utilizó la metodología CRISP-DM para estructurar el proceso de análisis, lo que facilitó la identificación precisa de los distintos segmentos de clientes y sus características únicas. El análisis final reveló insights valiosos sobre los productos que podrían beneficiarse de estrategias promocionales adicionales, así como información sobre las tendencias de compra de los clientes más importantes. En definitiva, el trabajo realizado no solo logró segmentar a los clientes de manera efectiva, sino que también proporcionó información valiosa sobre las tendencias de compra, lo que permitirá a la empresa focalizar sus esfuerzos en estrategias que potencien su crecimiento económico.
Open Access
Estudio comparativo de la precisión de algoritmos de aprendizaje automático, regresión logística, máquinas de soporte y clasificador bayesiano, basado en la implementación de modelo predictivos en función de la mortalidad en accidentes en Ecuador
(PUCE - Quito, 2023-06) Salgado Escobar, Stalin Sebastián; Mora Londoño, Edison Vicente
El estudio actual se enfoca en un estudio comparativo de tres modelos predictivos que permita establecer el más preciso en el escenario planteado, construidos mediante el uso de técnicas de minería de datos, basado en el estudio de la mortalidad en accidentes de tráfico en Ecuador. El país se enfrenta una tasa de mortalidad en accidentes de tráfico muy alta, transformándose en uno de los mayores problemas dentro del país y reducir es uno de los objetivos prioritarios para la agencia nacional de tránsito del país, dicho estudio se justifica en función de la necesidad de desarrollar herramientas más efectivas para reducir la tasa de mortalidad en accidentes de tránsito, los accidentes de tráfico son una causa importante de mortalidad, y es necesario adoptar nuevas estrategias para abordar este problema de manera más efectiva. El uso de técnicas de minería de datos y modelos predictivos puede ser una forma efectiva de analizar y predecir la mortalidad en accidentes de tráfico. Varios de los ítems identificados en los accidentes de tráfico en el Ecuador se basan en detalles como infraestructura vial deficiente, falta de cultura vial, falta de educación vial, pésima señalización en algunos escenarios. Estos factores aumentan el riesgo de accidentes de tránsito, y por consiguiente el riesgo de pérdidas humanas. El objetivo principal de este estudio es desarrollar un modelo predictivo que permita predecir la mortalidad en accidentes de tránsito en Ecuador mediante el uso de técnicas de minería de datos y modelos predictivos, donde por medio de recopilar los datos históricos, selección de variables relevantes, implementación de técnicas de aprendizaje automático supervisado y evaluar la capacidad predictiva del modelo propuesto podamos entregar una herramienta que permita tomar decisiones más informadas y efectivas en la prevención de accidentes de tráfico y la reducción de la mortalidad. Los datos históricos de accidentes de tráfico en Ecuador se recopilarán de registro de accidentes publicado por agencia nacional de tránsito (ANT), entre los años 2017 y 2022.
Open Access
Generación de Data warehouse para implementación de Business Intelligence que permita visualizar el comportamiento de los clientes y tomar medidas de acción comercial
(PUCE - Quito, 2023-07) Reyes Mena, Francisco Xavier; Montero Bermúdez, Eduardo José
El presente trabajo tiene como finalidad el desarrollo de un data warehouse, que permita ser de ayuda para el área comercial en una empresa PYMES dedicada a la distribución de equipos de telecomunicaciones. En la actualidad que una empresa cuente con un sistema de data warehouse donde pueda centralizar sus datos, permite generar respuestas proactivas y agilizar los procesos involucrados con el área de ventas para la toma de decisiones. Respuestas a las preguntas tales como: ¿qué ítem se vende con mayor frecuencia, ¿cuál es la región con mayor cantidad de clientes?, son de vital importancia para establecer nuevos planes comerciales. Por medio de información de ventas almacenada en formato CSV, desde el año 2014 al 2022, se ha generado un proceso de limpieza de datos que establece las variables relevantes, así como el formato adecuado. Además, se ha incurrido en la depuración de la información, ya que la misma contaba con errores producidos por ingreso manual. El archivo ha generado una tabla de hechos, la cual se cargó a un motor de visualización para generar una aplicación que despliegue la información relevante considerando: las ventas, los clientes, medidas de control y análisis multivariado.
Open Access
Análisis, diseño e implementación de una propuesta de modelo basado en machine learning para predecir los precios de las viviendas en un sector de la ciudad de Quito
(PUCE - Quito, 2023-09-18) Recuenco Canchala, Peter Vicente; Pincay Nieves, Jhonny Vladimir
La valoración catastral de las viviendas juega un papel crucial en la recaudación de impuestos y de la planificación urbana. En este contexto, esta investigación se centra en una propuesta de mejorar la precisión y eficiencia de los procesos de valoración catastral en la ciudad de Quito mediante la aplicación de análisis de datos y técnicas de aprendizaje automático, específicamente con modelos de regresión. El estudio aborda los retos inherentes a la revalorización y actualización de la base catastra, donde la agilidad y eficiencia son fundamentales para reflejar la valoración actual de los inmuebles y mejorar la recaudación del impuesto predial. Los objetivos específicos de esta investigación son analizar el impacto de las variables numéricas y categóricas en la valoración catastral, experimentar con diferentes modelos de regresión y seleccionar el que proporcione los mejores resultados en términos de precisión y facilidad de interpretación. Los resultados esperados podrán tener un impacto significativo en la valoración catastral, contribuyendo a optimizar la gestión tributaria y promoviendo la equidad en la distribución del impuesto predial. Además, sentará las bases para futuras investigaciones en el campo de la valoración catastral mediante técnicas de aprendizaje automático avanzados.
Open Access
Análisis comparativo de algoritmos de Machine Learning aplicados en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos
(PUCE - Quito, 2023-08) Osejo Domínguez, Francisco Miguel; Espinosa Viteri, Luis Oswaldo
El presente trabajo tiene como fin, realizar el análisis comparativo de la aplicación de algoritmos de Machine Learning en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos. Los algoritmos seleccionados para el desarrollo de los modelos fueron: Simulación de Monte Carlo aplicando Distribución Triangular y Beta – Pert, Regresión Lineal Simple, Regresión Lineal Múltiple y Arboles de Decisión. Se utilizó la metodología CRISP-DM para sistematizar la información y el flujo de actividades para el desarrollo y posterior evaluación de los modelos analizados. Los modelos se desarrollaron con Python, los datasets seleccionados son relacionados a cronograma y presupuesto de la automatización del sistema BAS y seguridad electrónica de un proyecto del sector de la construcción. Se detalla los análisis e interpretación de los resultados y coeficientes obtenidos en el desarrollo de cada uno de los algoritmos aplicados. Se obtiene un análisis comparativo de la aplicación de los algoritmos seleccionados, modelos y resultados obtenidos, así como las conclusiones y recomendaciones pertinentes.
Open Access
Determinar el mejor algoritmo de ciencia de datos para una planificación académica automatizada para las IES del Ecuador
(PUCE - Quito, 2023-10-18) Hernández Toazo, Héctor Giovanny; Pincay Nieves, Jhonny Vladimir
Después de la pandemia las instituciones de educación superior apoyados por los órganos de control del Ecuador, han adoptado diferentes modelos y componentes de enseñanza denominados Sincrónico donde el estudiante a través de la tecnología puede unirse a las clases virtuales en tiempo real desde cualquier parte del mundo; Asincrónico, cuando el estudiante a través de una plataforma LMS (Sistema de Gestión de Aprendizaje), puede estudiar a cualquier hora con el material disponible en el sistema; y el último componente de aprendizaje es el Presencial, que permite que el alumno vaya a una interacción directa con el profesor. Con el avance de la tecnología, cada momento se genera volúmenes de datos de forma digital, y que mejor, utilizar la técnicas y algoritmos aprendidos en esta maestría de ciencia de datos, para aplicar en las diferentes etapas que con lleva la planificación académica. En el proceso de este trabajo se realizará entrevistas a los encargados de la planificación institucional y académica, con el fin de entender los pasos y metodologías que utilizan en la construcción de esta tarea que deben hacerlo a inicios de cada periodo académico, se modelara las tablas necesarias para que la información pueda ser tabulada e importada a las herramientas de Python. Una vez que se termine de modelar y entender, se llevará a Jupyter Notebook el conjunto de datos, para a través de modelos y técnicas de minería de datos pronosticar la oferta distributivo y horario académico.
Open Access
Aplicación de inteligencia artificial mediante el uso de machine learning para el proceso de clasificación de datos asociados al Centro Médico CMC
(PUCE - Quito, 2023-06-12) Espín Espín, Deysi Magaly; Espinosa Viteri, Luis Oswaldo
La inteligencia artificial y el aprendizaje automático han revolucionado muchos campos, incluido el ámbito médico. El Centro Médico CMC ha reconocido el potencial de estas tecnologías y se ha permitido aplicar la inteligencia artificial en la información que posee para clasificar los datos asociados. El proceso de clasificación de datos en un Centro Médico puede ser complejo debido a la gran cantidad de información generada. El uso de machine learning permite que el sistema aprenda automáticamente a partir de los datos existentes y genere modelos predictivos. En el caso del Centro Médico CMC, se utilizan algoritmos de aprendizaje automático para analizar y clasificar los datos de manera precisa, eficiente y estos pueden contribuir significativamente a mejorar la atención prestada a los pacientes. El primer paso en el proceso está en la preparación de los datos. Esto implica recopilar y limpiar los datos, eliminando cualquier información redundante o ruidosa. A continuación, se seleccionan las características relevantes. Una vez que los datos están preparados, se utilizan el algoritmo árbol de decisión y regresión logística múltiple. Durante el entrenamiento, el modelo aprende a reconocer patrones y relaciones en los datos para realizar predicciones precisas. Después del entrenamiento, el modelo se evalúa utilizando datos de prueba para medir su rendimiento y precisión. Los beneficios de la aplicación de inteligencia artificial y machine learning en el proceso de clasificación de datos asociados al Centro Médico CMC son diversos. Permite una clasificación más rápida y precisa de los datos, lo que mejora la eficiencia y la toma de decisiones del centro médico.

Browse

Recent Submissions