Tesis - Maestría en Sistemas de Información mención en Data Science

Entérate cómo entregar tus trabajos de titulación
Permanent URI for this collection
Browse
Browsing Tesis - Maestría en Sistemas de Información mención en Data Science by Title
Now showing 1 - 20 of 68
Results Per Page
Sort Options
Item Open Access
Análisis comparativo de algoritmos de Machine Learning aplicados en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos(PUCE - Quito, 2023) Osejo Domínguez, Francisco Miguel; Espinosa Viteri, Luis OswaldoEl presente trabajo tiene como fin, realizar el análisis comparativo de la aplicación de algoritmos de Machine Learning en la gestión de riesgos cuantitativos en proyectos predictivos y adaptativos. Los algoritmos seleccionados para el desarrollo de los modelos fueron: Simulación de Monte Carlo aplicando Distribución Triangular y Beta – Pert, Regresión Lineal Simple, Regresión Lineal Múltiple y Arboles de Decisión. Se utilizó la metodología CRISP-DM para sistematizar la información y el flujo de actividades para el desarrollo y posterior evaluación de los modelos analizados. Los modelos se desarrollaron con Python, los datasets seleccionados son relacionados a cronograma y presupuesto de la automatización del sistema BAS y seguridad electrónica de un proyecto del sector de la construcción. Se detalla los análisis e interpretación de los resultados y coeficientes obtenidos en el desarrollo de cada uno de los algoritmos aplicados. Se obtiene un análisis comparativo de la aplicación de los algoritmos seleccionados, modelos y resultados obtenidos, así como las conclusiones y recomendaciones pertinentes.Item Open Access
Análisis de la contratación y asignación de ingenieros de campo en una empresa de tecnología médica(PUCE - Quito, 2024) Ponce Ortiz, David de Jesús; Tipantuña Tenelema, Christian JoséLos requerimientos de automatización, optimización y digitalización de procesos se han vuelto clave en la mejora de productividad y ganancias dentro de una empresa. En este contexto, la optimización de la asignación de recursos, como los ingenieros de campo, es fundamental para garantizar un servicio técnico eficiente y de calidad en cualquier área, sea de salud, automotriz, telecomunicaciones, tecnologías de la información, entre otras. El trabajo de titulación presenta un modelo predictivo para la asignación y contratación de CSEs en Siemens Healthineers Ecuador, considerando factores geográficos, experiencia del técnico y la demanda de servicio. Se implementa la metodología CRISP-DM para guiar el proceso de minería de datos, desde la comprensión del negocio hasta el despliegue de la solución. Se exploraron diversos modelos de agrupamiento, incluyendo K-Means, Modelo Gausiano Mixto y Agrupamiento Aglomerativo, para determinar la ubicación óptima de los CSEs en función de la demanda de servicio y la distribución geográfica de los equipos.La evaluación de los modelos se realizó tanto teóricamente, utilizando métricas como el coeficiente de silueta y experimentalmente, considerando factores como la distancia a los equipos y el equilibrio de la carga de trabajo. K-Means se destacó por su capacidad para incorporar criterios específicos del negocio a través de un sistema de pesos, lo que permitió una asignación más estratégica y eficiente de los CSEs. El resultado final fue un modelo predictivo que, al ser integrado en una interfaz de usuario intuitiva, facilita la toma de decisiones informadas y contribuye a mejorar la calidad del servicio técnico y la satisfacción del cliente.Item Open Access
Análisis de sentimientos en redes sociales con aplicaciones en política ecuatoriana(PUCE - Quito, 2022) Tupiza Baldez, Miguel Ángel; Calderón Serrano, Jorge AlfredoLa constante evolución y transformación de la realidad del mundo en el que vivimos trae consigo nuevas maneras de interactuar, informarnos y participar en casi todos los aspectos en los que antes lo hacíamos de manera restringida, por ejemplo, la política. La vía para informarnos solía ser la prensa, radio y televisión, limitando la fuente de información a espacios de horarios fijos, a márgenes de opiniones según las ideologías y empatías políticas de los medios de comunicación, la participación ciudadana se limitaba a las entrevistas con sus respectivas ediciones. Varios avances tecnológicos han traído consigo reducir esas brechas y permitir a las personas incluirse un poco más en temas que son de su interés. La capacidad de informarse está muy cerca, se la puede hacer en cualquier momento con solo utilizar un smartphone, es posible también opinar y debatir sobre los temas que generan interés o preocupación. No obstante, era de esperarse que el público pudiese ser muy diverso y podría ocasionar todo tipo de comentarios y reacciones entre ellos los poco acertados u ofensivos. Tampoco se puede dejar de lado que se pueda recurrir a trucos digitales para el aumento de la popularidad y seguidores falsos según la plataforma de difusión de contenido. Entonces se hace necesario combatir problemas nuevos con soluciones actuales, es por esto por lo que se plantea un modelo de participación ciudadana digital en asuntos de política nacional para identificar los posibles perfiles falsos y realizar un análisis de sentimientos de los participantes con el fin de tener una visión más realista de sus opiniones para hacerlas llegar a los interesados. Esto podría ayudar a un actor político a tener una realidad sobre la aceptación o no de sus electores para trabajar sobre aquello, manejándose todo sobre el marco adecuado de ética.Item Open Access
Análisis de sentimientos sobre la percepción de seguridad para la ciudad de Cuenca durante el año 2023(PUCE - Quito, 2024) Figueroa Campoverde, David Sebastián; Espinosa Viteri, Luis OswaldoEl presente estudio tiene como objetivo principal realizar un análisis de sentimientos de la percepción de seguridad en la población de la ciudad de Cuenca durante el año 2023, con el propósito de evaluar la situación actual del cantón y formular posibles políticas de mejora para abordar la problemática actual. Para alcanzar este propósito, se han delineado objetivos específicos que incluyen la evaluación de la percepción de seguridad a través de la extracción de información de redes sociales X (Twitter) permitiendo contrastar estos datos con estadísticas oficiales sobre inseguridad generadas por Instituciones a nivel local y nacional, teniendo en cuenta que la finalidad de esta investigación es sugerir y proponer posibles medidas correctivas que permitan mitigar y abordar las principales problemáticas relacionadas a la inseguridad que ha afectado al país a nivel general.La metodología propuesta para esta investigación sigue una serie de procedimientos para la extracción, descripción, exploración, tratamiento y transformación de los datos obtenidos. Para la primera etapa se utilizó Apify, una herramienta esencial para la extracción y automatización de datos. Una vez que se contó con los datos necesarios para la descripción y exploración de los datos, se realizó el respectivo proceso de tratamiento y transformación, que abarca la depuración y eliminación de posibles datos duplicados, así como, publicaciones que no hagan referencia a la ciudad de Cuenca, Ecuador. Es importante mencionar que, durante la fase de análisis, se aplicaron técnicas para comprender la perspectiva de cada uno de los datos establecidos, es decir, se organiza y construye el sentimiento de cada dato extraído (tweet). Mediante un contraste, entre TextBlob y Pysentiment los resultados demuestran que existen tanto opiniones positivas como negativas, no obstante, el análisis demuestra una mayor presencia de opiniones neutrales. Sin embargo, a través de un análisis manual se puede determinar que más del 50% de la población cuencana tiene una opinión negativa sobre la seguridad. En conclusión, este estudio se presenta como un valioso recurso para comprender la percepción de seguridad de la población, brindando información clave para el diseño e implementación de políticas efectivas de mejora en la ciudadana. Además, las propuestas para investigaciones futuras ofrecen oportunidades para profundizar en el análisis de la delincuencia y la percepción de seguridad a nivel nacional.Item Open Access
Análisis de sentimientos utilizando la red social “X” Twitter para medir el nivel de aceptación del nuevo presidente del Ecuador, Daniel Noboa (noviembre 2023 - abril 2024)(PUCE - Quito, 2024) Cedeño Menéndez, Roly Steeven; Montero Bermúdez, Eduardo JoséEl presente trabajo se centra en analizar los sentimientos expresados en la red social “X” Twitter con respecto al presidente Daniel Noboa, con el objetivo de determinar el nivel de aceptación por parte de la población ecuatoriana durante el período comprendido desde el 23 de noviembre de 2023 hasta el 30 de abril de 2024. Para ello, se identificaron y recopilaron 3177 tweets relevantes utilizando técnicas de web scraping, aplicando filtros específicos para excluir tweets con imágenes, videos y retweets.La cuantificación y categorización de las respuestas hacia el presidente revelaron una predominancia de tweets neutrales del 79.7%, indicando una percepción mayormente neutral. Sin embargo, se observó una notable cantidad de críticas, representadas por el 16.6% de los tweets negativos, y relativamente pocos elogios, con solo el 3.7% de los tweets siendo positivos.Los modelos de análisis de sentimientos utilizados incluyeron Naive Bayes, Support Vector Machine (SVM), Logistic Regression, Decision Tree, Random Forest y XGBoost. Cada modelo fue evaluado utilizando métricas como exactitud, precisión, recall y F1-Score, tanto en los datos de entrenamiento como en los de prueba.Los resultados mostraron variaciones significativas en el rendimiento de los modelos, destacándose que el modelo de Naive Bayes presentó un buen equilibrio en las métricas de exactitud y F1-Score, siendo el más adecuado para los datos desbalanceados. Las conclusiones sugieren que, aunque se obtuvieron resultados satisfactorios, es recomendable extender el período de estudio, incorporar otras redes sociales, incluir retweets y respuestas, y explorar modelos de análisis más avanzados para mejorar la precisión.Item Open Access
Análisis del comportamiento de la mortalidad en el Ecuador, mediante el uso de Machine Learning(PUCE - Quito, 2024) Jiménez Torres, Adriana Nataly; Roa Marín, Henry NelsonEl presente trabajo tiene la finalidad analizar el comportamiento de la mortalidad en el Ecuador, mediante el uso de métodos de pronóstico de series temporales como el método de Holt con tendencia, el método multiplicativo de Holt Winters con estacionalidad y tendencia, así como los métodos autorregresivos ARIMA y SARIMA, además se emplea la técnica de agrupación k modes, para identificar patrones sobre la mortalidad. Para llevar a cabo este análisis, se utiliza la metodología CRISP-DM, que permite desarrollar y evaluar los modelos, adicionalmente para los métodos de series de tiempo se utilizan diversas métricas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utiliza el Silhouette Score. Basándose en las métricas utilizadas, se concluye que el método SARIMA es el más adecuado para predecir la causa de muerte tanto por enfermedades isquémicas del corazón como por enfermedades cerebrovasculares, por otro lado, para la diabetes mellitus, el método de suavizado exponencial de Holt con tendencia se destaca como el más preciso entre los modelos evaluados. En el análisis de agrupación se identifican tres grupos distintos que presentan variaciones notables en la edad, causas de muerte y características demográficas.Item Open Access
Análisis exploratorio de datos e identificación de agentes que influyen en la desnutrición crónica de niños menores a cinco años del Ecuador mediante la aplicación de técnicas de ciencia de datos(PUCE - Quito, 2023) Yánez Carrera, Catherine Eleana; Montero Bermúdez, Eduardo JoséEl presente estudio permitió determinar los factores más relevantes que influyen en la desnutrición crónica infantil en ecuatorianos menores de 5 años, para este propósito se usó la base de datos abierta obtenida de la Encuesta Nacional de Salud y Nutrición realizada por el Instituto Nacional de Estadísticas y Censos en el año 2018, donde constan 20.356 observaciones de niños menores de 5 años y el 28,73% pertenecen a niños con DCI. Después de un análisis exploratorio de datos se consiguió un total de 101 variables disponibles, de las cuales se seleccionó de forma automática diez de ellas, haciendo uso de la librería featurewiz. Con este nuevo grupo de variables se creó un modelo de Regresión Logística y un Random Forest, al medir el rendimiento de los modelos con la métrica accuracy, ambos obtuvieron más del 68%, mientras que, al medir la capacidad de diferenciar entre valores positivos y negativos mediante la métrica AUC, ambos modelos alcanzaron más de 0,6. Sin embargo según los valores de la matriz de confusión, el modelo de Regresión Logística es mejor para predecir falsos positivos, es decir predice mejor los casos sin DCI, tiene una precisión del 45,65% y predice correctamente el 97,7% de casos de menores sin DCI , mientras que el modelo Random Forest es mejor para predecir verdaderos positivos, es decir que predice mejor los casos con DCI, adicionalmente tiene una precisión de 68,2% y predice de forma correcta el 22,18% de casos de menores con DCI, bajo este criterio el modelo Random Forest es el modelo seleccionado que mejor explica la desnutrición crónica infantil. Las variables más importantes para construir los modelos fueron: segunda dosis de la vacuna contra el Neumococo: no, área donde habita el menor: rural, nivel de instrucción de la madre: Educación Básica, etnia del menor: indígena, material del techo de la vivienda del menor: palma/ paja/ hoja, baño de la vivienda del menor: no tiene, fuente del agua que bebe el menor: embotellada /envasada, material del piso de la vivienda del menor: tierra. Para conocer similitudes entre las categorías de algunas variables se realizó el análisis de correspondencia, para esto se dividió la data en observaciones con DCI = 1 y DCI = 0, entre las similitudes más relevantes están: “Nivel de instrucción de la madre: Educación Básica” con “Área donde habita el menor: rural”, “Etnia del menor: indígena” con “Baño de la vivienda del menor: no tiene”, “Baño de la vivienda del menor: tiene” con “Etnia del menor: diferente a indígena”, “Área donde habita el menor: urbana” con “Instrucción de la madre: diferente a Educación Básica ” las categorías que no tienen ninguna similitud son: “Material de la vivienda del menor: palma /paja /hoja” y “Material del piso de la vivienda: tierra”.Item Open Access
Análisis predictivo de la demanda de especies valoradas en el consulado del Ecuador en Queens, Estados Unidos de América(PUCE - Quito, 2024) Chiza Monarco, Víctor Alfonso; Melgarejo Heredia, RafaelLa optimización de la gestión del stock de especies valoradas y la eficiente asignación de este tipo de recursos en el Consulado del Ecuador en Queens son fundamentales para garantizar un servicio consular ágil y efectivo a los ciudadanos ecuatorianos en Estados Unidos. Dada la variedad de trámites consulares y la necesidad de contar con las especies valoradas adecuadas para cada uno, es muy importante comprender y prever la demanda de estos recursos de manera precisa.El análisis y la predicción de la demanda de especies valoradas permitirán al Consulado anticipar las necesidades futuras de trámites consulares y planificar apropiadamente el abastecimiento de especies valoradas en su stock. Esto no solo mejorará la eficiencia en la prestación de servicios consulares, sino que también evitará la escasez o el exceso de estos insumos, optimizando así el uso de recursos financieros y logísticos.Al implementar este proyecto, se espera mejorar significativamente la calidad y la eficiencia de los servicios consulares ofrecidos por el Consulado del Ecuador en Queens, lo que contribuirá a fortalecer la relación entre la comunidad ecuatoriana residente en Estados Unidos y las autoridades consulares. Además, esta iniciativa ayudará a promover una gestión más transparente y eficaz de los recursos públicos asignados a los servicios consulares.Item Open Access
Análisis predictivo del churn de clientes para una empresa proveedora del servicio de internet para hogares en el Ecuador(PUCE - Quito, 2024) Chuquer Erazo, William Hernán; Pincay Nieves, Jhonny VladimirEl presente estudio se enfoca en el desarrollo de un modelo predictivo para identificar el churn de clientes en una empresa proveedora del servicio de internet para hogares en el Ecuador. Utilizando la metodología CRISP-DM, en la fase de preparación de los datos se realizó un análisis exploratorio utilizando Python, lo que permitió identificar patrones preliminares en el comportamiento de los clientes. En las fases posteriores, se utilizaron herramientas como Alteryx, que facilitó la creación de flujos de trabajo para lograr un análisis exhaustivo de los datos de clientes, aplicando técnicas de limpieza, segmentación y parametrización para garantizar la calidad y relevancia de la información. Qlik Sense fue empleada para lograr una visualización clara y efectiva de los resultados. La técnica de WOE + IV fue crucial para la segmentación y parametrización de variables, mejorando la precisión predictiva.Se entrenaron y compararon varios modelos de machine learning, entre ellos, Regresión Logística, Árboles de Decisión y Random Forest, siendo este último el modelo con el mejor desempeño. Random Forest alcanzó una precisión del 99.5% para la predicción de cancelaciones administrativas y del 81% para cancelaciones voluntarias. Estos resultados proporcionan a la empresa herramientas sólidas para la implementación de estrategias de retención de clientes, permitiendo una intervención proactiva en la gestión de riesgos y mejorando la satisfacción del cliente. El estudio también destaca la importancia de actualizar periódicamente los modelos para adaptarse a cambios en los patrones de comportamiento de los clientes.Item Open Access
Análisis, diseño e implementación de una propuesta de modelo basado en machine learning para predecir los precios de las viviendas en un sector de la ciudad de Quito(PUCE - Quito, 2023) Recuenco Canchala, Peter Vicente; Pincay Nieves, Jhonny VladimirLa valoración catastral de las viviendas juega un papel crucial en la recaudación de impuestos y de la planificación urbana. En este contexto, esta investigación se centra en una propuesta de mejorar la precisión y eficiencia de los procesos de valoración catastral en la ciudad de Quito mediante la aplicación de análisis de datos y técnicas de aprendizaje automático, específicamente con modelos de regresión.El estudio aborda los retos inherentes a la revalorización y actualización de la base catastra, donde la agilidad y eficiencia son fundamentales para reflejar la valoración actual de los inmuebles y mejorar la recaudación del impuesto predial.Los objetivos específicos de esta investigación son analizar el impacto de las variables numéricas y categóricas en la valoración catastral, experimentar con diferentes modelos de regresión y seleccionar el que proporcione los mejores resultados en términos de precisión y facilidad de interpretación.Los resultados esperados podrán tener un impacto significativo en la valoración catastral, contribuyendo a optimizar la gestión tributaria y promoviendo la equidad en la distribución del impuesto predial. Además, sentará las bases para futuras investigaciones en el campo de la valoración catastral mediante técnicas de aprendizaje automático avanzados.Item Open Access
Aplicación de inteligencia artificial mediante el uso de machine learning para el proceso de clasificación de datos asociados al Centro Médico CMC(PUCE - Quito, 2023) Espín Espín, Deysi Magaly; Espinosa Viteri, Luis OswaldoLa inteligencia artificial y el aprendizaje automático han revolucionado muchos campos, incluido el ámbito médico. El Centro Médico CMC ha reconocido el potencial de estas tecnologías y se ha permitido aplicar la inteligencia artificial en la información que posee para clasificar los datos asociados.El proceso de clasificación de datos en un Centro Médico puede ser complejo debido a la gran cantidad de información generada. El uso de machine learning permite que el sistema aprenda automáticamente a partir de los datos existentes y genere modelos predictivos. En el caso del Centro Médico CMC, se utilizan algoritmos de aprendizaje automático para analizar y clasificar los datos de manera precisa, eficiente y estos pueden contribuir significativamente a mejorar la atención prestada a los pacientes.El primer paso en el proceso está en la preparación de los datos. Esto implica recopilar y limpiar los datos, eliminando cualquier información redundante o ruidosa. A continuación, se seleccionan las características relevantes. Una vez que los datos están preparados, se utilizan el algoritmo árbol de decisión y regresión logística múltiple. Durante el entrenamiento, el modelo aprende a reconocer patrones y relaciones en los datos para realizar predicciones precisas. Después del entrenamiento, el modelo se evalúa utilizando datos de prueba para medir su rendimiento y precisión.Los beneficios de la aplicación de inteligencia artificial y machine learning en el proceso de clasificación de datos asociados al Centro Médico CMC son diversos. Permite una clasificación más rápida y precisa de los datos, lo que mejora la eficiencia y la toma de decisiones del centro médico.Item Open Access
Aplicación de las ciencias de datos para identificar segmentos de clientes en una cadena de farmacias(PUCE - Quito, 2023) Villacrés Venegas, Edgar Javier; Ortíz Navarrete, Miguel DimitriEl trabajo de segmentación de clientes realizado implicó el uso de técnicas avanzadas de ciencias de datos para analizar e identificar tendencias de compra y comportamiento de los clientes. Se implementaron dos algoritmos de agrupamiento, k-means y DBSCAN, para segmentar los clientes basándonos en diferentes parámetros, lo cual resultó en una segmentación altamente precisa con más del 90% de certeza en ambos casos.El algoritmo k-means fue particularmente efectivo, logrando una precisión del 95.2% y permitiendo identificar los productos más vendidos en 2022. Por otro lado, el algoritmo DBSCAN, aunque generó un número considerablemente mayor de clusters (8080), permitió identificar a los 10 clientes que más compraron, lo que es crucial para entender sus tendencias de compra y preferencias locales.El análisis también implicó la eliminación de ruido en los datos, lo que mejoró la calidad de los resultados obtenidos. Posteriormente, se utilizó el método silhouette para evaluar la eficacia de ambos algoritmos, obteniendo un valor muy cercano a 1, indicando una segmentación adecuada.Además, se utilizó la metodología CRISP-DM para estructurar el proceso de análisis, lo que facilitó la identificación precisa de los distintos segmentos de clientes y sus características únicas. El análisis final reveló insights valiosos sobre los productos que podrían beneficiarse de estrategias promocionales adicionales, así como información sobre las tendencias de compra de los clientes más importantes.En definitiva, el trabajo realizado no solo logró segmentar a los clientes de manera efectiva, sino que también proporcionó información valiosa sobre las tendencias de compra, lo que permitirá a la empresa focalizar sus esfuerzos en estrategias que potencien su crecimiento económico.Item Open Access
Aplicación de las ciencias de datos para segmentación de estudiantes en una IES(PUCE - Quito, 2025) Caiza Iza, Pablo Giovanny; Ortíz Navarrete, Miguel DimitriEn este estudio de segmentación de estudiantes para una Institución de Educación Superior se utilizó técnicas avanzadas de ciencia de datos para determinar patrones en la información de matrículas de los estudiantes de los últimos 5 años, se utilizaron algoritmos de agrupación como K-Means, K-Modes, K-Prototypes, DBSCAN y un algoritmo Hibrido Neuronal Autoencoder + Kmodes para determinar cuál es el mejor modelo para definir patrones en el contexto educativo, el algoritmo K-Prototypes fue el mejor modelo seleccionado para las variables académicas y demográficas que se utilizaron con un rendimiento del 60% evaluado con el coeficiente de silueta y la distancia de hamming. Se utilizó la metodología CRISPDM para guiar el proceso de ciencia de datos, sus fases permitieron el análisis de toda la data y permitió encontrar segmentos representativos dentro de la información, del modelo elegido se identificaron insights muy valiosos que se presentó en el análisis de resultados y que permitió desarrollar e implementación de estrategias educativas derivadas del análisis de las variables involucradas, lo que representó a la institución una oportunidad de mejora y personalización el servicio educativo.Item Open Access
Aplicación de técnicas de agrupamiento para caracterizar patrones de siniestros viales en Ecuador en el año 2021(PUCE - Quito, 2023) Maza Jara, Edwin Alcides; Calderón Serrano, Jorge AlfredoEl presente trabajo de investigación aplicada realiza un estudio sobre los patrones de siniestralidad vial del Ecuador en el año 2021, utilizando modelos no supervisados de agrupamiento de forma que se pueda caracterizar los grupos más comunes en causar accidentes viales. Para el desarrollo de la investigación aplicada se utiliza la metodología de minería de datos CRIPS DM, la cual permite entender la problemática y establecer los objetivos a resolver en sus diferentes fases. Finalmente se provee información adecuada de las características y grupos que más incidencia tienen en los accidentes de tránsito en Ecuador.Item Open Access
Aplicación de técnicas de machine learning para predecir la desnutrición infantil en Ecuador(PUCE - Quito, 2024) Puente Tiscama, Cleber Damián; Montero Bermúdez, Eduardo JoséEl presente trabajo de titulación establece un modelo optimizado de machine learning que permite predecir la desnutrición crónica infantil con un nivel de accuracy lo suficientemente alto como para tomar decisiones. Se utiliza la base de datos de la Encuesta Nacional de Salud y Nutrición (ENSANUT). El proyecto realizado tiene como objetivo principal implementar un modelo de aprendizaje supervisado que permita predecir la desnutrición crónica infantil en el Ecuador, este modelo tendrá muy buenas métricas de performance e.g.roc auc superior a 0.8, acurracy por encima del 80%. Como resultado se obtendrá un modelo computacional de clasificación binaria de machine learning en lenguaje de programación Python con un nivel alto de accuracy que permita caracterizar y clasificar a los niños con desnutrición crónica infantil. Se recomienda proveer una estrategia de implementación y uso del modelo, así como un análisis del grado de influencia de las variables.Item Open Access
Aprendizaje Supervisado basado en texto para clasificar patentes de invención dentro de las subclases del sistema estandarizado de Clasificación Internacional de Patentes (CIP)(PUCE - Quito, 2024) Atiencia Garzón, Daniel Alejandro; Pincay Nieves, Jhonny VladimirEl presente proyecto se centra en la aplicación de técnicas de minería de datos para el desarrollo de un modelo de aprendizaje supervisado para la clasificación de patentes dentro del sistema de Clasificación Internacional de Patentes (CIP). Se aborda la clasificación de patentes únicamente en el idioma español debido a que durante la investigación de trabajos similares la mayor parte de esfuerzos están centrados en el idioma inglés y chino. Para lo cual se usó la información del Título y Resumen obtenida de la base de datos PATENTSCOPE que proporciona acceso a solicitudes internacionales de patentes que ya han sido publicadas. La fortaleza que ofrecen los modelos de aprendizaje profundo como las Redes Neuronales para encontrar patrones dentro de un conjunto de datos es importante por lo que se utilizó una Red Neuronal Convolucional Separable que es una variante de la Red Neuronal Convolucional que se enfoca en reducir la cantidad de parámetros y operaciones computacionales requeridas en las capas de convolución reduciendo la sobrecarga computacional. Las redes neuronales pueden deducir el significado de una palabra a partir del orden de estas, debido a esto se realizó una tokenización secuencial a fin de aprovechar las ventajas de su uso. Cuando se trabaja con texto es importante comprender que las palabras del conjunto de datos no son exclusivas del conjunto con el cual se está trabajando, pudiendo aprovechar las relaciones ya establecidas en otros conjuntos de datos. Para esto se usó un modelo preentrenado de Word2vec para trasferir ese aprendizaje previo al modelo y darle una ventaja durante el proceso de entrenamiento. Se espera que, al implementar el proyecto, las clasificaciones realizadas por el modelo puedan orientar de manera adecuada a un analista o investigador, además de ser una herramienta útil para detectar posibles oportunidades de innovación en las diferentes áreas tecnológicas.Item Open Access
Automatización de la logística de última milla mediante técnicas de inteligencia artificial(PUCE - Quito, 2024) Tamayo Proaño, Sebastián Felipe; Mora Londoño, Edison VicenteEl presente trabajo de titulación corresponde al desarrollo de LUMA (Logística de Ultima Milla Automatizada) cuyo enfoque consiste en la automatización de la fase de planificación de la asignación de mercancías a vehículos de despacho.A lo largo de cada capítulo, se detallan los procesos que fueron empleados para el desarrollo de LUMA, entre ellos, se utilizaron técnicas de aprendizaje no supervisado mediante la agrupación en clústeres que permitió identificar sectores de entrega a los que, posteriormente, se les asigno vehículos de despacho de acuerdo con un algoritmo que fue desarrollado para dicho propósito; para que, finalmente, las mercancías identificadas de cada sector, sean atribuidas a los vehículos correspondientes.Sin embargo, para esto se tuvo que realizar una exploración y preparación de datos con registros históricos de mercancías despachadas, donde, se emplearon diversas técnicas para identificar parámetros óptimos que permitieron obtener un resultado adecuado del modelo de agrupación en clústeres.Finalmente, se demostró que la propuesta de solución para la optimización de la logística de última milla, basada en el uso de aprendizaje no supervisado y la agrupación en clústeres, tuvo éxito al disminuir los porcentajes de subutilización de vehículos en cuanto a sus capacidades.Item Open Access
Caracterización de defunciones hospitalarias por problemas cardiacos en Ecuador, usando técnicas de ciencia de datos(PUCE - Quito, 2025) Gavilanez Ocampo, Jimmy Byron; Ortíz Navarrete, Miguel DimitriLa finalidad de este proyecto es aplicar técnicas de ciencia de datos que permitan analizar el comportamiento de las defunciones hospitalarias por problemas cardiacos en Ecuador mediante el uso de series temporales y técnicas de clusterización. La información para realizar este análisis se obtuvo de los egresos hospitalarios recopilada y proporcionada por el INEC en formato csv, para la preparación de la data y elaboración de los respectivos modelos se utilizó la metodología CRISP-DM con su respectivo proceso. Para la aplicación de las series temporales se usó el método de Holt con tendencia, el método multiplicativo de Holt Winters, ARIMA y SARIMA, además se emplea la técnica de clusterización k modes, para identificar patrones, además en series temporales se usó algunas técnicas de evaluación como el MSE, RMSE, MAE y MAPE, mientras que para la técnica de k-modes se utilizó el Silhouette Score. Los algoritmos fueron desarrollados en Python en Jupyter Notebook, a partir de la evaluación de los modelos realizados se concluyó que el mejor método para predecir las defunciones por problemas cardiacos es el método multiplicativo de Holt Winters, además el análisis de clusterización con Silhouette Score se determinó que el mejor número de clústeres es 3 los cuales comprenden cada uno con sus características considerables como los grupos de edad, el género, y demás características demográficas. Este análisis sirve de insumo para las autoridades sanitarias del país para diseñar programas de salud pública centrados en la prevención, detección temprana y manejo de afecciones relacionadas con las defunciones por problemas cardiacos, además, las entidades encargadas de esto podrían explorar métodos como el análisis de cohortes, redes neuronales o modelos de predicción basados en aprendizaje automático, permitiendo una respuesta más precisa a las problemáticas de salud en Ecuador.Item Open Access
Clasificación de clientes y predicción de deserciones usando algoritmos K-means y regresión logística(PUCE - Quito, 2023) Torres Flores, Raúl Alejandro; Calderón Serrano, Jorge AlfredoEl análisis de la deserción de clientes se ha vuelto un desafío común en muchas organizaciones, dado que comprender a fondo las razones detrás de la pérdida de clientes resulta crucial para el éxito y la continuidad de cualquier empresa. En este contexto, este trabajo propone el uso de dos enfoques complementarios: el algoritmo no supervisado K-Means y el algoritmo supervisado Regresión Logística. Por un lado, el algoritmo K-Means permite explorar datos no etiquetados en busca de patrones y segmentos ocultos que puedan revelar información valiosa sobre la deserción de clientes. Por otro lado, la Regresión Logística se emplea para construir modelos que predigan la probabilidad de que un cliente abandone su servicio, basándose en variables relevantes del negocio. La combinación de estos enfoques de análisis brinda una comprensión más profunda y precisa del comportamiento de los clientes, lo cual resulta fundamental para que las empresas puedan adaptar estrategias efectivas de retención y fidelización permitiéndoles tomar decisiones informadas y proactivas, implementando acciones que reduzcan la pérdida de clientes y aumenten la satisfacción y lealtad.Item Open Access
Clasificación de los productos de una empresa de Quito considerando el recurso tiempo de mano de obra asignado a cada uno de sus procesos durante el año 2021- 2022 utilizando algoritmos de aprendizaje no supervisado(PUCE - Quito, 2022) Guañuna Viteri, Norka Germania; Melgarejo Heredia, RafaelDentro de una organización se generan grandes cantidades de datos las mismas que al no ser utilizadas se convierten en información poco útil, por eso incursionar con este tema ayuda a visibilizar datos y problemas que al ser tomados en consideración y clasificados ayudarán a que la empresa actúe de forma oportuna frente a ellos sin esperar que estos se vuelvan más grandes e incontrolables. Al usar un exceso de mano de obra en un producto sube el precio del producto y también le resta el uso del recurso en otros procesos productivos que se encuentran planificados, si estos recursos se usan eficientemente la planificación programada se puede cumplir a cabalidad, cumpliendo con los requerimientos de los clientes a tiempo y aumentando así la confiabilidad de estos hacia la compañía ayudándole a que su posicionamiento en el mercado sea mucho mayor al que tiene actualmente.
