Aprendizaje Supervisado basado en texto para clasificar patentes de invención dentro de las subclases del sistema estandarizado de Clasificación Internacional de Patentes (CIP)

No Thumbnail Available
Date
2024
Journal Title
Journal ISSN
Volume Title
Publisher
PUCE - Quito
Abstract
El presente proyecto se centra en la aplicación de técnicas de minería de datos para el desarrollo de un modelo de aprendizaje supervisado para la clasificación de patentes dentro del sistema de Clasificación Internacional de Patentes (CIP). Se aborda la clasificación de patentes únicamente en el idioma español debido a que durante la investigación de trabajos similares la mayor parte de esfuerzos están centrados en el idioma inglés y chino. Para lo cual se usó la información del Título y Resumen obtenida de la base de datos PATENTSCOPE que proporciona acceso a solicitudes internacionales de patentes que ya han sido publicadas. La fortaleza que ofrecen los modelos de aprendizaje profundo como las Redes Neuronales para encontrar patrones dentro de un conjunto de datos es importante por lo que se utilizó una Red Neuronal Convolucional Separable que es una variante de la Red Neuronal Convolucional que se enfoca en reducir la cantidad de parámetros y operaciones computacionales requeridas en las capas de convolución reduciendo la sobrecarga computacional. Las redes neuronales pueden deducir el significado de una palabra a partir del orden de estas, debido a esto se realizó una tokenización secuencial a fin de aprovechar las ventajas de su uso. Cuando se trabaja con texto es importante comprender que las palabras del conjunto de datos no son exclusivas del conjunto con el cual se está trabajando, pudiendo aprovechar las relaciones ya establecidas en otros conjuntos de datos. Para esto se usó un modelo preentrenado de Word2vec para trasferir ese aprendizaje previo al modelo y darle una ventaja durante el proceso de entrenamiento. Se espera que, al implementar el proyecto, las clasificaciones realizadas por el modelo puedan orientar de manera adecuada a un analista o investigador, además de ser una herramienta útil para detectar posibles oportunidades de innovación en las diferentes áreas tecnológicas.
Description
Keywords
Aprendizaje supervisado (Aprendizaje automático), Redes neuronales (Computadores), Minería de datos, Patentes de invención
Citation