Sistema predictivo basado en técnicas de minería de texto y aprendizaje automático para clasificar estilos de redacción académica

Maila Herrera, Sahory Nicole

Sistema predictivo basado en técnicas de minería de texto y aprendizaje automático para clasificar estilos de redacción académica

https://repositorio.puce.edu.ec/handle/123456789/38039

Authors

Maila Herrera, Sahory Nicole

Files

Maila Sahory VRepositorio.pdf (1.21 MB)

Date

2023

Publisher

PUCE - Esmeraldas

Abstract

La era de la información ha impulsado la necesidad de desarrollar un sistema que detecte similitudes en el estilo de redacción en trabajos académicos utilizando procesamiento de lenguaje natural y minería de textos, con el propósito de predecir autorías y promover la integridad académica, beneficiando tanto a instituciones educativas como a docentes asesores. En consonancia con esta perspectiva, se busca crear un sistema predictivo que utilice técnicas de minería de texto y aprendizaje automático para clasificar estilos de redacción científica en informes escritos por autores de la PUCESE. A lo largo de esta investigación, se aplicaron métodos inductivos y deductivos, se emplearon diversas técnicas de procesamiento de datos y se exploraron algoritmos de aprendizaje automático para construir un modelo de clasificación de estilos de redacción académica en informes escritos. Durante el desarrollo del sistema la selección de investigadores se realizó mediante un muestreo por conveniencia, eligiendo a aquellos que tenían más de 5 artículos en plataformas específicas. La estrategia de perfil de autoría se basó en la concatenación de documentos en un solo archivo csv para la fase de entrenamiento del modelo. Se utilizó un enfoque cualitativo y experimental, preprocesando los datos mediante tokenización, eliminación de stopwords y lematización, y se emplearon técnicas como TF-IDF y Word Embeddings para convertir el texto en un formato comprensible para el modelo. Se exploraron diversos algoritmos de aprendizaje automático, como Máquinas de Vectores de Soporte, Bosques Aleatorios y Regresión Logística, para la construcción del modelo, y se evaluaron mediante métricas como precisión, recall y exactitud. A través de la matriz de confusión, se examinaron los resultados y las capacidades de los modelos en la tarea de clasificación de estilos de redacción académica. El grado de precisión del modelo con el algoritmo Máquina de Vectores de Soporte Lineal logró un alto nivel de precisión del 80.8%, destacando su capacidad para capturar con precisión instancias tanto positivas como negativas. Por otro lado, el modelo Máquina de Vectores de Soporte RBF mostró una dificultad en la clasificación precisa de ciertos estilos de escritura. En base a estos resultados, se recomienda considerar cuidadosamente el equilibrio entre precisión y recuperación al seleccionar el algoritmo adecuado para esta tarea.

Description

Tesis previa a la obtención del título de Ingeniero de Sistema y Computación

Keywords

Aprendizaje automático, Minería de texto, Procesamiento del lenguaje natural, Estilos de redacción académica

Citation

IS.248

Collections

Tesis- Ingeniería en Sistemas y Computación

Full item page