Fine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana

dc.contributor.advisorHuanca Torres, Fredy Abel
dc.contributor.authorCalizaya Milla, Sergio Elvis
dc.contributor.authorSantos Gonzales, Jair Samuel
dc.date.accessioned2024-10-18T17:23:38Z
dc.date.available2024-10-18T17:23:38Z
dc.date.issued2024-09-30
dc.description.abstractLa innovación en el procesamiento del lenguaje natural (NLP) ha llevado a la creación de modelos como BERT, RoBERTa, GPT-4o, Llama 3 y Gemini. Sin embargo, la adaptación de estos modelos a dialectos específicos, especialmente en lenguas distintas del inglés, sigue siendo poco explorada, especialmente con jergas o lenguaje informal. En respuesta a esta necesidad, nuestra investigación evalúa modelos monolingües al español que mejor se adapten a las expresiones coloquiales peruanas, siendo la mejor alternativa RoBERTuito, un modelo pre-entrenado en un extenso corpus de tweets en español que destaca su eficacia en tareas de clasificación de texto. Afinamos y comparamos este modelo para reflejar las características del español peruano. Implementamos un proceso de recolección y preprocesamiento de datos de Facebook, enfocándonos en comentarios en español peruano. Este dataset especializado con más de 11,000 comentarios etiquetados fueron usados para entrenar modelos monolingües en la tarea de análisis de sentimientos y obtener una detección más precisa de la polaridad en textos que incluyen jergas peruanas. RoBERTuito obtuvo un F1-score equilibrado de 0.750, con una precisión de 0.858, un recall de 0.870 y una exactitud de 0.789. En comparación, BETO alcanzó una precisión de 0.794, recall de 0.725 y exactitud de 0.669; BERTuit, una precisión de 0.751, recall de 0.869 y exactitud de 0.722; y RoBERTa-BNE, una precisión de 0.783, recall de 0.759 y exactitud de 0.750. Este estudio no solo proporciona una solución para el análisis de sentimientos en español peruano, sino que también establece una base para adaptar modelos monolingües a contextos lingüísticos específicos.
dc.description.escuelaEscuela de Posgrado
dc.description.lineadeinvestigacionInteligencia artificial
dc.description.sedeLima
dc.formatapplication/pdf
dc.identifier.urihttp://repositorio.upeu.edu.pe/handle/20.500.12840/8017
dc.language.isospa
dc.publisherUniversidad Peruana Unión
dc.publisher.countryPE
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectFine-tuning
dc.subjectAnálisis de sentimiento
dc.subjectTransformers
dc.subjectBERT
dc.subjectEspañol
dc.subjectJergas
dc.subject.ocdehttp://purl.org/pe-repo/ocde/ford#1.02.01
dc.titleFine-Tuning de Modelos Monolingües BERT preentrenados para el análisis de sentimientos en contextos de jerga peruana
dc.typeinfo:eu-repo/semantics/masterThesis
renati.advisor.dni01345134
renati.advisor.orcidhttps://orcid.org/0000-0001-7645-7144
renati.author.dni46445513
renati.author.dni76521399
renati.discipline612467
renati.jurorLópez Gonzales, Javier Linkolk
renati.jurorSaboya Ríos, Nemias
renati.jurorSoria Quijaite, Juan Jesús
renati.jurorHuanca López, Lizeth Geanina
renati.jurorHuanca Torres, Fredy Abel
renati.levelhttp://purl.org/pe-repo/renati/nivel#maestro
renati.typehttp://purl.org/pe-repo/renati/type#tesis
thesis.degree.disciplineMaestría en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de Información
thesis.degree.grantorUniversidad Peruana Unión. Unidad de Posgrado de Ingeniería y Arquitectura
thesis.degree.nameMaestro en Ingeniería de Sistemas con Mención en Dirección y Gestión en Tecnología de Información

Archivos

Bloque original
Mostrando 1 - 3 de 3
No hay miniatura disponible
Nombre:
Reporte de similitud.pdf
Tamaño:
1.68 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Sergio_Tesis_Maestro_2024.pdf
Tamaño:
4.44 MB
Formato:
Adobe Portable Document Format
No hay miniatura disponible
Nombre:
Autorización.pdf
Tamaño:
269.77 KB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: