Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas

Augusto Cortez Vásquez

doi:10.31381/paideiaxxi.v4i5.913

Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas

Authors

Augusto Cortez Vásquez Universidad Ricardo Palma (URP). Lima, Perú. https://orcid.org/0000-0002-5188-7962

DOI:

https://doi.org/10.31381/paideiaxxi.v4i5.913

Abstract

Debido a la abundante información existente se hace necesario organizar, mantener y procesar toda información disponible a partir de un conocimiento más profundo del lenguaje. Un clasificador de textos (CT) consiste en etiquetar un texto o documento con una o varias categorías temáticas predefinidas. El enfoque de clasificación considera que dado un conjunto de documentos D y un conjunto de categorías C, encontrar una función haga corresponder a un documento d tomado de D, una categoría determinada c en C. Para ello realiza un análisis léxico que identifique las subsecuencias de lexemas de d; luego, mediante un análisis stringkernel encuentre el grado de similitud entre dos textos. Dos textos son más similares mientras tengan más subsecuencias en común.

Downloads

Download data is not yet available.

Downloads

Published

2014-09-16

How to Cite

Cortez Vásquez, A. (2014). Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas. Paideia XXI, 4(5), 113–123. https://doi.org/10.31381/paideiaxxi.v4i5.913