Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas

Augusto Cortez Vásquez

doi:10.31381/paideiaxxi.v4i5.913

Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas

Autores/as

Augusto Cortez Vásquez Universidad Ricardo Palma (URP). Lima, Perú. https://orcid.org/0000-0002-5188-7962

DOI:

https://doi.org/10.31381/paideiaxxi.v4i5.913

Resumen

Debido a la abundante información existente se hace necesario organizar, mantener y procesar toda información disponible a partir de un conocimiento más profundo del lenguaje. Un clasificador de textos (CT) consiste en etiquetar un texto o documento con una o varias categorías temáticas predefinidas. El enfoque de clasificación considera que dado un conjunto de documentos D y un conjunto de categorías C, encontrar una función haga corresponder a un documento d tomado de D, una categoría determinada c en C. Para ello realiza un análisis léxico que identifique las subsecuencias de lexemas de d; luego, mediante un análisis stringkernel encuentre el grado de similitud entre dos textos. Dos textos son más similares mientras tengan más subsecuencias en común.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

PDF
HTML

Publicado

2014-09-16

Cómo citar

Cortez Vásquez, A. (2014). Categorización de textos utilizando análisis stringkernel e indexación semántica latente: Aplicación de textos de propiedades medicinales de plantas. Paideia XXI, 4(5), 113–123. https://doi.org/10.31381/paideiaxxi.v4i5.913