115
PAIDEIA XXI
Categorización de textos utilizando Análisis Stringkernel e Indexación Semántica Latente
MSV se reeren a esta área de estu-
dio como una instancia de la Minería
de Textos (Text Mining - TM) [6,8]. En
el contexto del presente trabajo, de-
niremos clasicar como distinguir las
características propias de un objeto
y establecer las diferencias con otros
objetos. En este contexto, clasicar
textos signica relacionar un texto con
clases [Russell, 2003; Palma, 2008].
Estrategias de clasicación
Existen dos estrategias para la cla-
sicación de textos: el primero consis-
te en incorporar información semán-
tica a la representación de textos. Es
conveniente destacar que, en general,
estos estudios están enfocados en do-
cumentos donde es factible, en la ma-
yoría de los casos, disponer de una co-
lección de entrenamiento para la tarea
de desambiguación del sentido de las
palabras (WSD las siglas en inglés para
Word Sense Disambiguation). La se-
gunda estrategia consiste en el uso de
métodos de WSD basados en conoci-
miento que obtienen información des-
de recursos léxicos externos. Estudios
realizados muestran que si bien este
tipo de métodos suelen mostrar resul-
tados de menor calidad que los obteni-
dos con métodos basados en corpus,
constituyen en muchos casos la única
alternativa realista, si se desea hacer
uso de información semántica en la re-
presentación de documentos [14].
Indexación semántica latente (ISL):
Para comprender más claramente
la similitud de dos textos, se utiliza un
método numérico llamado descompo-
sición en valores singulares (SVD por
sus siglas en inglés), cuya función pri-
mordial es identicar patrones en las
relaciones entre los términos conteni-
dos en una colección de textos no es-
tructurados. El principio de ISL es que
muchas palabras utilizadas en textos
pueden tener signicados similares. La
idea principal es emparejar por con-
ceptos en lugar de por términos, o sea,
un documento podría ser recuperado
si comparte conceptos con otro que es
relevante para la consulta dada.
MÉTODO Y TÉCNICAS UTILIZADAS
Metodología
Para modelar el problema P de cla-
sicación de textos, se seguirá la si-
guiente metodología:
1. Denición del dominio de todos los
documentos (D) y el dominio de to-
das las clases predenidas ( C).
2. Construcción de un analizador
léxico que detecte los lexemas y las
subsecuencias que componen al
texto.
3. Para cada clase aprenderemos una
función que decidirá si cada docu-
mento d pertenece o no a la clase
asociada.
El objetivo es aprender una función:
Ø : D→C, tal que Ø (di)=ci;
di es un documento cualquiera y ci es
el vector de las categorías a las que
pertenece el documento di.Ø (di) ⊆
C→
4. Para clasicar un documento d en
D encontraremos el grado de simili-
tud entre dos textos. Para esto uti-
lizaremos la técnica de StringKer-
nel