2.6.08

Programa del curso sobre clasificación de texto con adversario

En el Curso de Tecnologías Lingüísticas "Técnicas de extracción y visualización de información: aplicación en la construcción de portales especializados", que tendrá lugar del 7 al 11 de julio de 2008 en la Fundación Duques de Soria (Soria), dirigido por Felisa Verdejo, me corresponde unsa sesión titulada "Técnicas de clasificación y filtrado aplicadas a la detección de spam en la Web". La documentación que estoy preparando para el curso está organizada de la siguiente manera:

1. Introducción

2. La Categorización de Texto
2.1. Tareas de clasificación de texto
2.2. Aplicaciones de la categorización de texto
2.2.1. Indexación en vocabularios controlados
2.2.2. Directorios Web
2.2.3. Categorización con adversario
2.2.4. Otras aplicaciones
2.3. Categorización basada en aprendizaje
Inducción automática de clasificadores
Estructura de un categorizador basado en aprendizaje
Representación del texto
Técnicas de selección y extracción de términos
Algoritmos de aprendizaje
2.4. Evaluación
Procedimiento de evaluación
Métricas de eficacia
Colecciones de evaluación

3. La Clasificación de Texto con Adversario
3.1. Propiedades específicas
3.2. Evaluación

4. Aplicación: Filtrado de correo spam
4.1. Motivación
4.2. Representación de los mensajes
4.3. Selección y extracción de términos
4.4. Algoritmos de aprendizaje
4.5. Evaluación
4.5.1. Procedimiento de evaluación
4.5.2. Métricas de eficacia
4.5.3. Colecciones de evaluación

5. Aplicación: Filtrado de contenidos en la Web
5.1. Motivación
5.2. Representación de los mensajes
5.3. Selección y extracción de términos
5.4. Algoritmos de aprendizaje
5.5. Evaluación
5.5.1. Procedimiento de evaluación
5.5.2. Métricas de eficacia
5.5.3. Colecciones de evaluación

6. Aplicación: Detección de spam en la Web
6.1. Motivación
6.2. Representación de los mensajes
6.3. Selección y extracción de términos
6.4. Algoritmos de aprendizaje
6.5. Evaluación
6.5.1. Procedimiento de evaluación
6.5.2. Métricas de eficacia
6.5.3. Colecciones de evaluación

7. Conclusiones y tendencias

La sesión que me corresponde incluirá una presentación de las ideas principales de este material, y una serie de demostraciones sobre detección de pornografía, de spam SMS y de spam Web usando clasificación de texto con ayuda del paquete WEKA.