1.11.07

Recursos sobre clasificación de texto en blogs

Para nuestro reciente artículo con Gordon Cormack en ACM CIKM, hemos hecho experimentos clasificando spam de comentarios en blogs. Hemos demostrado que a pesar de lo breves de dichos comentarios, las técnicas de aprendizaje que funcionan bien con el correo basura, también lo hacen con el spam de comentarios en blogs.

La colección de evaluación de blog spam que hemos usado está disponible en la página de recursos del Grupo de Procesamiento de la Información y del Lenguaje de la Universidad de Amsterdam, donde hay otros dos interesantes recursos sobre clasificación de texto en blogs:

  • Una colección de datos para la evaluación de la recomendación de categoría de libros a bloggers de acuerdo con lo que escriben en sus blogs: blogs and wishlists.

  • Una colección de datos para la evaluación del estado de ánimo de un blogger cuando escribe un post: moods in weblog posts.

Esta colecciones me parecen muy interesantes tanto por la temática como porque, cono relativamente poco esfuerzo y la ayuda de WEKA, es posible hacer unos cuantos experimentos curiosos.

Powered by Zoundry