23.11.11

Datasets, databases and resources: MSH WSD, BioNOT, Gazetiki, DBpedia Spotlight, Google BigQuery, Common Crawl

Some datasets and resources I have recently found (although they may be old):

  • MSH WSD: a data set for Word Sense Disambiguation WSD based on a method that can be used to automatically develop a WSD test collection using the Unified Medical Language System (UMLS) Metathesaurus and the manual MeSH indexing of MEDLINE.
  • BioNOT: a searchable database of negated biomedical sentences. The database consists of more than 32 million negated sentences at PubMed.
  • Gazetiki: a geographical database that contains 8323702 geographical names coming from Geonames and from different Web sources, with the latter representing over 1 million items, with the addition of a popularity score which was calculated based on the usage of a place name in a geotagged dataset.
  • DBpedia Spotlight: a tool for automatically annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. DBpedia Spotlight performs named entity extraction, including entity detection and Name Resolution.
  • Google BigQuery Service: a SQL-like tool for analyzing massive datasets, as a web service that enables you to do interactive analysis of massively large datasets-up to billions of rows.
  • Common Crawl: a freely accessible index of 5 billion web pages, their page rank, their link graphs and other metadata, hosted on Amazon EC2, was announced today by the Common Crawl Foundation.

21.11.11

Seminario MAVIR: Búsqueda de personas en la Web

TÍTULO: Búsqueda de personas en la Web
PONENTE: Julio Gonzalo (NLP&IR-UNED)
FECHA Y HORA: miércoles 23 de noviembre de 2011, a las 12h00

ABSTRACT

Buscar información sobre personas es una actividad frecuente en la Red, que va desde encontrar un número de teléfono hasta analizar la reputación online de una persona a partir de miles de fuentes. Pero utilizar un nombre de persona como consulta tiene un problema crucial: la ambigüedad. Los buscadores convencionales devuelven una lista de resultados en la que, muy a menudo, se mezcla información sobre muchas personas que se llaman igual. Un buscador ideal agruparía los resultados que se refieren a cada persona, y extraería dinámicamente un perfil de cada persona a partir del contenido de las páginas encontradas.

Web People Search es el término acuñado para este reto, y una parte sustancial de la investigación en el tema se ha vertebrado en torno a las campañas de evaluación competitiva WePS. En esta charla resumiremos los progresos alcanzados hasta ahora, y utilizaremos WePS como un ejemplo del uso de campañas de evaluación como motor de la investigación en Tecnologías de la Lengua. Por el camino, nuestras reflexiones ayudarán a explicar porqué los espías se niegan a usar la medida F de Van Rijsbergen, y qué podrían usar a cambio.

BIO

Julio Gonzalo es coordinador del grupo de investigación NLP&IR de la UNED. Sus intereses de investigación se sitúan en la intersección entre el Procesamiento del Lenguaje Natural y la Recuperación de
Información e incluyen, en particular, la búsqueda de información multilingüe e interactiva, la organización de resultados de búsqueda, la búsqueda semántica, y las métricas y metodologías de evaluación en
estas áreas. Ha sido recientemente general co-chair del CLEF 2011, area chair de EACL 2012 y EMNLP 2010, y co-organizador de las campañas de evaluación WePS (2007, 2009 y 2010).

LUGAR DE CELEBRACIÓN

Sala de Grados
Escuela Politécnica Superior, UAM
c/ Francisco Tomás y Valiente, 11
Campus de Cantoblanco
28049 Madrid

+ INFO: http://www.mavir.net/talks/100-jgonzalo-nov2011