Prestar y tomar prestado

CROWDLENDING

#Crowdlending .  Tanto si necesitas, como si te sobra el dinero, debes conocer las plataformas p2p lending. El abanico de ofertas...

miércoles, 17 de agosto de 2016

LA WEB INVISIBLE

#WEB-INVISIBLE .

En 1994 se conocía como WEB OCULTA, Hidden Web, ("A Review Paper on Deep Web Data Extraction Using WordNet", Nagesh Kumar Jha1, Aakash Jethva2, Nidhi Parmar3 , Professor Abhay Patil, 2016) y, a partir de la publicación en 2001 del artículo "Exploring the invisible Web: Seven essential strategies" de Chris Sherman y Gary Price, su concepto y enorme tamaño se difundió ampliamente con la denominación de WEB INVISIBLE o WEB PROFUNDA (Deep Web).

Las url de los sitios web, como www.google.es, se traducen en direcciones IP por los sistemas de nombres de dominio (DNS), que vienen a ser algo así como guías de números de teléfono. Si escribimos en un navegador web la IP "216.58.212.195" obtenemos el mismo resultado que escribiendo "www.google.es". Los robots de los buscadores ratrean la red a partir de esos diccionarios de nombres de dominio, accediendo así a todas las páginas principales de todos los sitios web registrados. Una vez en la página, analizan su contenido confeccionando sus índices inversos, de acuerdo con unos criterios de selección de contenido decididos de antemano por los responsables del buscador y, si encuentran algún enlace a otra página web, incorporán su dirección a su lista de páginas pendientes de visitar, y así sucesivamente, consiguiendo indexar una buena parte del contenido de la web, todo aquello que está enlazado integrando una enorme red que se puede indexar completamente, puesto que los rastreadores pueden alcanzar cualquier nodo de ella.

La WEB VISIBLE o WEB SUPERFICIAL es el conjunto de páginas web que los buscadores han elegido para incluir en sus índices ("The Invisible Web: Uncovering Sources Search Engines Can't See", de Chris Sherman y Gary Price, 2003). Es una parte de todo lo que se puede indexar en la web.

Sin embargo, no todo el contenido de la web se puede indexar ya que, además de la deliberada decisión de los rastreadores sobre la incorporación o no de una página concreta, existen una serie de razones técnicas que impiden la indexación de todo el contenido de la web.

- Páginas y ficheros desconectados, porque no siendo la página principal del dominio en el que se encuentran, no existe ningún enlace a ellos en ese dominio o en otro sitio web externo que permita a los rastreadores su localización y visita.

- Ficheros que no son de texto y que pueden resultar incomprensibles para los buscadores.

- El protocolo de exclusión de robot (Robot Exclusion Protocol) consiste en un conjunto de reglas que permite a los desarrolladores de contenido web excluirlos de los buscadores. Se alcanza el mismo objetivo cuando en una página en HTML se incluye la meta-etiqueta "noindex" en la cabecera (head) del hipertexto.

- Hay páginas que contienen passwords de acceso.

- Existen páginas que contienen formularios que se pueden indexar, pero no ocurre así con la página generada dinámicamente cuando se pulsa el botón "enviar" del formulario.

- Ocurre lo mismo con otras páginas se generan dinámicamente a demanda del usuario (páginas que contienen el símbolo ? en su url).

- También hay páginas sin nada que indexar, vacias de contenido.

- Muchos sitios web proporcionan streams de datos en tiempo real, cuya indexación,  aunque posible, carece de sentido práctico.

- Hay ficheros cuyo contenido se indexa parcialmente. Google detiene el ratreo de ficheros pdf tas 120 KB. AlltheWeb lo hace después de 110 KB (en el 2003, fecha del artículo citado).

- Las bases de datos que ofrecen una interface a través de la web pueden ser alcanzadas por los ratreadores, en su puerta de acceso, pero no es posible explorar su contenido.

A partir de estas consideraciones, Sherman y Price clasifican la Web Profunda o Invisible en cuatro categorías:

1.- OPACA. Por la extensión del índice, la frecuencia de las visitas realizadas por los ratreadores, el número máximo de resultados proporcionados al usuario y las páginas desconectadas o aisladas.

2.- PRIVADA. Páginas que se excluyen deliberadamente o que precisan de contraseña para acceder a ellas.

3.- PROPIETARIA. Es necesario registrarse para acceder al contenido.

4.- REALMENTE INVISIBLE. No pueden ser incluidas en los índices por limitaciones de los buscadores y rastreadores, por ser ficheros ejecutables o comprimidos, páginas generadas dinámicamente y, sobre todo, información contenida en bases de datos relacionales.

Acceder a la Web Invisible es importante porque su contenido se calcula que es 500 veces mayor que el de la Web Visible.

Con el tiempo, los buscadores mejoran continuamente, volviendo visible partes de la Web profunda. Google ha experimentado con software de reconocimiento óptico de caracteres para incorporar textos contenidos en imágenes. También parece haber tenido éxito con gran parte de las páginas generadas dinámicamente a partir de formularios ("Google's Deep-Web Crawl", Jayant Madhavan,  David Ko, Łucja Kot, Vignesh Ganapathy , Alex Rasmussen y Alon Halevy, 2008).

Entre las muchas alternativas propuestas, hay autores que sugieren explorar la Web utilizando máquinas cosechadoras de la Web Profunda, Deep Web Harvest Engines, en lugar de los buscadores tradicionales ("Understanding the Deep Web in 10 minutes", Steve Pederson, 2013).

2 comentarios:

  1. Felicidades muy buen trabajo.
    saludos silvia

    ResponderEliminar
  2. Gracias Silvia, me alegra que te guste. Creo que los artículos citados merece la pena leerlos.

    ResponderEliminar