Revelan el funcionamiento del indexado con las nuevas arañas para la Deep Web

Es de dominio público que el contenido de una web se lista en los motores de búsqueda cuando puede ser indexado por ellos. Para esto se utilizan unos programas conocidos como arañas web, un automatismo que viaja por la red para indexar contenido, entre otras funciones. Tradicionalmente, estos programas sólo han tenido un espacio funcional dentro de la web superficial, la que vemos con cualquier navegador.

Otro tema de dominio público es que también hay una parte de Internet que no podemos ver, lo que se conoce como Deep Web. Estas páginas también pueden ser indexadas, aunque las arañas web “ocultas” usadas hasta ahora no eran muy eficientes.

Unos investigadores del Instituto Tecnológico de Rochester (RIT) han publicado un estudio según el cual aseguran que se puede indexar la Deep Web más eficazmente usando unas nuevas arañas ocultas desarrolladas por ellos.

Antes de continuar, convendría aclarar un par de conceptos que ya mencionamos en nuestro artículo sobre el kit de supervivencia de la Deep Web. Nos referimos a las diferencias entre Deep Web y Darknet.

El primer término hace referencia a todos los servicios web que no podemos ver, mientras que el segundo describe de forma general la parte más oscura de los sitios web ocultos.

Esto significa que para entrar en la Deep Web no es necesario usar Tor, aunque sí sea necesario para entrar en webs .onion. Basta con que nos encontremos con una web con un paywall, o que requiera de registro para acceder a sus contenidos, para que los buscadores no puedan indexar esas páginas. ¿Por qué? Porque las arañas web convencionales no están programadas para buscar esos sitios web que están “protegidos”.

El proyecto incluido en el documento se centra en indexar contenido web a través de rellenar un campo de texto en formularios para disminuir la complejidad de la tarea. Las palabras clave que se usaron para rellenarlos se obtuvieron de webs similares a WordStream, que se dedican a analizar palabras clave, que después se usan en tareas relacionadas con la optimización de motores de búsqueda.

Las arañas web de los investigadores se diseñaron para comprobar el archivo robots.txt de las webs antes de indexar su contenido. Usando una petición get/post se enviaban los formularios, pero como muchos sitios web usan un sistema de claves API para gestionar dichas peticiones, usaron Selenium Webdriver para superar este problema.

Esta utilidad se utiliza para realizar comprobaciones de errores en navegadores web, a grandes rasgos. Esto se debe a que el método get usa la URL para enviar los datos, mientras que el método post los envía de forma “oculta”.

Los resultados obtenidos de esta nueva técnica de indexado de la Deep Web son interesantes. Los autores del documento probaron sus arañas web con éxito con tres webs orientadas a temas de salud. Aplicando métodos de selección de palabras clave para clasificar los resultados, las usadas en este proyecto se dividieron en tres categorías:

Baja cobertura
Media cobertura
Alta cobertura

La clasificación se realizaba atendiendo de los resultados de búsqueda que devolvía cada palabra clave. La eficiencia de los envíos realizados por la araña web oculta llegó hasta el 63,6%, lo que es relativamente prometedor según los investigadores.

Los investigadores declararon que usando un método de clasificación de páginas web basado en URLs como CALA con su nueva araña web oculta, aún se pueden lograr más resultados prometedores. Una herramienta como esta que acabamos de nombrar, según los responsables del proyecto, aumentará el rendimiento de las arañas generando patrones más precisos para la extracción de enlaces. Es hacia aquí hacia donde dirigen actualmente sus esfuerzos.

Por otra parte, las arañas web ocultas pueden indexarlos sin problemas, da igual que requieran de registro o de superar un paywall. Los programas de este tipo que se estaban usando hasta ahora se pueden clasificar usando dos métodos según DeepDotWeb: atendiendo a la forma en que recorren las webs, y basándose en el método de elección de palabras clave.

Para entrar en servicios ocultos no es necesario instalar Tor y buscar direcciones .onion. La Deep Web es, como ya establecimos, todo lo que no podemos ver de Internet. Esto incluye también las páginas que requieren interacción del usuario para mostrar sus contenidos, como por ejemplo las que requieren un registro.

Fuente: Wordstream.