Portal de Congresos de la UNLP, BIREDIAL-ISTEC 2016

Tamaño de la fuente: 
Detección de bots en reportes estadísticos
Juan Manuel Catá, Ariel Jorge Lira, Marisa Raquel De Giusti

Última modificación: 2016-09-28

Resumen


Las estadísticas de un repositorio institucional son una herramienta básica que asiste el proceso de toma de decisiones y gestión del repositorio. Por este motivo, es importante que la información provista por estas estadísticas sea información precisa y confiable, en particular los registros de acceso y descarga.

Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web. La mayoría de los bots respetan las reglas básicas establecidas en los archivos robots.txt, sin embargo muchos no lo hacen e incluso hay algunos que no se identifican como tales y se hacen pasar por usuarios normales, y a pesar de las medidas que se toman para evitar el acceso de bots maliciosos, un número importante de estos logra filtrarse y efectuar miles de accesos indeseados. Se genera en consecuencia gran cantidad de datos espurios que llevan a estadísticas poco fiables y que en última instancia entorpecen el proceso de gestión del repositorio.

Para solucionar el problema planteado, se busca desarrollar una mecanismo que a partir del análisis permita bloquear los accesos de bots maliciosos - aquellos que no se identifican como bots -  y permitir los normales aunque sin registrar su paso en los registros de estadísticas del repositorio.

La herramienta de detección de bots que se presenta, analiza los registros de acceso en busca de patrones sospechosos a partir de una heurística configurable y reporta aquellas direcciones de IP con probabilidad que sea bot. Para cada caso reportado, se indica si la IP está asociada a un comportamiento de bot normal o a un comportamiento indeseado, como el realizado por spammers, comment miners, entre otros.

Actualmente el desarrollo se lleva a cabo analizando el registro de accesos del repositorio CIC-digital que, al usar DSpace como plataforma, guarda esta información en un índice de texto Solr. La herramienta, desarrollada en lenguaje JAVA, ejecuta reglas configurables  que buscan algún comportamiento específico que podría indicar que una dirección de IP es candidata a ser bot y retorna una probabilidad de que dicha IP sea un bot. Luego de aplicar todas las reglas, se pondera y promedia su salida y según el grado de certeza se agrega la ip una lista negra de IPs a bloquear o simplemente se la reporta para que luego un administrador determine que hacer con ella.

Las pruebas iniciales con la herramienta han permitido identificar un número elevado de accesos correspondientes a bots maliciosos que, al filtrarlos, permiten obtener resultados estadísticos mucho más veraces. A pesar de estos resultados positivos, se estima que aún queda una gran contaminación en los registros de acceso lo que requiere refinar las reglas y extender la funcionalidad de la herramienta.


Palabras clave


bot; estadísticas; miners; spammers; solr

Texto completo: PDF  |  Diapositivas