Ogeid » 2008 » Enero

Mensajes en los logs

Anoche en una cena de nerds, Lucas mencionó la siguiente idea:

Muchos autores de blogs miran en sus estadísticas las búsquedas que llevaron a alguien al blog. El software de estadísticas saca esta información del campo referrer del log del servidor. Ese campo es controlado por quien hace el pedido, por lo que se puede usar para dejar cualquier mensaje. De hecho, esa es una técnica de spam para lograr tráfico.

Aquí va un ejemplo de cómo hacerlo en python:

import httplib, urllib2
print "enter url to spam, e.g. www.yoursite.com/page.html (no http://)"
url = "http://" + raw_input(">")
print "enter query words separated by '+', e.g. you+are+the+best "
query = raw_input(">")
referrer = "http://www.google.com/search?hl=en&q=" + query + "&btnG=Google+Search"
request = urllib2.Request(url)
request.add_header("referer", referrer)
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1')]
opener.open(request).read()

Esto deja una entrada en el log que se ve así:

200.126.xxx.xxx www.yoursite.com – [26/Jan/2008:19:39:14 -0600] “GET / HTTP/1.1″ 200 3539 “http://www.google.com/search?hl=en&q=you+are+the+best&btnG=Google+Search” “Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111 Firefox/1.5.0.1″

Cuando el dueño del blog vea las búsquedas que trajeron visitantes, una de ellas será ‘you are the best’ en google. No usar para fines malvados!

Flaptor Open Source

En Flaptor acabamos de anunciar que vamos a liberar el código de nuestro buscador Search4j (quizás con otro nombre). Pueden ver más detalles en el anuncio en inglés, o directamente en la página de Flaptor Open Source.

Flaptor autotagger

Acabamos de poner una demo del generador automático de tags en tagger.flaptor.com

Es un programa que intenta adivinar tags para un texto dado basándose en un algoritmo de aprendizaje. Lo entrenamos con cientos de miles de posts en inglés, por ahora no está disponible en castellano pero no nos falta mucho (sólo un poco más de contenido con tags). Funciona mejor para temas candentes y noticias, ya que usamos posts de las últimas semanas.

Cualquier comentario o sugerencia es bienvenido.