Ir al contenido principal

Entradas

Mostrando entradas de abril, 2016

Space Bison/0.02 [fu] (Win67; X; SK)

Received : 2016-04-23T20:05:34.789Z User-Agent: Space Bison/0.02 [fu] (Win67; X; SK) Language : en IP-Address: 42.80.236.105 Country : China (CN) Referer : http://uy.grippo.com/ URI : http://uy.grippo.com/ Web site : uy.grippo.com Es un proxy, aparentemente de Windows CE, lo marcamos como proxy entonces.

Mozilla/5.0 (compatible; LinkpadBot/1.08; +http://www.linkpad.ru)

Received : 2016-04-23T11:50:55.781Z User-Agent: Mozilla/5.0 (compatible; LinkpadBot/1.08; + http://www.linkpad.ru ) Language : ru-RU,ru;q=0.9,en;q=0.8 IP-Address: 5.79.68.55 Country : () Referer : URI : http://www.da.com.ar/tag/alquiler de barcos para fiestas.html Web site : www.da.com.ar Es un bot de un buscador ruso.

Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10_4_11; es) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/4.1.3 Safari/533.19.4

Received : 2016-04-22T20:28:09.230Z User-Agent: Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10_4_11; es) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/4.1.3 Safari/533.19.4 Language : es IP-Address: 189.208.18.113 Country : Mexico (MX) Referer : http://r.search.yahoo.com/_ylt=AwrSbje.ghpX_LcAqcTD8Qt.;_ylu=X3oDMTByYnR1Zmd1BGNvbG8DZ3ExBHBvcwMyBHZ0aWQDBHNlYwNzcg--/RV=2/RE=1461383999/RO=10/RU=https%3a%2f%2fmx.grippo.com%2fpost%2f876521%2fPARASOLES%2520PARA%2520AUTO.html/RK=0/RS=_O_wbardPNIBVTgVI98Xeu9iZl0- URI : http://mx.grippo.com/post/876521/PARASOLES PARA AUTO.html Web site : mx.grippo.com Esta sesión es de un usuario real, normal, pero lamentablemente no tiene habilitada las cookies.

Squid-Prefetch

Received : 2016-04-22T20:39:43.238Z User-Agent: Squid-Prefetch Language : IP-Address: 201.251.104.194 Country : Argentina (AR) Referer : URI : http://www.grippo.com.ar/user/2189762.html Web site : www.grippo.com.ar A simple vista Squid es un proxy, asique me pregunto ¿por qué no forwardea ni Cookie ni Language? Si alguien sabe, por favor comentar. Como siempre lo que se trata de determinar es si hay que throttearlo / bloquearlo, o dejarlo crawlear libremente.

Apache-HttpClient/4.5 (Java/1.8.0_77)

Received : 2016-04-22T11:36:17.354Z User-Agent: Apache-HttpClient/4.5 (Java/1.8.0_77) Language : IP-Address: 172.110.7.127 Country : () Referer : URI : http://mx.grippo.com/post/665774/guiones de obras de teatro cortas y chistosas.html Web site : mx.grippo.com Este bot me plantea algunas dudas. Voy a investigar y luego viendo para qué se usa, veremos.

Mozilla/5.0 (compatible; Gluten Free Crawler/1.0; +http://glutenfreepleasure.com/)

Received : 2016-04-21T23:18:23.042Z User-Agent: Mozilla/5.0 (compatible; Gluten Free Crawler/1.0; + http://glutenfreepleasure.com/ ) Language : IP-Address: 104.131.147.112 Country : () Referer : URI : http://cl.grippo.com/ Web site : cl.grippo.com Este señorito sí es un robot. Y muy simpático por cierto. El programador, de nombre Josh, tenía este dominio de antes, por alguna razón, asique lo reutilizó sólo porque ya lo tenía para su proyecto de crawler. Visiten su sitio, y verán que es muy bromista. Al identificarlo en la database como robot, se le permitió a "Gluten Free Crawler" tomar algunas páginas de mis sitios.

{sin User-Agent}

Received : 2016-04-19T21:35:16.472Z User-Agent: Language : IP-Address: 208.115.125.36 Country : United States (US) Referer : URI : http://www.grippo.com.ar/post/905894.html Web site : www.grippo.com.ar Es la prueba más contundente de que no es un robot, cuando no se toman el laburo de ponerle un nombre al User-Agent.

Mozilla/4.0 (compatible; MSIE8.0; Windows NT 6.0) .NET CLR 2.0.50727)

Received : 2016-04-19T18:09:53.319Z User-Agent: Mozilla/4.0 (compatible; MSIE8.0; Windows NT 6.0) .NET CLR 2.0.50727) Language : zh-cn IP-Address: 173.230.152.217 Country : United States (US) Referer : URI : http://www.grippo.com.ar/enviar.htm Web site : www.grippo.com.ar Este es un ejemplo de alguien navegando sin cookies. Lamentablemente pocos sitios hoy pueden ser navegados sin cookies. Especialmente los que conecten con Facebook, Twitter, Google y tengan cuentas de usuario, con login.

Lista de user-agents considerados robots

"Mozilla/5.0 (compatible; AhrefsBot/5.0; + http://ahrefs.com/robot/ ) "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534+ (KHTML, like Gecko) MsnBot-Media /1.0b" (Adsense Bot Banned | Click advertising Adsense) - To stop clicks to send 25 Litecoin ( litecoin.org ) wallet: Le3Y4Ktc8wSEH1FvmojoVt7d8RPKa5JCNU and direct transfer details and website address to mail googlebote@yahoo.com | After receiving the coins bot wi =Mozilla/5.0 (compatible; Googlebot/2.1; + http://www.google.com/bot.html ) AdsBot-Google (+ http://www.google.com/adsbot.html ) AdsBot-Google-Mobile (+ http://www.google.com/mobile/adsbot.html ) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari Alexa Verification Agent alexa-crawler Amazon Simple Notification Service Agent Apple-iPhone4C1/1001.523 (compatible;acapbot/0.1;treat like Googlebot) BacklinkCrawler ( http://www.backlinktest.com/crawler.html ) BaiduSpider Baiduspider+ ( http://www.baidu.com/search/