Robots.txt: Aprenda a evitar o acesso de robôs em sites

07/05/2018 às 17:33 Ajuda

Robots.txt: Aprenda a evitar o acesso de robôs em sites

O que é Robots.txt? Se você é dono de site ou blogs e nunca ouviu falar desse arquivo tão importante, fique atento e leia nosso artigo até o final.

Quando se acessa a internet, ninguém gosta de ser incomodado e quer ter agilidade sempre. O problema é que, às vezes, os famosos robôs ficam importunando as pessoas solicitando informações desnecessárias. Esse artigo vai te mostrar o que são esses robôs e como evitar o acesso deles em sites. Leia até o final e saiba mais sobre o assunto. 

O que são os robôs?

Como o próprio nome já diz, robots.txt é um arquivo no formato .txt do bloco de notas. Funciona como uma espécie de filtro para os robôs dos sites de busca e faz com que os webmasters controlem permissões de acesso a determinadas páginas ou pastas dos sites. 

O robots.txt controla qual informação de um site deve ou não deve ser indexada pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem.

Porém, você pode optar por não ter algumas de suas páginas exibidas nos resultados de busca, como por exemplo: 

  • Páginas de Login - uma página de login a uma área restrita, como acesso à intranet, geralmente não deve ser indexada;
  • Páginas de conteúdo repetido - Caso você tenha diversas Landing Pages com conteúdo bastante similar rodando para suas campanhas do Google AdWords, deve bloquear todas as cópias e deixar apenas uma versão a ser indexada pelo Google, minimizando o problema do conteúdo duplicado;
  • Páginas de impressão - Se seu site tiver versões para tela e impressão sendo indexadas, elimine a versão para impressão do índice do Google.

Como eles funcionam?

Dada uma URL inicial, os robôs coletam todo o documento, extraem seus links e os colocam em uma fila de urls para serem visitadas. Em seguida, os robôs guardam uma cópia local para realizar operações de indexação nesse documento. Aprimore seus conhecimentos em Passo a passo para criar o seu Blog

Um documento pode ter dezenas de links para outros documentos e dessa forma, o robô consegue percorrer milhões de páginas. Os documentos que não possuem nenhuma referência, não existem links apontando para eles e por isso jamais serão coletados pelo robôs. 

Os robots usam algumas políticas de visitas a URL, como por exemplo: 

Baseada em conectividade: O mecanismo de escalonamento considera o número de links para a página. O valor de uma página é proporcional ao número de referências a ela. Links de páginas de maior valor têm maior peso para os robôs.

Baseada em domínio: a coleta é somente de documentos encontrados em servidores HTTP cujos domínios DNS sejam subdomínios do domínio “.br”. A coleta de um documento é o passo mais demorado de todo o processo de coleta. 

Conheça alguns comandos para barrar os robôs

User-agent

A função do comando user-agent é de listar quais robôs devem seguir as regras indicadas no arquivo robots.txt. Suponha que você deseje somente que o mecanismo de busca do Google siga as definições definidas no arquivo robots.txt. Para isso, basta indicar o User-agent como Googlebot. Veja as principais opções:

  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot
  • Todos os mecanismos: User-agent:  simplesmente não incluir o comando user-agent)

Disallow

Esse comando instrui os sites de busca sobre quais diretórios ou páginas não devem ser incluídas no índice. Veja os exemplos:

  • Disallow: /prod - orienta os robôs a não indexarem pastas ou arquivos que comecem com "prod";
  • Disallow: /prod/ - orienta os robôs a não indexarem conteúdo dentro da pasta "prod"
  • Disallow: print1.html - orienta os robôs a não indexarem conteúdo da página print1.html. 

Allow

O comando Allow orienta os robôs qual diretório ou página deve ter o conteúdo indexado. Diretórios e páginas são sempre permitido e dessa forma, este comando deve ser utilizado apenas em situações em que o webmaster bloqueou o acesso a um diretório por meio do comando Disallow, mas gostaria de ter indexado um arquivo ou sub-diretório dentro do diretório bloqueado.

Leia nosso post sobre Como criar um blog

Você pode ver no robots.txt do Google, as duas linhas abaixo. O Allow permite que seja indexado o diretório /about abaixo do diretório /catalogs.

Disallow: /catalogs  
Allow: /catalogs/about

Sitemap

Essa é uma outra função permitia pelo robots.txt, que é a indicação do caminho e nome do sitemap em formato XML do site. É a ferramenta para webmasters do Google e oferece um maior controle e visibilidade para comunicar ao Google onde estão os arquivos sitemap.

Veja como o Google submete em seu robots.txt, diversos sitemaps:

Sitemap: http://www.google.com/hostednews/sitemap_index.xml  
Sitemap: http://www.google.com/sitemaps_webmasters.xml  
Sitemap: http://www.google.com/ventures/sitemap_ventures.xml  
Sitemap: http://www.gstatic.com/dictionary/static/sitemaps/sitemap_index.xml  
Sitemap: http://www.gstatic.com/earth/gallery/sitemaps/sitemap.xml  
Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml  
Sitemap: http://www.gstatic.com/trends/websites/sitemaps/sitemapindex.xml

Além disso, você pode usar algumas metas tags especiais:

<meta name="ROBOTS" content="NOINDE> não coletar o documento; pode extrair e seguir seus links.
<meta name="ROBOTS" content="NOFOLLOW">: o documento pode ser coletado; seus links não devem ser seguidos.
<meta name="ROBOTS” content="NOINDEX,NOFOLLOW">: não coletar o documento;não extrair e seguir seus links.

Algumas universidades, usam esse mecanismo para impedir que robôs como os de sites de jornais congestionem seus servidores em épocas em que há muitas consultas quando, por exemplo, os resultados de vestibular. Conheça nosso serviço de Hospedagem de Site

Cuidados com o arquivo robots.txt

É muito fácil acessar o conteúdo de arquivos robots.txt de qualquer site, inclusive do seus concorrentes. Tome muito cuidado com o que é incluído nesse arquivo, evitando colocar arquivos confidenciais. Nesses casos, o ideal é utilizar a meta tag robots (meta name = "robots")

Aplicação de Robots.txt

Exemplo: o webmaster não deseja que o conteúdo do diretório/docs seja indexado pelos robots e bloqueou o acesso ao diretório /docs com o comando "Disallow: /docs" no arquivo robots.txt.

Dentro desse diretório existe um sub-diretório chamado "public", que deve ter seu conteúdo indexado. Para que isso aconteça, basta usar no arquivo robots.txt a instrução "Allow: /docs/public/".

Exemplos reais de Robots.txt

Para verificar os exemplos de arquivos robots.txt, basta navegar pela internet e incluir o arquivo /robots.txt na raíz dos sites visitados para verificar se eles utilizam o arquivo robots.txt. 

Conclusão

Os robôs quando não são corretamente projetados, podem trazer grandes problemas para os usuários. Eles podem aumentar o tráfico na rede e sobrecarregar um servidor. É uma ferramenta que deve ser usado com responsabilidade para que a web possa ser usada por todos.

Ainda tem dúvidas? Sem problemas. Em nosso blog você pode ler mais sobre esse e outros assuntos.

Gostou de nosso post? Compartilhe: