Robots.txt – O que é e como configurar

Tempo de leitura: 7 minutos

ROBOTS.TXT O QUE É E COMO CONFIGURAR?

O QUE É O ARQUIVO ROBOTS.TXT

O ROBOTS.TXT é um arquivo .txt (criado através do bloco de notas) que pode ou não estar presente na pasta raiz de um site.

Pode ou não, pois a existência dele não é obrigatória.

Ele é utilizado pelos robôs dos buscadores para identificar os conteúdos que devem ser indexados e representados como resultado de uma busca por determinada palavra ou termo.

Se ainda tiver alguma dúvida sobre como os mecanismos de busca funcionam, este artigo descreve passo a passo seu funcionamento: Como o Google funciona?

Mas será que não permitir que um conteúdo seja indexado faz sentido?

Nem todo conteúdo produzido precisa ser de fato encontrado na internet.

Você pode querer que alguns conteúdos sejam privados, por exemplo:

  • Páginas restritas, cujo acesso apenas seja através de usuário e senha, neste caso, todo conteúdo interno deve ser privado, apenas aos usuários cadastrados;
  • Páginas que tenham conteúdo repetido ou similar.

Visto que conteúdo repetido não é considerado bem visto para as técnicas de SEO e também pelos indexadores do Google.

Por isso você pode optar para que este conteúdo não seja indexado, por exemplo, nos casos em que você tem várias landing pages similiares.

  • Páginas de impressão.

As páginas de impressão são de certa forma conteúdo duplicado, e quando você passa a entender SEO, percebe que conteúdo duplicado é banido pelos buscadores, o conteúdo deve ser sempre único e exclusivo.

Já imaginou ao realizar uma busca na internet, os primeiros resultados serem exatamente iguais?

Isso não agregaria valor a sua busca, por isso, é importante configurar as páginas de impressão para que não sejam indexadas pelos mecanismos de busca.

É possível acessar o arquivo ROBOTS.TXT de algum site?

É possível ter acesso ao arquivo ROBOTS.TXT de qualquer site, você só precisa digitar o nome do site /robots.txt , este conteúdo é de livre acesso.

Por exemplo, é possível também acessar o ROBOTS.TXT alguns sites bem conhecidos no internet:

É claro que este conteúdo é extenso de mais, e seu site não necessariamente será igual  ou similar ao do Google, por exemplo.

Está gostando deste artigo?

Cadastre seu email no campo abaixo para ser o primeiro a receber novas atualizações do site.

FIQUE ATUALIZADO!

Insira aqui o seu email para receber gratuitamente as atualizações do blog!>

De quais formas podemos editar o aquivo ROBOTS.TXT?

Utilizar o bloco de notas

Você pode utilizar o bloco de notas para criar o arquivo .txt e posteriormente adiciona-lo a estrutura de pastas no servidor local ou servidor de hospedagem.

A extenção do arquivo deve ser .txt, e não necessariamente você precisa salvar o arquivo como nome.txt porque, o prorprio sistema operacional já salva o arquivo como .txt.

Para validar se está correto, você pode ir em propriedades do arquivo e em detalhes, você verá que o nome do arquivo já é robots.txt.

Utilizar o gerenciador de arquivos do servidor de hospedagem

Caso você já tenha um site publicado, deverá criar ou editar o arquivo dentro do servidor de publicação.

Para isso, você precisa acessar o painel de controle (ou através do FTP), ir até a pasta raiz do site e editar ou criar um arquivo robots.txt.

A forma mais fácil de saber se ele já existe é fazendo uma pesquisa pelo nome.

Caso não encontre, você então pode criar o arquivo do zero no servidor ou fazer o upload do arquivo existente em um servidor ou computador local.

Qual é a sintaxe do arquivo ROBOTS.TXT

Para entender o funcionamento do arquivo ROBOTS.txt, vamos resumi-lo em apenas 4 comandos:

  • User-agent: * , define que você irá deixar acesso livre a todos os buscadores;
  • Allow, será utilizado para dizer aos robôs de busca o que pode ser indexado;
  • Disalow, será utilizado para dizer aos robôs de busca o que não pode ser indexado;
  • Sitemap, será útil para informar aos robôs de busca a estrutura do site, ou seja, como foi definida a arquitetura da informação.

A estrutura do código, deverá ser semelhante a seguinte forma:

User-agent: *

Disallow:

Allow:

Sitemap:

Bloquear qualquer indexação

Para bloquear qualquer robô de indexação de conteúdo, você pode utilizar o código abaixo, digitando / na frente do comando disallow:

User-agent: *

Disallow: /

Sitemap: meusite.com.br/sitemap.xm

Indexar apenas uma página específica

Para bloquear qualquer robô de indexação de conteúdo, mas ao mesmo tempo, permitir que apenas uma página específica seja indexada, você pode utilizar o código abaixo.

User-agent: *

Disallow: /

Allow: /pagina-a-ser-indexada.html

Sitemap: meusite.com.br/sitemap.xml

Note que você tem que no comando “allow”, você tem que digitar o nome da página e sua extensão. Caso a página que deseja indexar esteja em uma pasta, você deverá colocar o caminho completo por ex:

Allow: /pasta/pagina-a-ser-indexada.html

Indexar uma pasta específica

Para indexar uma pasta específica, basta apenas permitir o acesso a pasta.

User-agent: *

Disallow: /

Allow: /nome-da-pasta

Sitemap: meusite.com.br/sitemap.xml

Bloquear apenas imagens

Para bloquear apenas as imagens do site, você primeiro tem que identificar o que realmente deseja bloquear, por ex, se for apenas uma imagem, você pode entrar com o valor:

Disallow: /nome-da-imagem.jpg

Lembrando de adicionar também a extensão da imagem, se é jpg, gif, png, etc. Caso ela esteja em uma pasta ou sub-pasta, deverá colocar o caminho todo até ela, por ex:

Disallow: /pasta/sub-pasta/nome-da-imagem.jpg

É possível também utilizar outro modo para bloquear que apenas um tipo de extensão seja bloqueado, por exemplo, bloquear apenas imagens do tipo .png e .gif:

User-agent: *

Disallow: /*.png$

Disallow: /*.gif$

Allow: /pagina-a-ser-indexada.html

Sitemap: meusite.com.br/sitemap.xml

Outra forma é utilizar o user-agent para fazer a configuração, por exemplo:

User-agent: Googlebot-Image

Disallow: /

Dessa forma, você estará bloqueando todas as imagens no site para o mecanismo de busca do Google.

Bloquear um conjunto de arquivos com nomes semelhantes

Por exemplo, se deseja bloquear que o mecanismo de busca indexe paginas de impressão:

 User-agent: *

Disallow: /*print=

Sitemap: meusite.com.br/sitemap.xml

O que é um user-agent?

O user-agent  pode ser utilizado para listar quais robôs de indexação devem seguir as regras do arquivo robots.txt. Por exemplo, caso que você queira que uma determinada regra só seja aplicada para o Google, não pelos depois robôs, assim como Yahoo e Bing, você deve especificar outros valores, por exemplo, começar como:

User-agent: Googlebot

Disallow: /x

Allow: /y

Sitemap: meusite.com.br/sitemap.xml

Neste caso, estará dizendo apenas para o Google que permite  o conteúdo y e proíbe que ele indexe o conteúdo x.

Você pode também utilizar outros user-agent e mesclar sua configuração, por ex:

User-agent: Googlebot

Allow:

Sitemap: meusite.com.br/sitemap.xml

User-agent:  *

Disallow: /

Sitemap: meusite.com.br/sitemap.xml

Neste exemplo acima, está sendo permitida a indexação pelo Google mas negada para todos os outros indexadores.

Há diversos comandos para o User-agent que podem ser utilizados, e para cada indexador há um diferente. Vamos ver alguns exemplos para o Google:

Googlebot

  •  Googlebot News – Googlebot-News
  • Googlebot Images – Googlebot-Image/1.0
  • Googlebot Video – Googlebot-Video/1.0
  • Google Mobile (featured phone) – SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • Google Smartphone – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Google Mobile Adsense – (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
  • Google Adsense – Mediapartners-Google
  • Google AdsBot (PPC landing page quality) – AdsBot-Google (+http://www.google.com/adsbot.html)
  • Google app crawler (fetch resources for mobile) – AdsBot-Google-Mobile-Apps

Há tembém outros user-agent para o demais buscadores.  Caso queira saber mais, vou deixar aqui os links com o conteúdo técnico de cada um:

Gostou do artigo?

Cadastre seu email no campo abaixo para ser o primeiro a receber novas atualizações do site.

FIQUE ATUALIZADO!

Insira aqui o seu email para receber gratuitamente as atualizações do blog!>

Summary
Review Date
Reviewed Item
Robots.txt
Author Rating
5