Robots.txt – O que é e como configurar

Tempo de leitura: 9 minutos

O que é o arquivo Robots.txt?

ROBOTS.TXT é um arquivo que pode ser criado através do bloco de notas e que pode ou não estar presente na pasta raiz de um site.

Pode ou não, pois a existência dele não é obrigatória.

Ele é utilizado pelos robôs dos buscadores para identificar os conteúdos que devem ser indexados e representados como resultado de uma busca por determinada palavra-chave.

Se ainda tiver dúvidas de como o Google funciona, leia este artigo.

Continue lendo para saber mais sobre:

Quais conteúdos podem ser bloqueados no Robots.txt
É possível acessar o arquivo ROBOTS.TXT de algum site?
Como editar o arquivo Robots.txt?
Sintaxe do arquivo ROBOTS.TXT
O que é um User-Agent

Não deixe de compartilhar com seus amigos para que cada vez mais as pessoas possam saber o que é o arquivo Robots.txt e como ele funciona.

Facebook
Twitter
Google+
Likedin

QUAIS CONTEÚDOS PODEM SER BLOQUEADOS NO ROBOTS.TXT?

Conteúdos que não devem ser indexados pelo Google

Nem todo conteúdo produzido precisa ser de fato encontrado na internet.

Você pode querer que alguns conteúdos sejam privados, por exemplo:

  • Páginas restritas, cujo acesso apenas seja através de usuário e senha, neste caso, todo conteúdo interno deve ser privado, sendo visualizado apenas aos usuários cadastrados;
  • Páginas que tenham conteúdo repetido ou similar.

Visto que conteúdo repetido não é considerado bem visto para as técnicas de SEO e também pelos indexadores do Google.

Por isso você pode optar para que este conteúdo não seja indexado, por exemplo, nos casos em que você tem várias landing pages similiares.

  • Páginas de impressão.

As páginas de impressão são de certa forma conteúdo duplicado, e quando você passa a entender o que é SEO, percebe que conteúdo duplicado é banido pelos buscadores, o conteúdo deve ser sempre único e exclusivo.

Já imaginou ao realizar uma busca na internet, os primeiros resultados serem exatamente iguais?

Isso não agregaria valor a sua busca, por isso, é importante configurar as páginas de impressão para que não sejam indexadas pelos mecanismos de busca.

É POSSÍVEL ACESSAR O ARQUIVO ROBOTS.TXT DE ALGUM SITE?

É possível acessar o arquivo ROBOTS.TXT?

É possível ter acesso ao arquivo ROBOTS.TXT de qualquer site, você só precisa digitar o nome do site /robots.txt. Este conteúdo é de livre acesso.

Por exemplo, é possível também acessar o ROBOTS.TXT alguns sites bem conhecidos no internet:

É claro que este conteúdo é extenso de mais, e seu site não necessariamente será igual  ou similar ao do Google, por exemplo.

Está gostando deste artigo Robots.txt?

Cadastre seu email no campo abaixo para ser o primeiro a receber novas atualizações do site.

FIQUE ATUALIZADO!

Insira aqui o seu email para receber gratuitamente as atualizações do blog!>

COMO EDITAR O ARQUIVO ROBOTS.TXT?

Editar arquivo Robots.txt

Utilizar o bloco de notas

Você pode utilizar o bloco de notas para criar o arquivo .txt e posteriormente adiciona-lo a estrutura de pastas no servidor local ou servidor de hospedagem.

A extenção do arquivo deve ser .txt, e não necessariamente você precisa salvar o arquivo como nome.txt porque, o prorprio sistema operacional já o salva.

Bloco de Notas
Propriedades do Arquivo – Robots.txt

Para validar se está correto, você pode ir em propriedades do arquivo e em detalhes, você verá que o nome do arquivo já é robots.txt.

Utilizar o gerenciador de arquivos do servidor de hospedagem

Caso você já tenha um site publicado, deverá criar ou editar o arquivo dentro do servidor de publicação.

Para isso, você precisa acessar o painel de controle (ou através do FTP), ir até a pasta raiz do site e editar ou criar um arquivo robots.txt.

A forma mais fácil de saber se ele já existe é fazendo uma pesquisa pelo nome.

Caso não encontre, você então pode criar o arquivo do zero no servidor ou fazer o upload do arquivo existente em um servidor ou computador local.

Utilizar um Gerador de Robots.txt

Alguns sites na internet permitem que você adicione algumas propriedades e geram automaticamente o código.

Dessa forma, você não precisa se preocupar muito com o código em particular.

Vale a pena dar uma olhada se quiser ser mais prático.

Geradores de robots.txt:

Você não é um especialista SEO mas quer saber passo a passo como fazer para otimizar seu site e aumentar sua renda mesmo sem saber nada de programação? Se inscreva agora no Programa 365 dias no TOPO, e saiba passo a passo o que você precisa fazer para manter seu site no TOPO das buscas.

 

SINTAXE DO ARQUIVO ROBOTS.TXT

Sintaxe do arquivo Robots.txt

Para entender o funcionamento do arquivo ROBOTS.txt, vamos resumi-lo em apenas 4 comandos:

  • User-agent: * , define que você irá deixar acesso livre a todos os buscadores;
  • Allow, será utilizado para dizer aos robôs de busca o que pode ser indexado;
  • Disalow, será utilizado para dizer aos robôs de busca o que não pode ser indexado;
  • Sitemap, será útil para informar aos robôs de busca a estrutura do site, ou seja, como foi definida a arquitetura da informação.

A estrutura do código, deverá ser semelhante a seguinte forma:

User-agent: *
Disallow:
Allow:
Sitemap:

Bloquear qualquer indexação

Para bloquear qualquer robô de indexação de conteúdo, você pode utilizar o código abaixo, digitando / na frente do comando disallow:

User-agent: *
Disallow: /
Sitemap: meusite.com.br/sitemap.xm

Indexar apenas uma página específica

Para bloquear qualquer robô de indexação de conteúdo, mas ao mesmo tempo, permitir que apenas uma página específica seja indexada, você pode utilizar o código abaixo.

User-agent: *
Disallow: /
Allow: /pagina-a-ser-indexada.html
Sitemap: meusite.com.br/sitemap.xml

Note que você tem que no comando “allow”, você tem que digitar o nome da página e sua extensão. Caso a página que deseja indexar esteja em uma pasta, você deverá colocar o caminho completo por ex:

Allow: /pasta/pagina-a-ser-indexada.html

Indexar uma pasta específica

Para indexar uma pasta específica, basta apenas permitir o acesso a pasta.

User-agent: *
Disallow: /
Allow: /nome-da-pasta
Sitemap: meusite.com.br/sitemap.xml

Bloquear apenas imagens

Bloquear Imagens utilizado o Robots.txt

Para bloquear apenas as imagens do site, você primeiro tem que identificar o que realmente deseja bloquear, por ex, se for apenas uma imagem, você pode entrar com o valor:

Disallow: /nome-da-imagem.jpg

Lembrando de adicionar também a extensão da imagem, se é jpg, gif, png, etc. Caso ela esteja em uma pasta ou sub-pasta, deverá colocar o caminho todo até ela, por ex:

Disallow: /pasta/sub-pasta/nome-da-imagem.jpg

É possível também utilizar outro modo para bloquear que apenas um tipo de extensão seja bloqueado, por exemplo, apenas imagens do tipo .png e .gif:

User-agent: *
Disallow: /*.png$
Disallow: /*.gif$
Allow: /pagina-a-ser-indexada.html
Sitemap: meusite.com.br/sitemap.xml

Outra forma é utilizar o user-agent para fazer a configuração, por exemplo:

User-agent: Googlebot-Image
Disallow: /

Dessa forma, você estará bloqueando todas as imagens no site para o mecanismo de busca do Google.

Bloquear um conjunto de arquivos com nomes semelhantes

Por exemplo, se deseja bloquear que o mecanismo de busca indexe paginas de impressão:

User-agent: *
Disallow: /*print=
Sitemap: meusite.com.br/sitemap.xml

Baixe agora o eBook gratuito que contém uma lista completa com 50 ferramentas online de análise de SEO + 19 bônus exclusivos para turbinar um site.

O QUE É UM USER-AGENT?

User Agent

O user-agent  pode ser utilizado para listar quais robôs de indexação devem seguir as regras do arquivo robots.txt.

Por exemplo, caso que você queira que uma determinada regra só seja aplicada para o Google, não pelos demais robôs, assim como Yahoo e Bing, você deve especificar outros valores, por exemplo, começar como:

User-agent: Googlebot
Disallow: /x
Allow: /y
Sitemap: meusite.com.br/sitemap.xml

Neste caso, estará dizendo apenas para o Google que permite  o conteúdo y e proíbe que ele indexe o conteúdo x.

Você pode também utilizar outros user-agent e mesclar sua configuração, por ex:

User-agent: Googlebot
Allow:
Sitemap: meusite.com.br/sitemap.xml
User-agent: *
Disallow: /
Sitemap: meusite.com.br/sitemap.xml

Neste exemplo acima, está sendo permitida a indexação pelo Google mas negada para todos os outros indexadores.

Há diversos comandos para o User-agent que podem ser utilizados, e para cada indexador há um diferente. Vamos ver alguns exemplos para o Google:

Googlebot

  •  Googlebot News – Googlebot-News
  • Googlebot Images – Googlebot-Image/1.0
  • Googlebot Video – Googlebot-Video/1.0
  • Google Mobile (featured phone) – SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
  • Google Smartphone – Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Google Mobile Adsense – (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
  • Google Adsense – Mediapartners-Google
  • Google AdsBot (PPC landing page quality) – AdsBot-Google (+http://www.google.com/adsbot.html)
  • Google app crawler (fetch resources for mobile) – AdsBot-Google-Mobile-Apps

Há tembém outros user-agent para o demais buscadores.

Caso queira saber mais, vou deixar aqui os links com o conteúdo técnico de cada um:

Gostou do artigo Robots.txt?

Cadastre seu email no campo abaixo para ser o primeiro a receber novas atualizações do site.

FIQUE ATUALIZADO!

Insira aqui o seu email para receber gratuitamente as atualizações do blog!>

Referências
Robots.txt > http://www.robotstxt.org
SEO Marketing > http://www.seomarketing.com.br
Agência Mestre > http://www.agenciamestre.com
Marketing de Contúdo > http://marketingdeconteudo.com

Summary
Review Date
Reviewed Item
Robots.txt
Author Rating
51star1star1star1star1star