O que é robots.txt?
Neste artigo partilhamos tudo o que precisa de saber sobre o robots.txt
A primeira coisa que deve saber é que o ficheiro robots.txt vive no seu site. Também deve saber que as spiders do motor de busca inteligente procurarão automaticamente os seus robots.txt para receberem instruções antes de fazerem crawl no seu site. Assim, deverá ter sempre o seu ficheiro robots.txt no seu directório raiz, pois é o primeiro local onde as spiders irão procurar instruções.
Pode simplesmente verificar se tem o ficheiro robots.txt no seu site, pesquisando www.onomedoseusite.com/robots.txt.
O Google recomenda a todos os proprietários de um site a terem o robots.txt. Se os crawlers do Google não conseguirem encontrar o seu ficheiro robots.txt, o mais provável é que o motor de busca não rasteje todas as páginas importantes do seu site. A função de um motor de busca é rastrear e indexar o seu sítio web para ser acessível às pessoas.
O que faz o robots.txt?
O Robots.txt permite-lhe bloquear partes do seu site e indexar outras partes do seu site. Pode escolher entre ‘Permitir’ ou ‘Não permitir’ certas páginas e pastas no seu site.
Se permitir determinadas páginas, está a permitir que as spiders vão a essa área específica do seu site e a indexem. Inversamente, não permitir significa que não quer que as spiders encontrem determinadas páginas e áreas do seu site.
O ficheiro robots.txt permite que o seu site esteja disponível e acessível nos motores de busca. Assim, por exemplo, se tiver uma página de contacto no seu site, pode decidir bloquear essa página, com a ajuda de robots.txt, para que o Google possa rastejar outras páginas importantes no seu site e não gastar tempo a fazer crawl de uma página que realmente não lhe interessa se as pessoas têm acesso à página ou não a partir do motor de busca.
Ao fazer isto, está a dizer ao Google para não fazer crawl do conteúdo da sua página de contacto. É claro que também pode bloquear a sua página web inteiramente com robots.txt se isso for algo que deseje fazer.
Como funciona o robots.txt?
Existem vários tipos de crawlers para diferentes motores de busca e plataformas. Normalmente chamamos a estes crawlers ‘Agente do Utilizador’. Assim, quando decide permitir ou proibir uma determinada área do seu site, pode escolher identificar o crawler específico, por exemplo, Googlebot (os crawlers do Google), como o Agente Utilizador, ou pode simplesmente usar um * e referir-se a todos os rastreadores que vivem na World Wide Web.
Pode ficar muito avançado com robots.txt. Por exemplo, pode bloquear URLs, diretórios, ou mesmo parâmetros específicos de URLs.
A mesma técnica aplica-se a páginas que desejam que o Google rastreie e dê mais atenção. Pode indexar estas páginas favoritas com a ajuda do robots.txt.
Atrasos de Tempo
Pode incluir atrasos de tempo no seu ficheiro robots.txt. Por exemplo, pode não querer que um crawler faça crawl do seu site tão rapidamente, por isso pode colocar atrasos de tempo. Ou seja, está agora a dizer às spiders para não fazer crawl do seu site até um certo atraso de tempo especificado.
Deve utilizar o tempo de atraso para garantir que os crawlers não sobrecarregam o seu servidor web.
No entanto, tenha em mente que o Google não suporta atrasos de tempo. Se não quiser sobrecarregar o seu servidor web com bots do Google, pode, em vez disso, utilizar a taxa de crawl. Pode escolher a sua taxa de crawl preferida na Consola de Pesquisa do Google e tentar abrandar as spiders.
Correspondência de padrões
Se tiver um site mais extenso, poderá considerar a implementação da correspondência de padrões. Quer se trate do Google ou de qualquer outro motor de busca, pode instruir estes motores de busca a percorrer e fazer crawl das suas páginas com base num conjunto de regras.
A correspondência de padrões implica um conjunto de regras que pretende que os crawlers sigam. Por exemplo, pode querer bloquear URLs que tenham a palavra ‘website’.
Por devo usar robots.txt?
Muitas pessoas utilizam robots.txt para impedir que terceiros façam crawl dos seus sites. Contudo, há mais do que apenas motores de busca a fazer crawl do seu site; outros terceiros também tentam constantemente aceder ao seu site. Consequentemente, tudo o que faz crawl no seu site o abranda e ao seu servidor, resultando numa experiência negativa para o utilizador. Além disso, estes widgets de terceiros podem causar problemas de servidor que precisa de resolver.
Também pode usar robots.txt para impedir que terceiros copiem conteúdo do seu site ou analisem as alterações que fizer ao seu site. O robots.txt é uma excelente forma de bloquear coisas que não quer no seu site.
Tenha em mente que se um terceiro estiver muito interessado no seu site, pode usar software, como o Screaming Frog, que lhe permite ignorar o ‘bloqueio’ e ainda assim fazer crawl do seu site. Assim, não deve confiar a cem por cento no robots.txt quando se trata de proteger certos aspetos do seu site.
Robots.txt checker
Pode usar o Google Search Console para ver se está a bloquear uma página com o robots.txt checker. É bom verificar isso de vez em quando para garantir que não bloqueou uma página importante por acidente.
Tenha muito cuidado quando trabalhar com o robots.txt. Pode causar sérios danos ao seu site se bloquear acidentalmente todo o seu site por indexação.