Domein E-mail & Office Website WordPress Hosting VPS
Ga terug
.com
$ 4.99 $ 26.99 /1ste jaar
.one
$ 5.99 $ 17.99 /1ste jaar
Ga terug
Inloggen
Configuratiescherm Webmail Website Builder Webshop File Manager WordPress

Wat is robots.txt?

In dit artikel leer jij alles over Robots.txt en hoe jij een Robots.txt checker gebruikt!

vector

In het kort

Glossary

Robots.txt is een bestand dat zoekmachines vertelt welke pagina’s op een website ze mogen bezoeken en welke ze niet mogen bezoeken. Het helpt website-eigenaren bepalen hoe hun website wordt gecrawld en geïndexeerd door zoekmachines.

Het eerste wat je moet weten is dat het robots.txt bestand leeft op jouw website. Het is ook belangrijk om te weten dat de smart search engine spiders automatisch zoeken naar jouw robots.txt om instructies te ontvangen voor ze jouw website in kruipen. Dit is waarom je altijd jouw robots.txt bestanden in jouw hoofdmap moet hebben want dit is de eerste plek waar de spiders zullen kijken voor instructies.

Je kan heel makkelijk kijken of je robots.txt op jouw website hebt door te zoeken naar www.denaamvanjouwwebsite.nl/robots.txt.

Google raadt iedereen die een website heeft aan om robots.txt te hebben. Als google’s crawlers jouw robots.txt bestand niet kunnen vinden, zal dit er waarschijnlijk voor zorgen dat de zoekmachine niet alle belangrijke pagina’s op jouw website bereikt. De taak van een zoekmachine is om jouw website te crawlen en een index te maken om jouw website toegankelijk te maken voor mensen. 

Wat doet robots.txt?

Robots.txt geeft jou de mogelijkheid om delen van jouw website te blokkeren en een index te maken van andere delen van jouw website. Je kan er voor kiezen om bij bepaalde pagina’s en folders te kiezen voor ‘’Toestaan’’ of ‘’Niet toestaan’’.

Als je bepaalde pagina’s toestaat geef je de spiders toestemming om naar dat specifieke onderdeel van jouw website te gaan en dit te indexeren. Andersom is het zo dat de pagina’s met niet toestaan niet door de spiders gevonden mogen worden van jou.

Robots.txt geeft jouw website de mogelijkheid om beschikbaar en bereikbaar te zijn in zoekmachines. Als je bijvoorbeeld een contact pagina hebt op jouw website kan je ervoor kiezen om die pagina te blokkeren met behulp van robots.txt zodat Google andere belangrijke pagina’s van jouw website kan crawlen en geen tijd spendeert aan een pagina waarvan jij het niet echt belangrijk vind of mensen toegang hebben tot deze pagina vanuit de zoekmachine.

Door dit te doen zeg je tegen Google dat ze de inhoud van jouw contactpagina niet hoeven te crawlen. Natuurlijk kan je ook jouw volledige website blokkeren met robots.txt als dat is wat je graag wil.

Hoe werkt robots.txt?

Er zijn verschillende soorten crawlers voor verschillende zoekmachines en platformen. We noemen deze crawlers meestal ‘User agent’. Wanneer je ervoor kiest om toegang te geven tot een bepaald onderdeel van jouw website kan je voor een specifiek soort crawler kiezen, je kan bijvoorbeeld kiezen voor Googlebot (Google’s crawlers) als User-Agent, of je kan een * gebruiken en refereren naar alle crawlers die op het world wide web zitten.

Je kan zeer geavanceerd zijn met robots.txt. Je kan bijvoorbeeld URL’s, mappen/adresboeken of zelfs specifieke URL parameters blokkeren.

Dezelfde techniek geldt ook voor de pagina’s waar je wil dat Google naartoe crawlt en extra aandacht aan geeft. Je kan deze favoriete pagina’s indexeren met behulp van robots.txt.

Vertraging

Je kan vertragingen toevoegen in jouw robots.txt bestand. Als je bijvoorbeeld niet wil dat een crawler zo snel door jouw website gaat kan je een vertraging invoeren. Hiermee bedoelen we dat je de spiders vertelt dat ze niet in jouw website mogen crawlen tot een vertraging is gespecificeerd. 

Je gebruikt deze vertraging om ervoor te zorgen dat de crawlers je webserver niet overbelasten. 

Hou echter wel in de gaten dat Google geen vertragingen ondersteund. Als je jouw webserver niet wil overbelasten met Google bots kan je gebruik maken van crawl graad. Je kan kiezen welke crawl graad jouw voorkeur heeft in Google Search Console en zo proberen om de spiders te vertragen.

Patroonvergelijking

Als je een meer uitgebreide website hebt kan je er over nadenken om patroonvergelijking te implementeren. Of je Google gebruikt of een andere zoekmachine, ja kan deze zoekmachines instructies geven om door jouw pagina’s te crawlen op basis van een aantal regels.

Patroonvergelijking heeft een eigen set aan regels waarvan je wil dat de crawlers die volgen. Mogelijk wil je URL’s blokkeren met daarin het woord ‘website’. 

Waarom zou je robots.txt moeten gebruiken?

Veel mensen gebruiken robots.txt om te voorkomen dat derde partijen hun websites kunnen crawlen. Het is echter zo dat niet alleen zoekmachines jouw website kunnen crawlen; ander derde partijen proberen ook constant om toegang te krijgen tot jouw website. Het gevolg hiervan is dat al het crawlen op jouw website ervoor zorgt dat jouw website en server trager worden, wat resulteert in een negatieve gebruikerservaring. Daarbij kunnen deze derde partijen zorgen voor server problemen die jij dan moet oplossen.

Je kan ook robots.txt gebruiken om deze derde partijen toegang te weigeren tot het kopiëren van inhoud van jouw website en het analyseren van veranderingen op jouw website. Robots.txt is een zeer goede manier om dingen te blokkeren die je niet op jouw website wil hebben.

Hou wel in de gaten dat wanneer een derde partij erg geïnteresseerd is in jouw website ze software kunnen gebruiken, zoals Screaming Frog, wat ervoor zorgt dat zij de ‘blokkade’ kunnen negeren en alsnog jouw website kunnen crawlen. Daarom moet je niet honderd procent vertrouwen op robots.txt als het aankomt op het beschermen van bepaalde onderdelen van jouw website.

Robots.txt checker

Je kan Google Search Console gebruiken om te zien of je een pagina blokkeert met de robots.txt checker. Het is goed om dit om de zoveel tijd te checken om zeker te zijn dat je niet per ongeluk een belangrijke pagina hebt geblokkeerd.

Wees voorzichtig als je met robots.txt werkt. Het kan veel schade geven aan jouw website als je per ongeluk je hele website blokkeert van indexatie.