Blog

SEO: Hoe werkt crawlen?

Hoe werkt crawlen?
Technische SEO

SEO: Hoe werkt crawlen?

Een zoekmachine bestaat uit een crawler, een index en een algoritme. Een crawler gaat geautomatiseerd op het internet op zoek naar websites. De inhoud van deze websites wordt verzameld en toegevoegd aan een gigantische database: de index. Vervolgens bepaalt het algoritme welke zoekresultaten op welke positie worden vertoond.

Gebruik van links

Een crawler gaat van linkje naar linkje en hoe vaak deze bij jouw website of op een specifieke pagina uitkomt heeft dus direct verband met hoeveel links er naar je websites verwijzen (backlinks) en je interne links. Iedere keer dat een crawler over een bepaalde webpagina gaat wordt de index bijgewerkt.

De crawler beïnvloeden

Wanneer je wilt dat je webpagina’s in de zoekresultaten verschijnen is het belangrijk om de crawler zijn werk te laten doen. Voor sommige pagina’s kan het handig zijn om de crawler te blokkeren of mee te geven om een pagina niet te indexeren. Denk aan inlogpagina’s, bedankpagina’s of archiefpagina’s. Je kunt de crawler op de volgende manieren beïnvloeden.

robots.txt bestand

In een robots.txt bestand kun je aangeven welke pagina’s je niet wilt laten indexeren. Een crawler opent altijd als eerste dit bestand om te zien wat er wel en niet gecrawld moet worden. Een robots.txt-bestand heeft altijd dezelfde URL: https://voorbeeld.nl/robots.txt. Je kunt eenvoudig een teksteditor gebruiken om je tekstbestand te maken en te uploaden naar de bovengenoemde URL.

Robots.txt bestand

Je kunt middels dit Robots.txt bestand bepaalde bots instructies geven, bijvoorbeeld alleen Googlebot. Dit wordt aangegeven door de ‘user-agent’. Wil je een pagina of map niet laten indexeren? Dan doe je dit door middel van de ‘disallow’-instructie. Wil je een pagina juist wel laten indexeren? Gebruik dan de ‘allow’-instructie. Bijvoorbeeld:

User-agent: Googlebot
Disallow: /bedankt-contact/

Dit betekent dus: Dag Googlebot, welkom op mijn website. Pagina /bedankt-contact/ mag je niet indexeren.

Disallow

Naast pagina’s en mappen kun je ook URL’s met bepaalde tekens blokkeren. Dit wordt met teken ‘*’ gedaan. Wil je bijvoorbeeld alle URL’s met een vraagteken blokkeren, dan geef je de volgende instructie: ‘disallow: /*?’.

Tot slot kun je bestanden blokkeren door URL’s met hetzelfde einde uit te sluiten. Dit doe je met het dollarteken ($). Wil je bijvoorbeeld alle afbeeldingen blokkeren? Gebruik dan ‘disallow:/*.jpg$’

 

Een HTTP-header

De HTTP-header bevat een statuscode. Als deze statuscode aangeeft dat een pagina niet bestaat, zal de zoekmachine die pagina ook niet crawlen.

Robots metatag

Metatags van robots zijn korte stukjes code die de zoekmachine vertellen wat het wel en niet kan doen. Om te voorkomen dat de zoekmachine een pagina indexeert, kun je gebruik maken van de ‘noindex’ waarde. De pagina wordt dan wél gecrawld, maar niet geïndexeerd.

De ‘noindex’ optie staat ook standaard in bijvoorbeeld Yoast SEO. Wanneer je niet wil dat een pagina in de zoekmachine komt, vink je deze optie aan.

Maak je geen gebruik van Yoast SEO, dan kun je de instructies in de <head> van de pagina plaatsen. Bijvoorbeeld:
<meta name=”robots” content=”noindex”> 

Deze noindex functie wordt vaak gebruikt wanneer er twee pagina’s op je website staan die vrijwel dezelfde informatie bevatten. Dit kan zorgen voor duplicate content, wat een negatief effect heeft op de organische ranking van je website. Door een van de twee pagina’s de code ‘noindex’ te geven, indexeert het bot alleen de andere pagina.

Een andere veelvoorkomende situatie waarin de noindex functie wordt gebruikt is voor het uitsluiten van bedanktpagina’s.

Canonical URL

De canonical URL is een HTML element die kannibalisatie, ofwel het intern concurreren van webpagina’s, moet voorkomen. Het zorgt ervoor dat, wanneer meerdere pagina’s op elkaar lijken, de zoekmachine altijd de juiste pagina indexeert.

Voorbeeld

Tom plaatst een blogartikel op de website van Tompouceonline genaamd ‘De lekkerste soorten tompoezen’. Echter heeft hij ook een informatieve SEO pagina ‘Soorten tompoezen’ online staan.

Om te voorkomen dat het blogartikel ‘De lekkerste soorten tompoezen’ ten koste van ‘Soorten tompoezen’ naar boven komt in de zoekmachine, plaatst Tom bij het blogartikel de volgende canonical URL in de <head> van de website:

<link rel=”canonical” href=”https://www.tompouceonline.nl/soorten-tompoezen” />

De canonical URL voorkomt dat twee of meerdere pagina’s op dezelfde website met elkaar gaan concurreren (kannibalisatie). Eigenlijk geef je met dit element aan: Ik wil dat je de link die ik heb opgegeven verkiest boven de huidige URL bij het indexeren van mijn pagina.

Rel=”next”/”prev” tag

Het kan zijn dat je op je website een categorie hebt waar meerdere pagina’s onder vallen. Maak je bijvoorbeeld gebruik van een blogpagina? Deze kan dan uit meerdere pagina’s bestaan. De relatie tussen deze verschillende pagina’s kun je aangeven in de broncode van je website. Hiermee zeg je tegen Google dat de pagina’s als een geheel gezien moeten worden. De eerste pagina is in dit geval altijd de categoriepagina.

Hreflang-tag

De hreflang-tag gebruik je als een website meerdere taalinstellingen heeft. Deze tag maakt het mogelijk om bots te verwijzen naar een versie van je website in een andere taal. Op basis van de locatie en taalinstellingen van een bezoeker kan het bot de bezoeker naar de juiste versie sturen. Dit gebeurt door middel van de hreflang-tag. Die ziet er zo uit: rel=”alternate” hreflang=”x”

Crawlfouten achterhalen

Je hebt geleerd dat crawlbaarheid te maken heeft met de mogelijkheden die Google heeft om je website te crawlen en dat deze mogelijkheden kunnen worden beperkt op verschillende manieren.

Er bestaan verschillende tools om de crawlbaarheid van je website te analyseren. Google biedt een gratis service hiervoor aan: Google Search Console. Binnen Google Search Console kun je alle crawlfouten achterhalen die Google is tegengekomen. Dit is een goede manier om pagina’s afzonderlijk te analyseren.

Er bestaan doorgaans twee soorten crawlfouten:

  • Site errors: deze fouten zijn van invloed op je hele website. Denk bijvoorbeeld aan serverproblemen en problemen bij het ophalen van je robots.txt bestand;
  • URL errors: deze fouten zijn van invloed op een specifieke pagina.

Je kent nu vier methoden om de indexering van bepaalde pagina’s te voorkomen (middels een Robots.txt bestand, HTTP header, robots metatag en canonical URL) en je weet hoe je problemen met indexering kunt achterhalen (met Google Search Console). Door deze problemen op te lossen, wordt je site makkelijker gecrawld, wat kan bijdragen aan betere rankings.

Sitemaps

Om het voor zoekmachines makkelijker te maken je website te crawlen is het aan te raden om gebruik te maken van een sitemap. Een sitemap is niets anders dan een lijst met pagina’s die zich op de website bevinden. Met behulp van de sitemap kunnen zoekmachines eenvoudiger over je website navigeren.  Je kunt een sitemap toevoegen met behulp van de Yoast SEO plugin of laten toevoegen door de websitebouwer.

Leave your thought here

Your email address will not be published. Required fields are marked *

Select the fields to be shown. Others will be hidden. Drag and drop to rearrange the order.
  • Image
  • SKU
  • Rating
  • Price
  • Stock
  • Availability
  • Add to cart
  • Description
  • Content
  • Weight
  • Dimensions
  • Additional information
Click outside to hide the comparison bar
Compare