Inhoud

Door: Nils van der Knaap

SEO & SEA-specialist met 20 jaar ervaring

Door: Nils van der Knaap

SEO & SEA-specialist met 20 jaar ervaring

In het kort

  • Crawling is het vinden van nieuwe en bijgewerkte inhoud door webcrawlers (bots)
  • Een belangrijk technisch onderdeel van SEO
  • Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen

Wat is crawling

Crawling is het proces waarbij zoekmachines zoals Google, Bing en andere webcrawlers (ook wel bots of spiders genoemd) het internet doorzoeken om nieuwe en bijgewerkte inhoud te ontdekken.

Deze bots navigeren door websites door links te volgen, pagina’s te scannen en de inhoud op te slaan in de database van de zoekmachine, ook wel de index genoemd.

Crawling is de eerste stap in het proces van zoekmachineoptimalisatie (SEO). Als een pagina niet wordt gecrawld, kan deze niet worden geïndexeerd en dus ook niet worden weergegeven in de zoekresultaten.

Wat is crawling

Waarom

Waarom is crawling belangrijk?

Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen. Daarom is het essentieel om een crawlbare website te hebben met duidelijke interne links, een goed gestructureerde sitemap en een snelle laadtijd.

Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen.

Door regelmatig je website te controleren met tools zoals Google Search Console of Ahrefs kun je eventuele crawling-problemen opsporen en oplossen, zodat je website beter zichtbaar wordt in de zoekresultaten. Deze controle wordt ook wel een Site Audit genoemd. 

Hoe

Hoe werkt crawling

Crawling werkt als volgt:

  1. Start bij bekende URL’s:
    Crawlers beginnen vaak met een lijst van URL’s die al bekend zijn bij de zoekmachine.
  2. Links volgen:
    Vanuit deze URL’s volgen ze interne en externe links om nieuwe pagina’s te ontdekken.
  3. Inhoud analyseren:
    De bot bekijkt de inhoud en metadata van de pagina om te begrijpen waar deze over gaat.
  4. Resultaten opslaan:
    De gevonden informatie wordt toegevoegd aan de zoekmachine-index. Dit wordt indexeren genoemd.

Google heeft meer dan één crawler. Er zijn verschillende crawlers voor vele doeleinden.

Googlebot doorzoekt maximaal 2MB per individuele URL. Dat betekent dat alleen de eerste 2MB van een pagina wordt bekeken. 

PDF-bestanden vallen hier niet onder. Deze kunnen maximaal 64MB groot zijn. Het limiet voor afbeeldingen en video hangt af van het doel van de crawler. De standaard is echter gezet op 15MB.

Dat is alsof er twee Harry Potter boeken op één webpagina zouden staan.

Een limiet van 2MB aan HTML klinkt weinig, maar in de praktijk komt vrijwel geen enkele pagina hieraan. Dit staat namelijk gelijk aan ongeveer 2 miljoen karakters , zoals letters, nummers en symbolen. Ter vergelijking; dat is alsof er twee Harry Potter boeken op één webpagina zouden staan.

Om die reden is het belangrijk om de HTML-code van een pagina zo klein mogelijk te houden. Externe scripts en stylesheets kunnen in aparte bestanden staan, zodat ze hun eigen limiet hebben. Belangrijke elementen, zoals de title tag en meta description tag, worden om deze reden hoger in de HTML geplaatst.

Factoren

Factoren die indexeren beïnvloeden

  • Robots.txt en meta-tags:
    Als een pagina een noindex-meta-tag bevat of wordt geblokkeerd in het robots.txt-bestand, wordt deze niet geïndexeerd. Zie ook Robots.txt.
  • Unieke en kwalitatieve inhoud:
    Zoekmachines indexeren liever pagina’s met originele en waardevolle content. Duplicate content of dunne inhoud wordt vaak genegeerd.
  • Technische fouten:
    Problemen zoals serverfouten (5xx) of gebroken links (404) kunnen voorkomen dat een pagina wordt geïndexeerd.
  • Interne en externe links:
    Een pagina die goed is gelinkt vanaf andere pagina’s heeft meer kans om geïndexeerd te worden. Dit wordt ook wel linkbuilding genoemd.

SEO problemen

Veel voorkomende problemen met crawling

  • Beperkt crawlbudget
  • Geblokkeerde pagina’s in robots.txt
  • Slechte interne linkstructuur
  • Te veel omleidingen (redirect chains)
  • Onnodig lange laadtijden
  • Dynamische URL’s, waarbij de URL uit een parameter bestaat
  • JavaScript gebaseerde content die moeilijk te doorzoeken is
Google Reviews

5/5

op Google

Ben je benieuwd hoe je meer
bezoekers, klanten en geld krijgt