Wat is crawling? Heldere uitleg

Inhoud

Wat is crawling
Waarom
Hoe
Factoren
SEO problemen

Wat is crawling
Waarom
Hoe
Factoren
SEO problemen

Door: Nils van der Knaap

SEO & SEA-specialist met 20 jaar ervaring

Door: Nils van der Knaap

SEO & SEA-specialist met 20 jaar ervaring

In het kort

Crawling is het vinden van nieuwe en bijgewerkte inhoud door webcrawlers (bots)
Een belangrijk technisch onderdeel van SEO
Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen

Wat is crawling

Crawling is het proces waarbij zoekmachines zoals Google, Bing en andere webcrawlers (ook wel bots of spiders genoemd) het internet doorzoeken om nieuwe en bijgewerkte inhoud te ontdekken.

Deze bots navigeren door websites door links te volgen, pagina’s te scannen en de inhoud op te slaan in de database van de zoekmachine, ook wel de index genoemd.

Crawling is de eerste stap in het proces van zoekmachineoptimalisatie (SEO). Als een pagina niet wordt gecrawld, kan deze niet worden geïndexeerd en dus ook niet worden weergegeven in de zoekresultaten.

Waarom

Waarom is crawling belangrijk?

Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen. Daarom is het essentieel om een crawlbare website te hebben met duidelijke interne links, een goed gestructureerde sitemap en een snelle laadtijd.

Als een pagina niet wordt gecrawld, wordt deze niet geïndexeerd en kan deze niet in de zoekresultaten verschijnen.

Door regelmatig je website te controleren met tools zoals Google Search Console of Ahrefs kun je eventuele crawling-problemen opsporen en oplossen, zodat je website beter zichtbaar wordt in de zoekresultaten. Deze controle wordt ook wel een Site Audit genoemd.

Hoe

Hoe werkt crawling

Crawling werkt als volgt:

Start bij bekende URL’s:
Crawlers beginnen vaak met een lijst van URL’s die al bekend zijn bij de zoekmachine.
Links volgen:
Vanuit deze URL’s volgen ze interne en externe links om nieuwe pagina’s te ontdekken.
Inhoud analyseren:
De bot bekijkt de inhoud en metadata van de pagina om te begrijpen waar deze over gaat.
Resultaten opslaan:
De gevonden informatie wordt toegevoegd aan de zoekmachine-index. Dit wordt indexeren genoemd.

Google heeft meer dan één crawler. Er zijn verschillende crawlers voor vele doeleinden.

Googlebot doorzoekt maximaal 2MB per individuele URL. Dat betekent dat alleen de eerste 2MB van een pagina wordt bekeken.

PDF-bestanden vallen hier niet onder. Deze kunnen maximaal 64MB groot zijn. Het limiet voor afbeeldingen en video hangt af van het doel van de crawler. De standaard is echter gezet op 15MB.

Dat is alsof er twee Harry Potter boeken op één webpagina zouden staan.

Een limiet van 2MB aan HTML klinkt weinig, maar in de praktijk komt vrijwel geen enkele pagina hieraan. Dit staat namelijk gelijk aan ongeveer 2 miljoen karakters , zoals letters, nummers en symbolen. Ter vergelijking; dat is alsof er twee Harry Potter boeken op één webpagina zouden staan.

Om die reden is het belangrijk om de HTML-code van een pagina zo klein mogelijk te houden. Externe scripts en stylesheets kunnen in aparte bestanden staan, zodat ze hun eigen limiet hebben. Belangrijke elementen, zoals de title tag en meta description tag, worden om deze reden hoger in de HTML geplaatst.

Factoren

Factoren die indexeren beïnvloeden

Robots.txt en meta-tags:
Als een pagina een noindex-meta-tag bevat of wordt geblokkeerd in het robots.txt-bestand, wordt deze niet geïndexeerd. Zie ook Robots.txt.
Unieke en kwalitatieve inhoud:
Zoekmachines indexeren liever pagina’s met originele en waardevolle content. Duplicate content of dunne inhoud wordt vaak genegeerd.

Technische fouten:
Problemen zoals serverfouten (5xx) of gebroken links (404) kunnen voorkomen dat een pagina wordt geïndexeerd.

Interne en externe links:
Een pagina die goed is gelinkt vanaf andere pagina’s heeft meer kans om geïndexeerd te worden. Dit wordt ook wel linkbuilding genoemd.

SEO problemen

Veel voorkomende problemen met crawling

Beperkt crawlbudget
Geblokkeerde pagina’s in robots.txt
Slechte interne linkstructuur
Te veel omleidingen (redirect chains)
Onnodig lange laadtijden
Dynamische URL’s, waarbij de URL uit een parameter bestaat
JavaScript gebaseerde content die moeilijk te doorzoeken is

5/5

op Google

Ben je benieuwd hoe je meer
bezoekers, klanten en geld krijgt

Acties voor jou

SEO Pakketten

Site Audit

Zoekwoorden Onderzoek

SEA Pakketten

Marketing website

Website beheer

Strippenkaart

Crawling

Het vinden en bezoeken van webpagina’s

In het kort

Wat is crawling

Waarom

Waarom is crawling belangrijk?

Hoe

Hoe werkt crawling

Factoren

Factoren die indexeren beïnvloeden

SEO problemen

Veel voorkomende problemen met crawling

Ben je benieuwd hoe je meer
bezoekers, klanten en geld krijgt

SEO Pakketten

Site Audit

Zoekwoorden Onderzoek

SEA Pakketten

Marketing website

Website beheer

Strippenkaart

SEO Pakketten

Site Audit

Zoekwoorden Onderzoek

SEA Pakketten

Marketing website

Website beheer

Strippenkaart

Crawling

Het vinden en bezoeken van webpagina’s

In het kort

Wat is crawling

Waarom

Waarom is crawling belangrijk?

Hoe

Hoe werkt crawling

Factoren

Factoren die indexeren beïnvloeden

SEO problemen

Veel voorkomende problemen met crawling

Ben je benieuwd hoe je meer bezoekers, klanten en geld krijgt

SEO Pakketten

Site Audit

Zoekwoorden Onderzoek

SEA Pakketten

Marketing website

Website beheer

Strippenkaart

Ben je benieuwd hoe je meer
bezoekers, klanten en geld krijgt