Crawlen betekent het doorzoeken van een pagina door middel van zoekmachinesoftware. Zoekmachines maken gebruik van crawlen om jouw website/webshop te kunnen indexeren. Door op de juiste manier te helpen met het crawlen zorg jij ervoor dat jouw website of webshop beter begrepen kan worden door zoekmachines. Dit is belangrijk omdat je dan beter gevonden kan worden binnen zoekmachines.
Dus een goede ranking krijg je pas als jij Google op de juiste manier helpt jouw website/webshop te begrijpen. Zorg er daarom voor dat jouw website of webshop goed te crawlen is, omdat het namelijk belangrijk is om goed vindbaar te zijn binnen zoekmachines.
Hoe werkt het crawlen?
Bots en/of spiders voeren het crawlproces uit. Een voorbeeld van zo’n bot is die van Google. Hij heet de Google-bot en is in staat om alle websites die er bestaan te lezen. Dit doet hij door elke website van link naar link door te lopen en te indexeren. Daarom wordt er bij SEO ook altijd gepraat over een logische linkstructuur. Dat komt hier dus vandaan. Op deze manier van doorlopen komt hij steeds achter nieuwe sites. Van elke website die de Google-bot crawlt, maakt hij een kopie. Deze slaat hij op binnen zijn eigen database; de Google index. 1 keer raden waar de informatie van jouw zoekopdracht vandaan komt? Juist, uit de Google Index!
Kun je het crawlen beïnvloeden?
Ja zeker. Met een robots.txt bestand kun je de toegang tot het crawlen van je website beïnvloeden. Je moet dit bestand als een soort handleiding zien, want het bepaalt namelijk wat een bot wel en niet mag crawlen. Maar wat zou je bijvoorbeeld niet willen crawlen? Hiervoor kan ik een aantal voorbeelden bedenken:
- Website welke nog niet af is
- Bedank pagina’s
- Download pagina na een opt-in page
- E-book waarvoor betaald moet worden
- Winkelmandje
- Klantportaal
Hoe maak je dan zo een robots.txt bestand?
De makkelijkste weg, welke plugin je waarschijnlijk reeds bezit, is met Yoast SEO. Hiermee kun je bij de instellingen de desbetreffende pagina uitschakelen voor het volgen van interne links door zoekmachines. Zodra je dit aanpast en opslaat, wordt dit ook in het robots.txt bestand geüpdatet.
Absolute no-go: crawlfouten
Iets wat je zeker niet moet hebben zijn crawlfouten. Zo’n fout ontstaat zodra Google het niet is gelukt om een pagina te crawlen. Als gebruiker lopen wij af en toe ook tegen crawlfouten aan: oftewel een gebroken link dat nergens naartoe leidt. Zodra jij hierop komt krijg je als bezoeker vaak een 404-melding; page not found.
Als jij te veel crawlfouten op je website hebt, dan kan Google dit zien als dat jij jouw site niet goed onderhoudt. Dit kan leiden tot dat je belangrijke linkwaarde verliest en/of het crawlbudget aan de verkeerde pagina’s wordt uitgegeven, omdat Google’s crawlprocedure uitgevoerd wordt middels een algoritme. Deze bepaald welke sites, hoe vaak en hoeveel pagina’s van een site wordt gecrawld. Daardoor kan het zijn dat Google beperkt de tijd neemt op jouw site te crawlen en je absoluut niet wil dat Google tijd verspilt aan foute pagina’s.
Hoe los je deze fouten op?
Via Google Search Console, welke gekoppeld is aan jou site kun je o.a zoekopmaak, zoekverkeer, Google-index, crawlen en beveiligingsproblemen bekijken. Bij de sectie Index onder het kopje dekking, worden de crawlfouten weergegeven.
Zodra je een fout gevonden hebt, kun je dit eenvoudig oplossen via een 301-redirect. Daarmee stuur je als het ware de pagina door naar een andere pagina. Via WordPress zijn er verschillende plugins, zoals Redirection waarmee je dit eenvoudig kan oplossen. Ook de paginawaarde (PA) van de oude pagina wordt door de verwijzing naar een nieuwe URL behouden.
Crawlen dus een belangrijk aspect binnen SEO
Je ziet nu waarschijnlijk in hoe belangrijk crawlen en het voorkomen van deze fouten voor je site zijn. Ga er dan ook meteen mee aan de slag. Via Search Console krijg je belangrijke input die je kunt gebruiken om zulk voorkomende problemen op te lossen. Zodra dit opgelost is, houdt het dan regelmatig in de gaten want een fout zit in een klein hoekje.