Hoe een site te blokkeren voor indexering in robots.txt: instructies en aanbevelingen

Inhoudsopgave:

Hoe een site te blokkeren voor indexering in robots.txt: instructies en aanbevelingen
Hoe een site te blokkeren voor indexering in robots.txt: instructies en aanbevelingen
Anonim

Het werk van een SEO-optimizer is erg grootschalig. Beginners wordt geadviseerd om het optimalisatie-algoritme op te schrijven om geen stappen te missen. Anders zal de promotie nauwelijks succesvol worden genoemd, omdat de site constant fouten en fouten zal ervaren die voor een lange tijd moeten worden gecorrigeerd.

Een van de optimalisatiestappen is werken met het robots.txt-bestand. Elke bron zou dit document moeten hebben, want zonder dit zal het moeilijker zijn om met optimalisatie om te gaan. Het vervult veel functies die u moet begrijpen.

Robotassistent

Het robots.txt-bestand is een document met platte tekst dat kan worden bekeken in het standaard Kladblok van het systeem. Wanneer u het maakt, moet u de codering instellen op UTF-8 zodat het correct kan worden gelezen. Het bestand werkt met http-, https- en FTP-protocollen.

Dit document is een hulpmiddel bij het zoeken naar robots. Voor het geval je het niet weet, elk systeem gebruikt "spinnen" die snel het World Wide Web doorzoeken om relevante sites terug te sturen voor vragen.gebruikers. Deze robots moeten toegang hebben tot de brongegevens, hiervoor werkt robots.txt.

Om de spiders hun weg te laten vinden, moet je het robots.txt-document naar de hoofdmap sturen. Om te controleren of de site dit bestand heeft, voert u "https://site.com.ua/robots.txt" in de adresbalk van de browser in. In plaats van "site.com.ua" moet je de bron invoeren die je nodig hebt.

Werken met robots.txt
Werken met robots.txt

Documentfuncties

Het robots.txt-bestand biedt crawlers verschillende soorten informatie. Het kan gedeeltelijke toegang geven, zodat de "spin" specifieke elementen van de bron scant. Met volledige toegang kunt u alle beschikbare pagina's controleren. Een volledig verbod voorkomt dat robots zelfs maar beginnen met controleren en de site verlaten.

Na het bezoeken van de bron, ontvangen "spinnen" een passend antwoord op het verzoek. Er kunnen er meerdere zijn, het hangt allemaal af van de informatie in robots.txt. Als de scan bijvoorbeeld is gelukt, ontvangt de robot de code 2xx.

Misschien is de site omgeleid van de ene pagina naar de andere. In dit geval ontvangt de robot de code 3xx. Als deze code meerdere keren voorkomt, zal de spider deze volgen totdat hij een ander antwoord ontvangt. Hoewel hij in de regel slechts 5 pogingen gebruikt. Anders verschijnt de populaire 404-fout.

Als het antwoord 4xx is, mag de robot de volledige inhoud van de site crawlen. Maar in het geval van de 5xx-code kan de controle volledig stoppen, omdat dit vaak duidt op tijdelijke serverfouten.

Zoekrobots
Zoekrobots

Waarvoor?heb je robots.txt nodig?

Zoals je misschien al geraden hebt, is dit bestand de gids voor robots naar de hoofdmap van de site. Nu wordt het gebruikt om de toegang tot ongepaste inhoud gedeeltelijk te beperken:

  • pagina's met persoonlijke informatie van gebruikers;
  • spiegelsites;
  • zoekresultaten;
  • formulieren voor het indienen van gegevens, enz.

Als er geen robots.txt-bestand in de hoofdmap van de site staat, zal de robot absoluut alle inhoud crawlen. Dienovereenkomstig kunnen ongewenste gegevens in de zoekresultaten verschijnen, wat betekent dat zowel u als de site eronder zullen lijden. Als er speciale instructies in het robots.txt-document staan, zal de "spin" deze volgen en de door de eigenaar van de bron gewenste informatie geven.

Werken met een bestand

Om robots.txt te gebruiken om te voorkomen dat de site wordt geïndexeerd, moet je uitzoeken hoe je dit bestand kunt maken. Volg hiervoor de instructies:

  1. Maak een document in Kladblok of Kladblok++.
  2. Stel de bestandsextensie ".txt" in.
  3. Voer de vereiste gegevens en opdrachten in.
  4. Sla het document op en upload het naar de hoofdmap van de site.

Zoals je kunt zien, is het in een van de fasen noodzakelijk om opdrachten voor robots in te stellen. Er zijn twee soorten: toestaan (Toestaan) en verbieden (Disallow). Sommige optimalisatieprogramma's kunnen ook de crawlsnelheid, host en link naar de paginamap van de bron specificeren.

Een site sluiten voor indexering
Een site sluiten voor indexering

Om met robots.txt te gaan werken en de site volledig te blokkeren voor indexering, moet u ook de gebruikte symbolen begrijpen. Bijvoorbeeld in een documentgebruik "/", wat aangeeft dat de hele site is geselecteerd. Als "" wordt gebruikt, is een reeks tekens vereist. Op deze manier is het mogelijk om een specifieke map te specificeren die al dan niet kan worden gescand.

Functie van bots

"Spiders" voor zoekmachines zijn anders, dus als je voor meerdere zoekmachines tegelijk werkt, dan zul je met dit moment rekening moeten houden. Hun namen zijn verschillend, wat betekent dat als u contact wilt opnemen met een specifieke robot, u de naam ervan moet specificeren: "User Agent: Yandex" (zonder aanhalingstekens).

Als je richtlijnen voor alle zoekmachines wilt instellen, moet je het commando gebruiken: "User Agent: " (zonder aanhalingstekens). Om te voorkomen dat de site wordt geïndexeerd met behulp van robots.txt, moet u de bijzonderheden van populaire zoekmachines kennen.

Feit is dat de populairste zoekmachines Yandex en Google verschillende bots hebben. Elk van hen heeft zijn eigen taken. Yandex Bot en Googlebot zijn bijvoorbeeld de belangrijkste 'spinnen' die de site crawlen. Als u alle bots kent, is het gemakkelijker om de indexering van uw bron te verfijnen.

Hoe het robots.txt-bestand werkt
Hoe het robots.txt-bestand werkt

Voorbeelden

Dus, met behulp van robots.txt, kun je de site sluiten van indexering met eenvoudige commando's, het belangrijkste is om te begrijpen wat je specifiek nodig hebt. Als u bijvoorbeeld wilt dat Googlebot uw bron niet benadert, moet u deze de juiste opdracht geven. Het ziet er als volgt uit: "User-agent: Googlebot Disallow: /" (zonder aanhalingstekens).

Nu moeten we begrijpen wat er in dit commando staat en hoe het werkt. Dus "User-agent"wordt gebruikt om een directe oproep naar een van de bots te gebruiken. Vervolgens geven we aan naar welke, in ons geval Google. De opdracht "Niet toestaan" moet op een nieuwe regel beginnen en de robot verbieden de site te betreden. Het schuine streep-symbool geeft in dit geval aan dat alle pagina's van de bron zijn geselecteerd voor de uitvoering van de opdracht.

Waar is robots.txt voor?
Waar is robots.txt voor?

In robots.txt kunt u indexering voor alle zoekmachines uitschakelen met een eenvoudig commando: "User-agent:Disallow: /" (zonder aanhalingstekens). Het asterisk-teken geeft in dit geval alle zoekrobots aan. Gewoonlijk is zo'n commando nodig om het indexeren van de site te pauzeren en kardinaal werk eraan te beginnen, wat anders de optimalisatie zou kunnen beïnvloeden.

Als de bron groot is en veel pagina's heeft, bevat deze vaak bedrijfseigen informatie die niet openbaar mag worden gemaakt, of die de promotie negatief kan beïnvloeden. In dit geval moet u weten hoe u de pagina kunt sluiten voor indexering in robots.txt.

Je kunt een map of een bestand verbergen. In het eerste geval moet u opnieuw beginnen door contact op te nemen met een specifieke bot of met iedereen, dus gebruiken we de opdracht "User-agent" en hieronder specificeren we de opdracht "Disallow" voor een specifieke map. Het ziet er als volgt uit: "Disallow: / folder /" (zonder aanhalingstekens). Zo verberg je de hele map. Als het een belangrijk bestand bevat dat u wilt laten zien, moet u het onderstaande commando schrijven: "Allow: /folder/file.php" (zonder aanhalingstekens).

Bestand controleren

Als je robots.txt gebruikt om de site te sluiten vanU bent erin geslaagd om te indexeren, maar u weet niet of al uw richtlijnen correct hebben gewerkt, u kunt de juistheid van het werk controleren.

Eerst moet u de plaatsing van het document opnieuw controleren. Onthoud dat het uitsluitend in de hoofdmap moet staan. Als het zich in de hoofdmap bevindt, werkt het niet. Open vervolgens de browser en voer daar het volgende adres in: “https://uwsite. com/robots.txt (zonder aanhalingstekens). Als je een foutmelding krijgt in je webbrowser, dan is het bestand niet waar het zou moeten zijn.

Een map sluiten van indexeren
Een map sluiten van indexeren

Directives kunnen worden gecontroleerd in speciale tools die door bijna alle webmasters worden gebruikt. We hebben het over Google- en Yandex-producten. In Google Search Console is er bijvoorbeeld een werkbalk waar u "Crawl" moet openen en vervolgens de "Robots.txt File Inspection Tool" moet uitvoeren. U moet alle gegevens van het document naar het venster kopiëren en beginnen met scannen. Precies dezelfde controle kan worden gedaan in Yandex. Webmaster.

Aanbevolen: