Hoe stel je Robots.txt correct in?

Inhoudsopgave:

Hoe stel je Robots.txt correct in?
Hoe stel je Robots.txt correct in?
Anonim

De juiste Robots-txt voor de html-site maakt actiemodellen voor bots van zoekmachines en vertelt hen wat ze kunnen controleren. Dit bestand wordt vaak het Robot Exclusion Protocol genoemd. Het eerste waar bots naar zoeken voordat ze een website crawlen, is robots.txt. Het kan verwijzen naar of de sitemap vertellen om bepaalde subdomeinen niet te controleren. Als je wilt dat zoekmachines zoeken naar wat het vaakst wordt gevonden, dan is robots.txt niet vereist. Het is erg belangrijk in dit proces dat het bestand correct is geformatteerd en de gebruikerspagina niet indexeert met de persoonlijke gegevens van de gebruiker.

Robotscanprincipe

Het principe van robotscannen
Het principe van robotscannen

Als een zoekmachine een bestand tegenkomt en een verboden URL ziet, wordt het niet gecrawld, maar kan het het wel indexeren. Dit komt omdat zelfs als de robots de inhoud niet mogen bekijken, ze backlinks kunnen onthouden die naar de verboden URL verwijzen. Door geblokkeerde toegang tot de link verschijnt de URL in zoekmachines, maar zonder fragmenten. Als eenvoor de inkomende marketingstrategie is de juiste Robots txt voor bitrix (Bitrix) vereist, ze bieden siteverificatie op verzoek van de gebruiker door scanners.

Aan de andere kant, als het bestand niet correct is geformatteerd, kan dit ertoe leiden dat de site niet wordt weergegeven in de zoekresultaten en niet wordt gevonden. Zoekmachines kunnen dit bestand niet omzeilen. Een programmeur kan de robots.txt van elke site bekijken door naar het domein te gaan en het te volgen met robots.txt, bijvoorbeeld www.domain.com/robots.txt. Met behulp van een tool zoals Unamo's sectie voor SEO-optimalisatie, waar u elk domein kunt invoeren, en de service zal informatie tonen over het bestaan van het bestand.

Restricties voor scannen:

  1. Gebruiker heeft verouderde of gevoelige inhoud.
  2. Afbeeldingen op de site worden niet opgenomen in de zoekresultaten voor afbeeldingen.
  3. De site is nog niet klaar om door de robot te worden geïndexeerd als demo.

Houd er rekening mee dat de informatie die een gebruiker van een zoekmachine wil ontvangen, beschikbaar is voor iedereen die de URL invoert. Gebruik dit tekstbestand niet om gevoelige gegevens te verbergen. Als het domein een 404 (niet gevonden) of 410 (geslaagd) fout heeft, controleert de zoekmachine de site ondanks de aanwezigheid van robots.txt, in welk geval hij van mening is dat het bestand ontbreekt. Andere fouten zoals 500 (interne serverfout), 403 (verboden), time-out of "niet beschikbaar" respecteren robots.txt-instructies, maar het omzeilen kan worden uitgesteld totdat het bestand beschikbaar is.

Een zoekbestand maken

Een zoekbestand maken
Een zoekbestand maken

VeelCMS-programma's zoals WordPress hebben al een robots.txt-bestand. Voordat de gebruiker Robots txt WordPress correct kan configureren, moet hij zich vertrouwd maken met de mogelijkheden ervan om erachter te komen hoe hij toegang kan krijgen. Als de programmeur het bestand zelf aanmaakt, moet het aan de volgende voorwaarden voldoen:

  1. Moet in kleine letters zijn.
  2. Gebruik UTF-8-codering.
  3. Opslaan in een teksteditor als bestand (.txt).

Als een gebruiker niet weet waar hij het moet plaatsen, neemt hij contact op met de leverancier van de webserversoftware om erachter te komen hoe hij toegang kan krijgen tot de root van een domein of gaat hij naar de Google-console en downloadt hij het. Met deze functie kan Google ook controleren of de bot correct werkt en de lijst met sites die zijn geblokkeerd met behulp van het bestand.

Het hoofdformaat van de juiste Robots txt voor bitrix (Bitrix):

  1. Legend robots.txt.
  2. , voegt opmerkingen toe die alleen als notities worden gebruikt.
  3. Deze opmerkingen worden door scanners genegeerd, samen met eventuele typefouten van de gebruiker.
  4. User-agent - geeft aan op welke zoekmachine de instructies voor het bestand staan.
  5. Het toevoegen van een asterisk () vertelt scanners dat de instructies voor iedereen zijn.

Een specifieke bot aangeven, bijvoorbeeld Googlebot, Baiduspider, Applebot. Disallow vertelt crawlers welke delen van de website niet moeten worden gecrawld. Het ziet er als volgt uit: User-agent:. De asterisk betekent "alle bots". U kunt echter pagina's specificeren voor specifiekebots. Om dit te doen, moet u de naam weten van de bot waarvoor aanbevelingen zijn ingesteld.

De juiste robots-txt voor Yandex kan er als volgt uitzien:

Correcte robots txt voor Yandex
Correcte robots txt voor Yandex

Als de bot de site niet moet crawlen, kunt u deze specificeren, en om de namen van user agents te vinden, is het raadzaam om vertrouwd te raken met de online mogelijkheden van useragentstring.com.

Pagina-optimalisatie

Pagina optimalisatie
Pagina optimalisatie

De volgende twee regels worden beschouwd als een compleet robots.txt-bestand, en een enkel robots-bestand kan meerdere regels user agents en instructies bevatten die crawlen in- of uitschakelen. Het hoofdformaat van de juiste Robots txt:

  1. Gebruikersagent: [gebruikersnaam agent].
  2. Disallow: .

In het bestand wordt elk blok met richtlijnen weergegeven als afzonderlijk, gescheiden door een regel. In het bestand naast de gebruikersdirectory van de agent wordt elke regel toegepast op een specifieke set door secties gescheiden regels. Als een bestand een regel voor meerdere agenten heeft, zal de robot alleen de meest specifieke groep instructies in overweging nemen.

Technische syntaxis

Technische syntaxis
Technische syntaxis

Het kan worden gezien als de "taal" van robots.txt-bestanden. Er zijn vijf termen die in dit formaat kunnen voorkomen, de belangrijkste zijn:

  1. User-agent - Webcrawler met crawl-instructies, meestal een zoekmachine.
  2. Disallow is een commando dat wordt gebruikt om de user-agent te vertellen om te omzeilen(weglating) van een specifieke URL. Er is slechts één verboden voorwaarde voor elk.
  3. Toestaan. Voor de Googlebot die toegang krijgt, wordt zelfs de gebruikerspagina geweigerd.
  4. Crawl-vertraging - specificeert hoeveel seconden de crawler nodig heeft om te crawlen. Als de bot dit niet bevestigt, wordt de snelheid ingesteld in de Google-console.
  5. Sitemap - Wordt gebruikt om XML-kaarten te vinden die aan een URL zijn gekoppeld.

Patroonovereenkomsten

Als het gaat om het daadwerkelijk blokkeren van URL's of het toestaan van geldige Robots txt, kunnen de bewerkingen behoorlijk lastig zijn omdat ze je in staat stellen om patroonherkenning te gebruiken om een aantal mogelijke URL-parameters te dekken. Google en Bing gebruiken beide twee karakters die pagina's of submappen identificeren die de SEO wil uitsluiten. De twee tekens zijn het sterretje () en het dollarteken ($), waarbij:een jokerteken is dat een willekeurige reeks tekens vertegenwoordigt. $ - komt overeen met het einde van de URL.

Google biedt een grote lijst met mogelijke sjabloonsyntaxis die de gebruiker uitleggen hoe een Robots txt-bestand correct kan worden ingesteld. Enkele veelvoorkomende gebruiksscenario's zijn:

  1. Voorkom dat dubbele inhoud in zoekresultaten verschijnt.
  2. Houd alle delen van de website privé.
  3. Sla interne pagina's met zoekresultaten op op basis van open statement.
  4. Geef locatie aan.
  5. Voorkom dat zoekmachines bepaalde indexerenbestanden.
  6. Een crawlvertraging specificeren om te stoppen met herladen wanneer meerdere inhoudsgebieden tegelijkertijd worden gescand.

Controleren op de aanwezigheid van een robotbestand

Als er geen gebieden op de site zijn die moeten worden gecrawld, dan is robots.txt helemaal niet nodig. Als de gebruiker niet zeker weet of dit bestand bestaat, moet hij het hoofddomein invoeren en het aan het einde van de URL typen, ongeveer als volgt: moz.com/robots.txt. Een aantal zoekbots negeert deze bestanden. In de regel behoren deze crawlers echter niet tot gerenommeerde zoekmachines. Dit zijn het soort spammers, e-mailaggregators en andere soorten geautomatiseerde bots die in overvloed op internet te vinden zijn.

Het is erg belangrijk om te onthouden dat het gebruik van de robotuitsluitingsstandaard geen effectieve beveiligingsmaatregel is. Sommige bots kunnen zelfs beginnen met pagina's waar de gebruiker ze in de scanmodus zet. Er zijn verschillende delen die in het standaard uitzonderingsbestand worden opgenomen. Voordat je de robot vertelt op welke pagina's hij niet mag werken, moet je specificeren met welke robot hij moet praten. In de meeste gevallen zal de gebruiker een eenvoudige verklaring gebruiken die "alle bots" betekent.

SEO-optimalisatie

SEO optimalisatie
SEO optimalisatie

Alvorens te optimaliseren, moet de gebruiker ervoor zorgen dat hij geen inhoud of delen van de site blokkeert die moeten worden omzeild. Links naar pagina's die zijn geblokkeerd door de juiste Robots txt worden niet gerespecteerd. Dit betekent:

  1. Als ze niet zijn gekoppeld aan andere pagina's die beschikbaar zijn voor zoekmachines, bijv. Pagina's,niet geblokkeerd door robots.txt of een meta-robot, en gerelateerde bronnen worden niet gecrawld en kunnen daarom niet worden geïndexeerd.
  2. Er kan geen link worden doorgegeven van een geblokkeerde pagina naar de bestemming van de link. Als er zo'n pagina is, is het beter om een ander blokkeermechanisme te gebruiken dan robots.txt.

Omdat andere pagina's rechtstreeks kunnen linken naar een pagina met persoonlijke informatie en u deze pagina wilt blokkeren voor zoekresultaten, moet u een andere methode gebruiken, zoals wachtwoordbeveiliging of noindex-metagegevens. Sommige zoekmachines hebben meerdere user agents. Google gebruikt bijvoorbeeld Googlebot voor organische zoekopdrachten en Googlebot-Image voor zoekopdrachten naar afbeeldingen.

De meeste user-agents van dezelfde zoekmachine volgen dezelfde regels, dus het is niet nodig om richtlijnen op te geven voor elk van de verschillende crawlers, maar als u dit kunt doen, kunt u het crawlen van site-inhoud verfijnen. De zoekmachine slaat de inhoud van het bestand op in de cache en werkt de inhoud in de cache doorgaans minstens één keer per dag bij. Als de gebruiker het bestand wijzigt en het sneller dan normaal wil bijwerken, kan hij de robots.txt-URL indienen bij Google.

Zoekmachines

Controleren op het bestaan van een robotbestand
Controleren op het bestaan van een robotbestand

Om te begrijpen hoe Robots txt correct werkt, moet u de mogelijkheden van zoekmachines kennen. Kortom, hun vermogen ligt in het feit dat ze "scanners" sturen, dat zijn programma's dieinternetten voor informatie. Vervolgens slaan ze een deel van deze informatie op om deze later door te geven aan de gebruiker.

Voor veel mensen is Google al het internet. Sterker nog, ze hebben gelijk, want dit is misschien wel zijn belangrijkste uitvinding. En hoewel zoekmachines sinds hun oprichting veel veranderd zijn, zijn de onderliggende principes nog steeds hetzelfde. Crawlers, ook wel "bots" of "spiders" genoemd, vinden pagina's van miljarden websites. Zoekmachines geven ze aanwijzingen over waar ze heen moeten, terwijl individuele sites ook kunnen communiceren met bots en hen kunnen vertellen naar welke specifieke pagina's ze moeten kijken.

Over het algemeen willen site-eigenaren niet worden weergegeven in zoekmachines: beheerderspagina's, backendportals, categorieën en tags en andere informatiepagina's. Het robots.txt-bestand kan ook worden gebruikt om te voorkomen dat zoekmachines pagina's controleren. Kortom, robots.txt vertelt webcrawlers wat ze moeten doen.

Pagina's verbieden

Dit is het hoofdgedeelte van het robotuitsluitingsbestand. Met een eenvoudige declaratie vertelt de gebruiker een bot of groep bots bepaalde pagina's niet te crawlen. De syntaxis is eenvoudig, bijvoorbeeld om de toegang tot alles in de map "admin" van de site te weigeren, schrijf: Disallow: /admin. Deze regel voorkomt dat bots uwsite.com/admin, uwsite.com/admin/login, uwsite.com/admin/files/secret.html en al het andere onder de beheerdersdirectory crawlen.

Om een pagina niet toe te staan, specificeert u deze eenvoudig in de regel voor niet toestaan: Disallow: /public/exception.html. Nu de "uitzondering" paginazal niet migreren, maar al het andere in de "public" map wel.

Om meerdere pagina's op te nemen, vermeld ze gewoon:

Directory's en pagina's
Directory's en pagina's

Deze vier regels van de juiste Robots-tekst voor symfonie zijn van toepassing op elke user-agent die bovenaan derobots.txt-sectie staat voor

Pagina's verbieden
Pagina's verbieden

Sitemap:

Andere commando's:live - laat webcrawlers niet toe om cpresources/ of provider/ te indexeren.

Gebruikersagent:Niet toestaan: /cpresources/.

Weigeren: / leverancier / Niet toestaan: /.env.

Standaarden stellen

Gebruiker kan specifieke pagina's voor verschillende bots specificeren door de vorige twee elementen te combineren, zo ziet het eruit. Hieronder vindt u een voorbeeld van de juiste Robots-tekst voor alle zoekmachines.

Normen instellen
Normen instellen

De "admin" en "private" secties zullen onzichtbaar zijn voor Google en Bing, maar Google zal nog steeds de "geheime" directory zien, terwijl Bing dat niet zal doen. U kunt algemene regels voor alle bots specificeren met behulp van de asterisk user agent, en vervolgens specifieke instructies geven aan de bots in de volgende secties. Met bovenstaande kennis kan de gebruiker een voorbeeld schrijven van de juiste Robots txt voor alle zoekmachines. Start gewoon je favoriete teksteditor en vertel de bots dat ze niet welkom zijn in bepaalde delen van de site.

Tips voor het verbeteren van de serverprestaties

SublimeText iseen veelzijdige teksteditor en de gouden standaard voor veel programmeurs. Zijn programmeertips zijn bovendien gebaseerd op efficiënt coderen. gebruikers waarderen de aanwezigheid van snelkoppelingen in het programma. Als de gebruiker een voorbeeld van een robots.txt-bestand wil zien, moet hij naar een willekeurige site gaan en "/robots.txt" aan het einde toevoegen. Hier is een deel van het robots.txt-bestand GiantBicycles.

Het programma zorgt voor het maken van pagina's die gebruikers niet willen weergeven in zoekmachines. En heeft ook een paar exclusieve dingen waar maar weinig mensen van af weten. Terwijl het robots.txt-bestand bots bijvoorbeeld vertelt waar ze niet heen moeten gaan, doet het sitemapbestand het tegenovergestelde en helpt het hen te vinden wat ze zoeken, en hoewel zoekmachines waarschijnlijk al weten waar de sitemap zich bevindt, wordt het niet in de weg.

Er zijn twee soorten bestanden: HTML-pagina of XML-bestand. Een HTML-pagina is er een die bezoekers alle beschikbare pagina's op een website laat zien. In zijn eigen robots.txt ziet het er als volgt uit: Sitemap://www.makeuseof.com/sitemap_index.xml. Als de site niet wordt geïndexeerd door zoekmachines, hoewel deze meerdere keren door webrobots is gecrawld, moet u ervoor zorgen dat het bestand aanwezig is en dat de machtigingen correct zijn ingesteld.

Standaard gebeurt dit met alle SeoToaster-installaties, maar indien nodig kunt u het als volgt resetten: Bestand robots.txt - 644. Afhankelijk van de PHP-server, als dit niet werkt voor de gebruiker, wordt aanbevolen om het volgende te proberen: Bestand robots.txt - 666.

De scanvertraging instellen

De bypass-vertragingsrichtlijn informeert bepaaldezoekmachines hoe vaak ze een pagina op de site kunnen indexeren. Het wordt gemeten in seconden, hoewel sommige zoekmachines het iets anders interpreteren. Sommige mensen zien crawlvertraging 5 wanneer ze na elke scan vijf seconden moeten wachten om de volgende te starten.

Anderen interpreteren dit als een instructie om slechts één pagina om de vijf seconden te scannen. De robot kan niet sneller scannen om serverbandbreedte te besparen. Als de server het verkeer moet matchen, kan deze een bypass-vertraging instellen. Over het algemeen hoeven gebruikers zich hier in de meeste gevallen geen zorgen over te maken. Zo wordt de crawlvertraging van acht seconden ingesteld - Crawlvertraging: 8.

Maar niet alle zoekmachines zullen deze richtlijn gehoorzamen, dus als u pagina's niet toestaat, kunt u verschillende crawlvertragingen instellen voor bepaalde zoekmachines. Nadat alle instructies in het bestand zijn ingesteld, kunt u het uploaden naar de site, zorg er eerst voor dat het een eenvoudig tekstbestand is en de naam robots.txt heeft en te vinden is op uwsite.com/robots.txt.

Beste WordPress-bot

Beste WordPress-bot
Beste WordPress-bot

Er zijn enkele bestanden en mappen op een WordPress-site die elke keer moeten worden vergrendeld. De directory's die gebruikers moeten weigeren zijn de cgi-bin-directory en de standaard WP-directory's. Sommige servers staan geen toegang toe tot de cgi-bin-directory, maar gebruikers moeten deze wel opnemen in de disallow-richtlijn voordat ze Robots txt goed kunnen configureren WordPress

Standaard WordPress-mappen,die moeten blokkeren zijn wp-admin, wp-content, wp-includes. Deze mappen bevatten geen gegevens die in eerste instantie nuttig zijn voor zoekmachines, maar er is een uitzondering, d.w.z. er is een submap met de naam uploads in de wp-content map. Deze submap moet worden toegestaan in het robot.txt-bestand, omdat het alles bevat dat is geladen met de WP-media-uploadfunctie. WordPress gebruikt tags of categorieën om inhoud te structureren.

Als categorieën worden gebruikt, is het, om de juiste Robots-txt voor Wordpress te maken, zoals gespecificeerd door de programmafabrikant, nodig om de tag-archieven te blokkeren voor de zoekopdracht. Eerst controleren ze de database door naar het "Beheer"-paneel te gaan> "Instellingen"> "Permalink".

Standaard is de basis de tag, als het veld leeg is: Disallow: / tag /. Als een categorie wordt gebruikt, moet u de categorie in het robot.txt-bestand uitschakelen: Disallow: /category/. Standaard is de basis de tag, als het veld leeg is: Disallow: / tag /. Als een categorie wordt gebruikt, moet u de categorie in het robot.txt-bestand uitschakelen: Disallow: / category /.

Bestanden die voornamelijk worden gebruikt voor het weergeven van inhoud, worden geblokkeerd door het juiste Robots txt-bestand voor Wordpress:

Robots txt voor wordpress
Robots txt voor wordpress

Joomla basisinstellingen

Zodra de gebruiker Joomla heeft geïnstalleerd, moet u de juiste Joomla Robots txt-instelling bekijken in de algemene configuratie, die zich in het configuratiescherm bevindt. Sommige instellingen hier zijn erg belangrijk voor SEO. Zoek eerst de naam van de site en zorg ervoor datde korte naam van de site wordt gebruikt. Vervolgens vinden ze een groep instellingen aan de rechterkant van hetzelfde scherm, de zogenaamde SEO-instellingen. Degene die zeker zal moeten veranderen is de tweede: gebruik een herschrijf-URL.

Dit klinkt ingewikkeld, maar het helpt Joomla in feite om schonere URL's te maken. Het v alt het meest op als je de regel index.php uit de URL's verwijdert. Als je het later wijzigt, veranderen de URL's en zal Google het niet leuk vinden. Bij het wijzigen van deze instelling moeten echter verschillende stappen tegelijkertijd worden genomen om de juiste robots-txt voor Joomla te maken:

  1. Vind het htaccess.txt-bestand in de Joomla-hoofdmap.
  2. Markeer het als.htaccess (geen extensie).
  3. Sitenaam opnemen in paginatitels.
  4. Vind metadata-instellingen onderaan het globale configuratiescherm.

Robot in de cloud MODX

Robot in de MODX-cloud
Robot in de MODX-cloud

Voorheen bood MODX Cloud gebruikers de mogelijkheid om het gedrag van het toestaan van het robots.txt-bestand te controleren op basis van een schakelaar in het dashboard. Hoewel dit handig was, was het mogelijk om per ongeluk indexering op staging-/dev-sites toe te staan door een optie in het Dashboard te schakelen. Evenzo was het gemakkelijk om indexering op de productiesite uit te schakelen.

Vandaag de dag gaat de service uit van de aanwezigheid van robots.txt-bestanden in het bestandssysteem met de volgende uitzondering: elk domein dat eindigt op modxcloud.com zal dienen als Disallow: /richtlijn voor alle user agents, ongeacht de aanwezigheid of afwezigheid van het bestand. Productiesites die echt bezoekersverkeer ontvangen, moeten hun eigen domein gebruiken als de gebruiker zijn site wil indexeren.

Sommige organisaties gebruiken de juiste Robots txt voor modx om meerdere websites vanaf één installatie te laten draaien met behulp van Contexts. Een geval waarin dit zou kunnen worden toegepast, is een openbare marketingsite in combinatie met microsites voor bestemmingspagina's en mogelijk een niet-openbaar intranet.

Traditioneel was dit moeilijk te doen voor installaties met meerdere gebruikers, omdat ze dezelfde netwerkroot delen. Met MODX Cloud is dit eenvoudig. Upload eenvoudig een extra bestand naar een website genaamd robots-intranet.example.com.txt met de volgende inhoud en het blokkeert indexering met goed werkende robots en alle andere hostnamen vallen terug naar standaardbestanden, tenzij er andere specifieke naamknooppunten zijn.

Robots.txt is een belangrijk bestand dat de gebruiker helpt bij het linken naar de site op Google, grote zoekmachines en andere websites. Het bestand bevindt zich in de root van een webserver en instrueert webrobots om een site te crawlen, in te stellen welke mappen ze wel of niet moeten indexeren, met behulp van een reeks instructies die het Bot Exclusion Protocol wordt genoemd. Een voorbeeld van de juiste Robots txt voor alle zoekmachines obots.txt is vooral makkelijk te maken met SeoToaster. Er is een speciaal menu voor gemaakt in het configuratiescherm, zodat de bot nooit meer hoeft te werken om toegang te krijgen.

Aanbevolen: