Wat is website-indexering? Hoe gebeurt het? Antwoorden op deze en andere vragen vind je in het artikel. Webindexering (indexering in zoekmachines) is het proces van het toevoegen van informatie over een site aan de database door een zoekmachinerobot, die vervolgens wordt gebruikt om informatie te zoeken over webprojecten die een dergelijke procedure hebben ondergaan.
Gegevens over webbronnen bestaan meestal uit trefwoorden, artikelen, links, documenten. Audio, afbeeldingen, enzovoort kunnen ook worden geïndexeerd. Het is bekend dat het zoekwoorddetectie-algoritme afhankelijk is van de zoekmachine.
Er is enige beperking op de soorten geïndexeerde informatie (flash-bestanden, javascript).
Initiatiebeheer
Het indexeren van een site is een complex proces. Om het te beheren (bijvoorbeeld om de bijlage van een bepaalde pagina te verbieden), moet u het robots.txt-bestand gebruiken en instructies als Toestaan, Niet toestaan, Vertraging crawlen, User-agent en andere.
Tags en rekwisieten worden ook gebruikt voor het indexeren, waardoor de inhoud van de bron wordt verborgen voor Google en Yandex-robots (Yahoo gebruikt de tag).
In de Goglle-zoekmachine worden nieuwe sites van een paar dagen tot een week geïndexeerd, en in Yandex - van een tot vier weken.
Wilt u dat uw site wordt weergegeven in zoekopdrachten met zoekresultaten van zoekmachines? Vervolgens moet het worden verwerkt door Rambler, Yandex, Google, Yahoo, enzovoort. U moet zoekmachines (spinnen, systemen) informeren over het bestaan van uw website, en dan zullen ze deze geheel of gedeeltelijk crawlen.
Veel sites zijn al jaren niet geïndexeerd. De informatie die erop staat wordt door niemand gezien, behalve door hun eigenaren.
Verwerkingsmethoden
Het indexeren van een site kan op verschillende manieren:
- Eerste optie is handmatige toevoeging. U moet uw sitegegevens invoeren via speciale formulieren die worden aangeboden door zoekmachines.
- In het tweede geval vindt de robot van de zoekmachine zelf uw website via links en indexeert deze. Hij kan uw site vinden via links van andere bronnen die naar uw project leiden. Deze methode is het meest efficiënt. Als een zoekmachine een site op deze manier vindt, beschouwt hij deze als belangrijk.
Timing
Het indexeren van de site gaat niet te snel. Voorwaarden variëren, van 1-2 weken. Links van gezaghebbende bronnen (met uitstekende PR en Titz) versnellen de plaatsing van de site in de database van zoekmachines aanzienlijk. Tegenwoordig wordt Google als de langzaamste beschouwd, hoewel het dit tot 2012 in een week zou kunnen doen. TotHelaas veranderen dingen heel snel. Het is bekend dat Mail.ru al ongeveer zes maanden met websites op dit gebied werkt.
Een site indexeren in zoekmachines is niet voor elke specialist mogelijk. De timing van het toevoegen van nieuwe pagina's aan de database van een site die al door zoekmachines is verwerkt, wordt beïnvloed door de frequentie waarmee de inhoud wordt bijgewerkt. Als er voortdurend nieuwe informatie over een bron verschijnt, beschouwt het systeem deze als regelmatig bijgewerkt en nuttig voor mensen. In dit geval wordt haar werk versneld.
U kunt de voortgang van het indexeren van een website volgen in speciale secties voor webmasters of op zoekmachines.
Wijzigingen
We hebben dus al uitgezocht hoe de site is geïndexeerd. Opgemerkt moet worden dat databases van zoekmachines regelmatig worden bijgewerkt. Daarom kan het aantal pagina's van uw project dat eraan wordt toegevoegd veranderen (zowel afnemen als toenemen) om de volgende redenen:
- sancties van zoekmachines tegen de website;
- de aanwezigheid van fouten op de site;
- zoekmachinealgoritmen wijzigen;
- walgelijke hosting (ontoegankelijkheid van de server waarop het project zich bevindt) enzovoort.
Yandex antwoorden op veelgestelde vragen
"Yandex" is een zoekmachine die door veel gebruikers wordt gebruikt. Het staat op de vijfde plaats van 's werelds zoeksystemen wat betreft het aantal verwerkte onderzoeksverzoeken. Als u er een site aan heeft toegevoegd, kan het te lang duren om deze aan de database toe te voegen.
Het toevoegen van een URL garandeert niet de indexering ervan. Dit is slechts een van de methoden waarmee de systeemrobot wordt verteldover een nieuwe bron. Als er weinig of geen links naar een site van andere websites zijn, kunt u deze sneller vinden door deze toe te voegen.
Als indexering niet heeft plaatsgevonden, moet u controleren of er fouten op de server waren op het moment dat u er een toepassing voor maakte vanuit de Yandex-robot. Als de server een fout meldt, beëindigt de robot zijn werk en probeert het in een retourorder te voltooien. Yandex-medewerkers kunnen de snelheid van het toevoegen van pagina's aan de database van de zoekmachine niet verhogen.
Het indexeren van een site in Yandex is een nogal moeilijke taak. U weet niet hoe u een bron aan een zoekmachine moet toevoegen? Als er links naar zijn vanaf andere websites, hoeft u geen speciale site toe te voegen - de robot zal deze automatisch vinden en indexeren. Als u dergelijke links niet heeft, kunt u het formulier "URL toevoegen" gebruiken om de zoekmachine te laten weten dat de site bestaat.
Houd er rekening mee dat het toevoegen van een URL niet garandeert dat uw creatie wordt geïndexeerd (of geïndexeerd).
Veel mensen vragen zich af hoe lang het duurt om een site in Yandex te indexeren. Medewerkers van dit bedrijf geven geen garanties en voorspellen geen voorwaarden. Sinds de robot de site ontdekte, verschijnen de pagina's in de zoekopdracht in de regel binnen twee dagen, soms binnen een paar weken.
Proces
"Yandex" is een zoekmachine die nauwkeurigheid en aandacht vereist. Site-indexering bestaat uit drie delen:
- Zoekrobot crawlt bronpagina's.
- Inhoud(inhoud) van de site wordt opgenomen in de database (index) van het zoeksysteem.
- In 2-4 weken, na het bijwerken van de database, kunt u de resultaten zien. Uw site zal (of zal niet) worden weergegeven in zoekresultaten.
Indexeringscontrole
Hoe kan ik website-indexering controleren? Er zijn drie manieren om dit te doen:
- Voer de naam van uw bedrijf in de zoekbalk in (bijvoorbeeld "Yandex") en controleer elke link op de eerste en tweede pagina. Als je daar de URL van je geesteskind vindt, dan heeft de robot zijn taak volbracht.
- U kunt uw website-URL invoeren in de zoekbalk. U kunt zien hoeveel internetbladen er worden getoond, d.w.z. geïndexeerd.
- Registreer op de pagina's van webmasters in Mail.ru, Google, Yandex. Nadat u de siteverificatie heeft doorstaan, kunt u de indexeringsresultaten en andere zoekmachineservices zien die zijn gemaakt om de prestaties van uw bron te verbeteren.
Waarom fa alt Yandex?
Het indexeren van een site in Google gaat als volgt: de robot voert in de database alle pagina's van de site in, van lage kwaliteit en van hoge kwaliteit, zonder te selecteren. Maar alleen nuttige documenten worden in de rangschikking opgenomen. En "Yandex" sluit onmiddellijk alle webafval uit. Het kan elke pagina indexeren, maar de zoekmachine zal uiteindelijk alle rommel verwijderen.
Beide systemen hebben een incrementele index. Beide pagina's van lage kwaliteit zijn van invloed op de positie van de website als geheel. Er is hier een eenvoudige filosofie aan het werk. Favoriete bronnen van een bepaaldde gebruiker zal hogere posities innemen in zijn uitgifte. Maar dezelfde persoon zal moeite hebben om een site te vinden die hij de vorige keer niet leuk vond.
Daarom is het ten eerste noodzakelijk om kopieën van webdocumenten te beschermen tegen indexering, te controleren op lege pagina's en te voorkomen dat inhoud van lage kwaliteit wordt geïndexeerd.
Versnel Yandex
Hoe kan ik het indexeren van sites in Yandex versnellen? Volg deze stappen:
- Installeer de Yandex-browser op uw computer en gebruik deze om door de pagina's van de site te bladeren.
- Bevestig de rechten om de bron te beheren in Yandex. Webmaster.
- Plaats een link naar het artikel op Twitter. Het is bekend dat Yandex sinds 2012 met dit bedrijf samenwerkt.
- Voeg een zoekopdracht van Yandex toe voor de site. In het gedeelte "Indexeren" kunt u uw eigen URL's invoeren.
- Voer de "Yandex. Metrica"-code in zonder "Het indienen van pagina's voor indexering is verboden" aan te vinken.
- Maak een sitemap die alleen voor de robot bestaat en niet zichtbaar is voor het publiek. De verificatie begint bij hem. Het sitemapadres wordt ingevoerd in robots.txt of in de juiste vorm in de "Webmaster" - "Indexeringsinstellingen" - "Sitemapbestanden".
Tussentijdse acties
Wat moet er gebeuren totdat de webpagina is geïndexeerd door Yandex? De binnenlandse zoekmachine moet de site als de primaire bron beschouwen. Daarom is het zelfs vóór de publicatie van het artikel absoluut noodzakelijk om de inhoud ervan toe te voegen aan de vorm van "Specifieke teksten". Andersplagiaat zal het record naar hun bron kopiëren en zal de eerste zijn in de database. Als gevolg hiervan zullen ze worden erkend als de auteurs.
Google Database
Voor Google zijn dezelfde aanbevelingen die we hierboven hebben beschreven geschikt, alleen de services zullen anders zijn:
- Google+ (ter vervanging van Twitter);
- Google Chrome;
- Google Tools for Programmers - "Scannen" - "Lijken op Googlebot" - optie "Scannen" - optie "Index";
- zoek binnen een bron van Google;
- Google Analytics (in plaats van Yandex. Metrics).
Verbod
Wat is een verbod op het indexeren van sites? Je kunt het zowel op de hele pagina als op een apart deel ervan (link of stuk tekst) overlappen. In feite is er zowel een wereldwijd indexeringsverbod als een lokaal verbod. Hoe wordt het geïmplementeerd?
Laten we eens kijken naar het verbod om een website toe te voegen aan de database van zoekmachines in Robots.txt. Met behulp van het robots.txt-bestand kunt u de indexering van één pagina of een hele bronkop als volgt uitsluiten:
- Gebruiker-agent:
- Disallow: /kolobok.html
- Niet toestaan: /foto/
Het eerste punt zegt dat de instructies zijn gedefinieerd voor alle PS's, het tweede geeft aan dat het indexeren van het kolobok.html-bestand verboden is, en het derde punt staat niet toe dat de volledige vulling van de fotomap aan de databank. Als u meerdere pagina's of mappen moet uitsluiten, specificeer ze dan allemaal in Robots.
Om het indexeren van een bepaald internetblad te voorkomen, kunt u de robots-metatag gebruiken. Het is anders dan robots.txthet feit dat het alle PS tegelijk instructies geeft. Deze metatag volgt de algemene principes van het html-formaat. Het moet in de titel van de pagina tussen de tags worden geplaatst. Een vermelding voor een verbod kan bijvoorbeeld als volgt worden geschreven:.
Ajax
Hoe indexeert Yandex Ajax-sites? Tegenwoordig wordt Ajax-technologie door veel website-ontwikkelaars gebruikt. Natuurlijk heeft ze een groot potentieel. Hiermee kunt u snelle en productieve interactieve webpagina's maken.
De robot van de zoekmachine "ziet" de weblijst echter anders dan de gebruiker en de browser. Een persoon kijkt bijvoorbeeld naar een comfortabele interface met verplaatsbaar geladen internetbladen. Voor een crawler kan de inhoud van dezelfde pagina leeg zijn of worden weergegeven als de rest van de statische HTML-inhoud, waarvoor scripts niet werken.
U kunt een URL metgebruiken om Ajax-sites te maken, maar de zoekmachine gebruikt deze niet. Meestal wordt het deel van de URL na degescheiden. Hiermee moet rekening worden gehouden. Daarom maakt hij, in plaats van een URL zoals https://site.ru/example, een toepassing op de hoofdpagina van de bron op https://site.ru. Dit betekent dat de inhoud van het internetblad niet in de database mag komen. Als gevolg hiervan wordt het niet weergegeven in de zoekresultaten.
Om de indexering van Ajax-sites te verbeteren, ondersteunde Yandex wijzigingen in de zoekrobot en de regels voor het verwerken van de URL's van dergelijke websites. Tegenwoordig kunnen webmasters de Yandex-zoekmachine aangeven dat indexering nodig is door een geschikt schema in de bronnenstructuur te creëren. Hiervoor heb je nodig:
- Vervang het symboolin de URL van de pagina'sop de !. Nu zal de robot begrijpen dat hij de HTML-versie van de inhoud van dit internetblad kan aanvragen.
- HTML-versie van de inhoud van een dergelijke pagina moet op een URL worden geplaatst waar ! vervangen door ?_escaped_fragment_=.