Mi a domainben a Robots.txt fájl?
Webmester Eszközök Weboldalak Seo Hős / / March 19, 2020
Utoljára frissítve:
Az új webhelyek tulajdonosai számára az egyik legnagyobb hiba az, hogy nem vizsgálják meg a robots.txt fájlt. Szóval mi ez egyébként, és miért olyan fontos? Megvan a válaszod.
Ha saját webhelyed van, és érdekli a webhely SEO állapotát, akkor nagyon jól meg kell ismernie magát a domain robots.txt fájljával. Hidd el vagy sem, ezek zavaróan nagy számú ember, aki gyorsan elindít egy domaint, telepít egy gyors WordPress webhelyet, és soha nem zavarja semmit a robots.txt fájllal.
Ez veszélyes. A rosszul konfigurált robots.txt fájl valójában tönkreteheti webhelye SEO állapotát, és károsíthatja a forgalom növekedésével kapcsolatos esélyeit.
Mi az a Robots.txt fájl?
Az robots.txt a fájlt helyesen nevezték el, mert alapvetően egy olyan fájl, amely felsorolja az internetes robotok (például a keresőmotor robotok) irányelveit arról, hogy miként és mit tudnak feltérképezni az Ön webhelyén. Ez egy internetes szabvány, amelyet 1994 óta követnek a weboldalak, és az összes nagyobb internetes bejáró betartja a szabványt.
A fájlt szöveges formátumban (.txt kiterjesztéssel) tárolja a webhely gyökérmappájában. Valójában bármilyen weboldal robot.txt fájlt megnézhet, csak a /robots.txt követő domain beírásával. Ha ezt a groovyPost programmal próbálja meg, akkor lát egy példát egy jól strukturált robot.txt fájlra.
A fájl egyszerű, de hatékony. Ez a példafájl nem tesz különbséget a robotok között. A parancsokat az összes robotnak a Felhasználói ügynök: * irányelv. Ez azt jelenti, hogy az azt követő összes parancs azokra a robotokra vonatkozik, amelyek a webhelyet felkeresik és feltérképezik.
A webrobotok meghatározása
Megadhat konkrét szabályokat az egyes webrobotokra is. Például engedélyezheti a Googlebot-nak (a Google webrobotja) a webhely összes cikkeinek feltérképezését, de érdemes lehet ne engedje el az Yandex Bot orosz webrobotot olyan webhelyek feltérképezéséhez, amelyek megalázó információkat tartalmaznak a webhelyén Oroszország.
Több száz internetes bejáró használja az internetet a webhelyekkel kapcsolatos információk keresése céljából, de itt találja a 10 leggyakoribb, amelyet aggódnia kell.
- Googlebot: Google keresőmotor
- Bingbot: A Microsoft Bing keresőmotorja
- Slurp: Yahoo keresőmotor
- DuckDuckBot: DuckDuckGo kereső
- Baiduspider: Kínai Baidu kereső
- YandexBot: Orosz Yandex kereső
- Exabot: Francia Exalead kereső
- Facebot: A Facebook feltérképező robotja
- ia_archiver: Alexa internetes rangsorolási robotja
- MJ12bot: Nagy hivatkozású indexelő adatbázis
A fenti példahelyzetet figyelembe véve, ha engedélyezni kívánta a Googlebot számára, hogy mindent indexeljen a webhelyén, de szerette volna megakadályozhatja a Yandexet abban, hogy indexálja az orosz alapú cikktartalmát, a következő sorokat adhatja hozzá a robots.txt fájlhoz fájlt.
Felhasználói ügynök: googlebot
Tiltás: Tilos: / wp-admin /
Tiltás: /wp-login.php
Felhasználói ügynök: yandexbot
Tiltás: Tilos: / wp-admin /
Tiltás: /wp-login.php
Tiltás: / Oroszország /
Mint láthatja, az első szakasz csak megakadályozza, hogy a Google feltérképezze a WordPress bejelentkezési oldalát és az adminisztrációs oldalakat. A második szakasz blokkolja a Yandexet ugyanabból, hanem a webhelyének teljes területéből, ahol Oroszország-ellenes tartalommal rendelkező cikkeket tett közzé.
Ez egy egyszerű példa a tiltása parancs az Ön webhelyét látogató webrobotok irányítására
Egyéb Robots.txt parancsok
A Disallow nem az egyetlen parancs, amelyhez hozzáférhetsz a robots.txt fájlban. Használhatja a többi parancsot is, amelyek irányítják, hogy egy robot miként mászhat be az Ön webhelyén.
- tiltása: Felszólítja a felhasználói ügynököt, hogy kerülje el a meghatározott URL-ek vagy a webhely teljes szakaszának feltérképezését.
- Lehetővé teszi: Lehetővé teszi a webhely meghatározott oldalainak vagy almappáinak finomítását, annak ellenére, hogy esetleg letiltotta a szülőmappát. Például letilthatja: / about /, de engedélyezheti: / about / ryan /.
- Crawl-delay: Ez arra szólítja fel a bejárót, hogy várjon xx másodpercig, mielőtt megkezdi a webhely tartalmának feltérképezését.
- Oldaltérkép: Adjon meg keresőmotoroknak (Google, Ask, Bing és Yahoo) az XML webhelytérképeinek helyét.
Ne feledje, hogy a botok fognak csak hallgassa meg a robot parancsát, amelyet megadott, amikor megadja a robot nevét.
Az emberek általánosan elkövetett hiba az, hogy tiltja az olyan területeket, mint a / wp-admin / az összes botból, de akkor adjon meg egy googlebot szakaszt, és csak más területeket (például / kb /) tiltjon le.
Mivel a botok csak a szakaszukban megadott parancsokat követik, meg kell újraismételnie azokat a többi parancsot, amelyeket az összes botra megadott (a * user-agent használatával).
- tiltása: A parancs arra szólítja fel a felhasználói ügynököt, hogy ne mutasson be egy adott URL-t. Minden URL-hez csak egy „Tiltás:” sor megengedett.
- Engedélyezés (csak a Googlebot esetében alkalmazható): A Googlebot megmondására vonatkozó parancs elérheti az oldalt vagy az almappát, annak ellenére, hogy a szülő oldalát vagy az almappáját le lehet tiltani.
- Crawl-delay: Hány másodpercig kell a robotnak várnia, mielőtt betölti és bejárja az oldal tartalmát. Vegye figyelembe, hogy a Googlebot nem ismeri el ezt a parancsot, de a feltérképezés sebessége beállítható a Google Search Console-ban.
- Oldaltérkép: Az URL-hez társított XML webhelytérkép (ek) helyének kihívására szolgál. Vegye figyelembe, hogy ezt a parancsot csak a Google, a Ask, a Bing és a Yahoo támogatja.
Ne feledje, hogy a robots.txt célja, hogy a legális robotok (például a keresőmotorok robotjai) hatékonyabban feltérképezzék webhelyét.
Nagyon sok rosszindulatú bejáró van, akik feltérképezik az Ön webhelyét, hogy például az e-mail címeket lekaparják vagy tartalmaikat ellopják. Ha meg akarja próbálni a robots.txt fájlt, hogy megakadályozza a robotokat abban, hogy bármi feltérképezzenek a webhelyén, ne aggódjon. A bejárók készítői általában figyelmen kívül hagynak mindent, amit a robots.txt fájlba helyezett.
Miért tilthat bármit?
A legtöbb webhelytulajdonos elsődleges szempont, hogy a Google keresőmotorja minél több minőségi tartalmat mutasson be webhelyén.
A Google azonban csak korlátozott mértékben költ feltérképezési költségvetés és feltérképezési sebesség az egyes oldalakon. A feltérképezés aránya azt jelenti, hogy a Googlebot másodpercenként hány kérést fog tenni az Ön webhelyére a feltérképezési esemény során.
Ennél fontosabb a feltérképezési költségkeret, azaz a Googlebot hány összes kérést fog tenni az Ön webhelyének egy munkamenetben való feltérképezésére. A Google „tölti” bejárási költségvetését azáltal, hogy a webhely olyan területeire összpontosít, amelyek nagyon népszerűek vagy nemrégiben megváltoztak.
Nem vak vagy ezen információk iránt. Ha meglátogat Google Webmestereszközök, láthatja, hogy a bejáró hogyan kezeli a webhelyet.
Mint láthatja, a bejáró minden nap állandóan tartja tevékenységét a webhelyén. Nem feltérképezi az összes webhelyet, hanem csak azokat, amelyeket a legfontosabbnak tartja.
Miért hagyja a Googlebot feladata annak eldöntése, hogy mi fontos a webhelyén, amikor a robots.txt fájl segítségével megmondhatja, hogy mi a legfontosabb oldal? Ez megakadályozza, hogy a Googlebot pazarolja az idejét webhelye alacsony értékű oldalain.
A feltérképezési költségkeret optimalizálása
A Google Webmester Eszközök segítségével ellenőrizheti, hogy a Googlebot olvassa-e a robots.txt fájlt, és vannak-e hibák.
Ez segít ellenőrizni, hogy a robots.txt fájlt megfelelően szerkesztette-e.
Milyen oldalakat kellene tiltania a Googlebotról? Jó, ha webhelyének SEO letiltja a következő kategóriákat.
- Másolatos oldalak (például nyomtatóbarát oldalak)
- Köszönjük az űrlap alapú megrendeléseket követő oldalakat
- Megrendelési vagy információs lekérdezőlapok
- Kapcsolattartási oldalak
- Bejelentkezés oldal
- Ólommágneses „értékesítési” oldalak
Ne hagyja figyelmen kívül a Robots.txt fájlt
Az új weboldaltulajdonosok által elkövetett legnagyobb hiba az, hogy még a robots.txt fájlt sem nézi meg. A legrosszabb helyzet az lehet, hogy a robots.txt fájl valójában megakadályozza az Ön webhelyét vagy annak egy részét, hogy egyáltalán ne mászjon be.
Feltétlenül ellenőrizze a robots.txt fájlt és ellenőrizze annak optimalizálását. Ily módon a Google és más fontos keresőmotorok „látják” azokat a mesés dolgokat, amelyeket a weboldalával kínál a világ számára.