ROBOTS.TXT más szemmel

Több
5 éve 10 hónapja #14399 Írta: Motoros
ROBOTS.TXT más szemmel téma létrehozva Motoros által
Igazán több elemet kellene biztonsági szempontból szorosan összefogni:

robots.txt
.htaccess
php.ini
.well-known/security.txt
stb.

Robots.txt - Elég nyers, sokat lehetne csiszolni, De a lényeg megvan...

A honlapok jelentős részén megtalálható a gyökérben (és nem almappában!) a robots.txt fájl, amit eredetileg a hálót feltérképező robotoknak szántak. Ez alapján kellene elmenniük egy-egy árva oldalra, könyvtárba is. Vagy pont ellenkezőleg, kihagyni az URL alapján oldalakat és könyvtárakat.
Elvi szinten ilyen alapon kellene dolgozni a kereső robotoknak.

Hát nem! A robotok többsége sz@rik a Te beállításaidra!

Az alábbi példalista a joomlacms.hu/robots.txt fájlban található:

Mit jelentenek ezek a sorok magyarul – amit nem is vesznek figyelembe a botok?

# Minden robot számára: *
User-agent: *

# Engedélyezett feltérképezéskor a következő: kiterjesztésű fájlok*
# Persze itt a mezei felhasználók közül sokan nem tudják, hogy a termekkepfoto.jpg pl. NEM AZONOS a termekkepfoto.JPG állománnyal!
Allow: /*.js*
Allow: /*.css*
Allow: /*.scss*
Allow: /*.png*
Allow: /*.jpg*
Allow: /*.gif*

# Ne terhelje a kiszolgálót: várjon 10 másodpercet a lekérdezések között. (Ne felejtsd el, több tízezer vagy százezer lehet a robotok száma a hálón! A „baráti botok” akik figyelembe veszik, esetleg kevésbé terhelik a szervert!)
Crawl-delay: 10


# Minden robot számára tiltott a következő könyvtárak feltérképezése
# Ez persze tök jó mindazoknak, a(m|k)ik sebezhetőséget, nyomokat keresnek arról, hogy a rendszergazdák hol tárolják az érzékeny cuccokat, mivel a robots.txt fájlban lévő felsorolás ordibál, hogy merre kell elindulni.

Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /tmp/

A webalkalmazás tesztelésének felderítési szakaszában a tesztelő általában ismert alkönyvtárak listáját használja a szerver rejtett erőforrásainak megtalálására, azonosítására.

További könyvtárak, fájlok a teljesség igénye nélkül (wordpress, e107...):
/admin/|/apps|/backup/|/bitrix/|/blackboard/|/core/|/Corporate/|/cms/|/configuration|/design/|/e107|/home|/interface/|/ip_cms/|/ipsconnect/|/manager/|/netcat/|/phire-content/|/typo3/|/uploads/|/user/|/wcsstore/|/webapps/|/wire/|/wordpress/|/wp/|/wp-|/cachee

(és további segítség lehet más összetevőkkel a nyilvánosan elérhető info.php, phpinfo.php különböző változatai)
www.dolphinstudio.hu/phpinfo.php
www.m-magnet.hu/phpinfo.php
www.seotool.hu/phpinfo.php
www.artediem.org/phpinfo.php
Igen, nálam is fent van, de 403 kódot kap aki próbálgatja...

# Minden robot számára engedélyezett az alábbi könyvtárak bejárása:
Allow: /plugins/system/jch_optimize/assets2/
Allow: /plugins/system/jch_optimize/assets/
Allow: /cache/template/

# OSmap entries
# Ez pedig a honlaptérkép – ami arra is jó, ha valaki másolni/letölteni/átvenni akarja a honlapot, gyorsabban tudja elvégezni a műveletet. Fontos tudnod: limitált az 1 állományban levő sorok száma! Annak, hogy Te sitemap1, sitemap2... fájlt hozz létre viszont nincs akadálya!

Fontos megemlítenem, hogy érdemes jelezni fejléccel, hogy ne archiválja. Csupán olvassa át!
Miért? Mert több ezer alantas „JOOMLA-honlap-vagyok/robots.txt” bejegyzés van tárolva a Google adatbázisában csupán eme sorra Allow: /plugins/system/jch_optimize/assets/

A link:
www.google.com/search?q=Allow:+/plugins/...=931&bih=525&dpr=1.1


Összegzés a robots.txt-vel kapcsolatban:
- töröld a fájl elején a megjegyzéseket
- folytatsd a Disallov/letiltott könyvtárakkal a törlést
- add hozzá a letiltáshoz, ami "Küld el az oldal címét", "Nincs ár? Kérjen ajánlatot" stb. oldal!

- Apache htaccess beállítási fájlban szabályozd a robots.txt fájl archiválását
- Apache htaccess beállítási fájlban határozd meg, milyen státuszkódot dobjon az /administrator/ - /tmp/ könyvtárak elérésekor a böngészőnek/robotnak!
- továbbá itt próbáld beállítani a robot hozzáférését
A következő felhasználók mondtak köszönetet: Isodius

Jelentkezz be, hogy te is részt vehess beszélgetésben!