Robots.txt Nedir, Nasıl Oluşturulur?

Web sitelerin  açık bölümlerinin tamamına veya bir kısmına erişimini engellemeye yarayan bir standarttır. Genelde web sitelerini sınıflandırmak ve arşivlemek amacı ile arama motorları ya da düzeltilmiş kaynak kodları için site yöneticileri robotları kullanırlar. Robotlar bu işlem sonucunda web siteleri için site haritaları oluştururlar.  Robot mail grubu olan robots-request@nexor.co.uk üyeleri tarafından 30 Haziran 1984 tarihinde ulaşılmış bir fikir birliğinden doğmuştur. Kullanılması zorunlu değildir. Bu protokol tamamen tavsiye niteliğinde, isteğe bağlı olmasına rağmen, web robotlarının bu protokolün uygulamasına ihtiyaç duymaktadır.

Bir web sitesinin kodunda bulunan robots.txt isimli dosya, robotlara yaptıkları indeksleme çalışmalarında o sitenin tamamını veya belirli bir bölümünü indekslememesini (göz ardı etmesini) talep eder. Böylece istemediğiniz içerikler index almaz ve arama motorlarında çıkmamış olur.

Bazı Hazır Kullanım Yöntemleri

Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.

Kod-1

User-agent: *
Disallow:
Bütün robotların, site üzerindeki bütün dosyaları tarayabileceğine izin veren örnek; ” * ” yıldız işareti istisnasız tüm robotları indeksleme yapabileceğini gösterir.
Kod-2
User-agent: *
Disallow: /

Bütün robotların, site üzerindeki hiçbir dosyayı taramamasının istendiği örnek;

Kod-3

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Bütün robotlar, site üzerindeki yukarıdaki 4 klasörün içeriğini indekslememeli;

Kod-4

User-agent: BadBot # 'BadBot' kelimesi ilgili botun adı ile değiştirilir.
Disallow: /private/

İsmi verilen robot, site üzerindeki ismi verilen klasörün (private klasörü)  içeriğini indekslememeli;

Kod-5

User-agent: *
Disallow: /directory/file.html

Bütün robotlar, site üzerindeki yukarıdaki dosyayı indekslememeli; O klasördeki diğer bütün dosyalar ve sayfalar taratılır.

Kod-6

User-agent: *
Disallow: /a

Yukarıda a harfi ile başlayan içeriklerin tümü engellenmiştir.

Bu kullanımda siteadi.com/a içeriğinin yanısıra a harfi ile başlayan siteadi.com/about içeriği de engellenmiş olur. Bu yüzden engellemeyi kullanırken lütfen dikkatli olalım.

Kod-7

# Yorumlar "#" işaretinden sonra bir satır başında ya da bir komuttan sonra kullanılabilir.
User-agent: * # bütün botları kapsasın
Disallow: / # bütün botları uzak tutsun

Yukarıda Kod içinde yorum yazılan örnekleme gösterilmiştir.

Standart Dışı Kullanımlar

Kod-8

User-agent: *
Crawl-delay: 10

Çoğu büyük web arama botları geciktirme komutunu destekler.
Örneğin Yukarıdaki örnekte ilgili web sitesinden 10 saniyelik aralıklar ile bilgi çekmesi istemi yapılmıştır

Kod-9

Allow: /folder1/myfile.html
Disallow: /folder1/

İzin Ver komutu

Bazı büyük botlar, Allow ( izin ver ) komutu kullanarak Disallow ( kısıtla ) komutunu etkisizleştirmeye imkân verirler. Bu özellikle bütün klasördeki sadece bir dosyanın ya da sayfanın taranmasını istediğiniz durumlarda faydalı olacaktır. Fakat dikkat edilmelidir ki genelde standart olarak robots.txt’nin ilk satırı uygulamaya konulabilir. Fakat Google’ın uygulamasında önce tüm Allow ( izin ver ) komutları işleme konulur daha sonra Disallow komutları işleme konulur. Yukarıdaki örnekte bu kanuna örnek verilmiştir.

Geliştirilmiş Üst Düzey Komutlar

Kod-10

User-agent: *
Disallow: /downloads/
Request-rate: 1/5         # her 5 saniyede maksimum 1 sayfa
Visit-time: 0600-0845     # sadece 06:00 ile 08:45 UTC (GMT) saatleri arasında ziyaret edilme talebi

Bu standardı geliştirmek için Visit-time (ziyaret-saati) ve request-rate (talep-oranı) gibi çeşitli önerilerin yapıldığını An Extended Standard for Robot Exclusion (Robot Engelleme için gelişmiş bir standart) adı altında bir takım öneriler yapılmıştır.
Kod-11

User-agent: *
Disallow:
User-agent: Googlebot
Disallow: /gizli/
User-agent: Msnbot

Yukarıdaki kod ile  Tüm arama motorları sitemizi kaydetsin. Ama Google ile Msn birer klasör kaydetmesin istiyoruz.

 

Yazar Fatih Körpe

1984 İzmit'te doğdu Konya Selçuk Üniversitesi ve Eskişehir Anadolu Üniversitesi mezunu. Network Dizayn kurucusu ve editörü. Server altyapısını kuran ve düzenleyen kişi. Gerçek bir teknoloji bağımlısı olan Fatih, ayrıca oyun dünyası ve film sektörüne de ilgili.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Web Sitenizin Tanıtımı Nasıl Olmalıdır.

SSL Sertifikası Nedir?