Robots.txt nasıl oluşturulur ve açıklamaları

Robots.txt oluştururken, SEO açısından oldukça önemli ve mutlaka bilinçli bir şekilde uygulanması gerektiği unutulmamalıdır. Doğru hazırlandığında çok işinize yarayacak bu dosya, hatalı kullanımlarda ise kabusunuz olabilir. Peki robots.txt dosyası nedir, ne işe yarar?

Robots.txt ilk olarak 1994 yılında gündeme geldi. Bu dosyanın varolma amacı ise: arama motorlarına websitelerin nasıl indekslenmesi/indekslenmemesi gerektiği konusu ile ilgili bilgi vermek.

Robots.txt, uzantısından da anlaşılacağı gibi çok basit bir text dosyasıdır. Yani bu dosyayı hazırlamak için en ufak bir programlama becerisine ihtiyacınız yok. Önemli olan tek şey bu dosyanın içerisine yazacağınız satırları doğru oluşturmanız.

Robots meta etiketleri ile robots.txt dosyası çok fazla karıştırılmaktadır dolayısıyla bu konuya da açıklık getirmek istiyorum. Robots.txt dosyası arama motorlarının belirtilen sayfa veya dizinlere girmesini engeller ancak robots meta etiketleri, ilgili sayfa veya dizinlerin Google tarafından indekslenip indekslenmemesini belirlemeye yarar. Yani arama motorları, robots.txt dosyası içerisine attıklarınıza kesinlikle erişemezler!

Robots.txt Oluşturma

 

Robots.txt oluşturma yukarıda bahsettiğim gibi çok basit bir işlem. Yapmanız gereken notepad’i açıp dosyanın adını robots.txt olarak belirleyip, kaydetmek. Artık sizin de bir robots dosyanız var  Son olarak bu dosyayı kök dizine attığınız taktirde, aşağıdaki gibi aktif bir URL iniz olacaktır.

sitenizinadi.com/robots.txt

Not: Bu dosyanın yetkilendirmesini 644 olarak belirleyebilirsiniz. 

Artık websitenize bir arama motoru botu geleceği zaman, ilk olarak bu dosyaya bakacak ve hangi dosyaları veya klasörleri incelememesi gerektiğini anlayacak.

Standart bir robots.txt dosyasında görecekleriniz başlıklar 2 tanedir. User-agent ve disallow

User-agent: Oluşturacağınız kuralın hangi arama motoru için geçerli olacağını belirttiğiniz kısım.

Disallow: Arama motorlarına erişilmesini istemediğimiz sayfa, dosya veya klasör bilgilerini ilettiğimiz alan.

Eğer user-agent kısmında * gibi bir işaret görüyorsanız bunun anlamı, oluşturduğunuz kuralın tüm arama motorları için geçerli olduğudur. Yani eğer User-agent: * derseniz, sitenize ister Yahoo botları ister Yandex botları gelsin, oluşturduğunuz kural geçerli olacak demektir.

Disallow kısmında en çok dikkat etmeniz gereken konu / işaretinin kullanımıdır. Eğer robots.txt oluşturuken Disallow: / gibi bir kullanımda bulunursanız, sitenizin herhangi bir yerinin taranmaması gerektiğini istiyorsunuz demektir.

Eğer disallow kısmını boş bırakırsanız, bu sefer de tüm sitenizin taranmasını istiyorsunuz anlamına gelir.

Özetle:

Eğer robots.txt dosyasının içerisinde aşağıda yazılanlar varsa oluşturduğunuz bu dosyaya tüm arama motorları ulaşabilecek ve hiçbir arama motoru sitenizi taramayacaktır.

User-agent: *
Disallow: /

Not: Bu kullanım genellikle test ortamındaki siteler için uygundur. Yani siteniz daha hazır değil ve arama motoru sonuçlarında sitenizin listelenmesini istemiyorsanız, bu kullanımı tercih edebilirsiniz. Ancak daha sonra dosyanızı tekrar düzenlemeyi unutmamalısınız.

Öteye yandan eğer aşağıdaki gibi bir dosya oluşturduysanız, bu dosyaya tüm arama motorları ulaşabilecek ve tüm sayfalarınızın taranmasına izin veriyorsunuz demektir.

User-agent: *
Disallow:

Robots.txt Örnekleri

Birkaç farklı örnek daha inceleyelim…

 

Aşağıdaki örnekte tüm arama motorlarına websitemizi taramaları için izin veriyoruz ancak görsellerimizin bulunduğu /images/ klasörüne girmelerini istemiyoruz.

User-agent: *
Disallow: /images/

Google görseller için farklı botlar kullanmaktadır dolayısıyla eğer sadece Google botlarının görsellerinizin yer aldığı klasöre erişmesini istemiyorsanız aşağıdaki kullanım doğru olacaktır.

User-agent: Googlebot-Image
Disallow: /images/

Not: En yaygın olarak bilinen arama motoru botları aşağıdaki gibidir:

  • Googlebot – Google
  • Googlebot-Image – Google Görseller
  • Googlebot-News – Google Haberler
  • Bingbot – Bing

Eğer bir klasöre arama motoru botlarının erişmesini istemiyor ancak bu klasörün içerisinde yer alan birkaç dosyaya erişilmesini istiyorsanız, disallow ve allow u birlikte kullanmalısınız. Aşağıdaki örnekte, Google görsel botunun görseller klasörümüze gelmesini istemiyoruz ancak bu klasörün içerisindeki arkaplan resmi ve logom görsellerini taramasını istiyoruz.

User-agent: Googlebot-Image
Disallow: /gorseller/
Allow: /gorseller/arkaplan-resmi/
Allow: /gorseller/logom.png

 

Not: Aşağıdaki iki kullanım birbirleri ile aynıdır.

User-agent: *
Allow: /
User-agent: *
Disallow:

 

Eğer bir klasörde yer alan .xls uzantılı dosyaların taranmasını istemiyorsanız, dosya tipinin başına * koymalısınız.
User-agent: *
Disallow: /indirilenler/*.xls

 

Hangi Dosyalar Robots.txt Dosyasına Eklenmelidir?

Robots.txt oluşturma sebebimizi yukarıda anlatmıştım ancak pratikte hangi durumlarda bu dosyayı kullanıyoruz anlatmak istiyorum.

Öncellikle ilk sormamız gereken soru: Neden bazı dosyalarımızın taranmasını/indekslenmesini istemeyiz?

Kötü niyetli sebepler için yapılan kullanımları anlatmayacağım 

Diyelim 20,000 aktif sayfalı bir e-ticaret siteniz var. Google zaman içerisinde sayfanızı ziyaret ediyor ve tabi ki her geldiğinde tüm sayfalarınızı indekslemiyor. Peki Google hangi sayfalarınızı indeksliyor? veya Google’ın hangi sayfalarınızı indekslemisini istemezsiniz?

Birçok websitenin footer alanını incelerseniz, bu alanda birçok sayfa linki göreceksiniz. En yoğun kullanılan footer linkleri; hakkımızda, sıkça sorulan sorular, ödeme seçenekleri, gizlilik sözleşmesi gibi sayfalar. Peki bu sayfaların Google arama sonuçlarında çıkması ne işinize yarar? Yani birisi Google’da arama yapıyor ve sizin gizlilik sözleşmesi sayfasınıza ulaşıyor…Tamamen gereksiz!!! Ayrıca bu linkler footer’da yer aldığı için her sayfanın altında görüntüleniyor ve en değerli sayfalarınız haline geliyor.

Diğer taranmasını veya indekslenmesini istemediğimiz sayfalar: alışveriş tamamlanma sayfaları, müşteri sayfaları, sepet sayfaları vs…Yani sepet sayfasının kesinlikle Google tarafından taranmaması gerekir ki boşu boşuna gereksiz sayfalarınız Google sonuçlarında listelenmesin. (Kim ne yapsın bizim sepet sayfalarımızı)

Yani sonuç olarak bu sayfaları robots.txt dosyasına koyarak, ürün,  kategori, markalar gibi daha değerli sayfalarınızın taranma ihtimalini arttırabilirsiniz.

İçeriği Paylaş