Web Yönetici Araçlarında Hatalı URL’i Tek Seferde Kaldırma

Adnan Güney abim ile beraber güzel bir paylaşımda bulunalım dedik ve beraberce bu yazıyı sizlerle paylaşıp bilgimizi tazeleyelim istedik. Öncelikle Google arama sonuçlarından hatalı web sayfalarını kaldırmak sitenizin sağlığı için önemlidir. Site içeriğini yeni bir Domain’e taşıyıp, eski siteniz için de farklı sayfalara yer veriyorsunuz veya bazı sayfaları sildiğinizi de düşünelim. Böyle bir durumu yaşadığınız süreçte Arama Örümcekleri belli aralıklarla sayfanızı ziyaret edip içerikleri indekslediğinde önceden indekslenmiş sayfalar bulunamıyorsa bu sayfaların hepsi kayıt altına alınmış demektir. Bu esnada sunucunuz hizmet kesintisi oluşturduysa sitenizin sayfalarına da ulaşamayacaktır. 404 sayfa hatası olarak isimlendirilen bu hata sitenizin arama sonuçlarında alt sıralara düşerek değer kaybetmesine neden olur. Google web yöneti araçları arama sorgularına baktığınızda gösterim oranlarınızın düştüğünü görebilirsiniz. Böyle bir durum için neler yapabilirsiniz.

Hatalı URL’nin kaldırılması için şu adımları uygulayabilirsiniz :

1. Web Yönetici Araçlarına giriş yapın. Site kaydınız yoksa okumaya devam edin.
2. Site Ekle kısmından yönetmek istediğiniz URL adresini girin.
3. Daha sonra sitenin sizin yönetiminizde olduğunu Google’a belirtmeniz için site doğrulama işlemini yapmanız gerekiyor. Sitenizi en basit şekilde doğrulayabilmeniz için site için verilen doğrulama önerilerinden web arayüz seçeneğini indirip, indirmiş olduğunuz dosyayı sitenizin kök dizinine koymanız veya verilen bir html meta etiketini index sayfanız içinde belirtilen alanlara yapıştırmanız gerekiyor. Bu işlem sonucunda site doğrula seçeneğine tıklayarak sitenizin doğrulama işlemini tamamlayabilirsiniz.

5. Aynı sayfada iken, indirme butonunu tıklayarak tüm sayfaları Excel sayfasına alın. CrawlErrorsList_siteadı.xlsx veya .xls şeklinde bir dosya oluşacaktır.6. Bu dosya üzerinde bazı formüller ile dosya adını net olarak elde edelim. E, sütunundaki bilgileri alıp hepsini web site kökünde yer alan Robots.txt dosyasına yapıştıralım. Bu formülleri sırası ile, B1,C1,D1 ve E2 alanlarına yazıp, alt satırlara kopyalıyoruz. Bu işlem çok fazla URL hatası alan siteler için kolaylık sağlayacaktır. Eğer hata sayınız fazla değilse excel işlemini atlayabilirsiniz.
7. Robots.txt dosyamıza, Disallow formatında URL ekleme
8. URL kaldırma isteğinde bulunma
Site yapılandırma→ Tarayıcı erişimi üzerinden URL’leri kaldır sekmesine gelip, Excel de D sütundaki alanları tek tek yapıştırıp, sayfa arama sonuçlarından ve bellekten kaldırmak için istekte bulunuyoruz. Excel den Web Gezgini arayüzüne veya tam tersi geçişlerde SHIFT + ALT kombinasyon ile tuşlara basarsanız sayfalar arasında hızlı geçiş sağlarsınız. Bu özellikle çok fazla URL sayfası hatası durumunda kolaylık sağlar.
9. Tüm bu işlemler tamamladığında Tanılamalar→ Tarama Hataları sekmesinde tüm hatalı URL’leri seçip Düzeltildi olarak olarak işaretleyelim. Gösterim satırına kadar seçme yapabileceğinizden bu işlemleri Göster satır 500 şeklinde işaretleyip tüm sayfalarınız için yapmanız gerektiği hatırlatayım.

Sonuç ; Bir sonraki boot taramasında tüm 404 URL hataları sıfırlanacaktır. Arama sorgularından sitenizin gösterim sayısının artığını gözlemleyebilirsiniz.

Robots.txt ile ilgili bir kaç ipucu:

Eğer robots.txt de bir problem olduğunu düşünüyorsanız ; Google ve Diğer Arama Motorları Robots.txt dosyasını UFT-8 formatında olmasını tercih eder. Bazen PHP işlemleri ile oluşturulan dosyalarda UFT-8 formatı BOM denilen Byte Order Mark ï »¿ işareti dosyanın başına eklenir, bu dosyanın Unicode yani evrensel bir karekter seti gösterdiğini belirtir. Robots.txt BOM içermeyecek şekilde oluşturulmalıdır. Notepad++ gibi bir arayüz ile robots.txt dosyasını açın ve UFT BOM dönüştür seçeneği ile kaydedin. Gereksiz boş satırları silin. Resmi formata göre, sitemaptan önce Allow: / kullanmak tavsiye edilir.
Bir başka nokta Boot sitenizi, site haritanız doğrultusunda hemen indekslemeyebilir sabır gösterip beklemelisiniz. Ben 3-4 gün içerisinde kısmi olarak indekslemenin başlayacağını düşünüyorum. Kalıcı bağlantınızın formatına bağlı olarak yani / sonlandırma kullandıysanız “Bir dizin olarak algılandı; belirli dosyaların farklı kısıtlamaları olabilir” uyarısı sayfanızın indekslenmeyeceği anlamında değildir.
Başka bir nokta ;
User-agent: * Disallow: /
sitenin tamamı Boot motorları tarafından engellenir. Eğer sadece
User-agent: * Disallow:
yazdığımızda yani / kullanmaz isek bu Allow: veya Allow: / yazılımlarına eşdeğerdir. Bootlar siteye erişebilir. 

Bir kuralın tüm dosyaları ve dizinleri etkilemesini istiyorsak / kullanalım.
Dosyaları veya dizinleri ayrı ayrı belirtmek için ;
/dizi/dosya.html /dizi/ornek/ 
Formatını da kullanabilirsiniz.
Yazar Hakkında :
Bu yazı networkdizayn.com site yönetimi tarafından yazılmıştır.