Robots.txt là file được sử dụng để hướng dẫn công cụ tìm kiếm của google tự động tìm kiếm đến những trang nào mà bạn muốn nó tìm kiếm và sau đó thì index trang đó. Hầu như trang web nào cũng có những thư mục và files không cần đến robot của công cụ tìm kiếm đến nó. Nhưng tạo ra file robots.txt có thể giúp bạn trong SEO để giúp chỉ số index đạt hiệu quả hơn.
file robots.txt như thế nào?
User-agent: googlebot
Disallow: /cgi-bin/
Disallow: Không cho phép các công cụ tìm kiếm truy cập vào thời điểm này, ví dụ trong trường hợp trên là không cho index thư những gì trong thư mục cgi-bin.
Điều này sẽ giúp cho bạn không chế sự index của công cụ tìm kiếm, có khi bạn lại không muốn yahoo index, đôi lúc bạn không mún các file trong thư mục nào đó bị công cụ tìm kiếm thấy được, giúp khắc phục lỗi 404 trên web, tạo ra một sự tin tưởng đối với công cụ tìm kiếm.
Disallow: /cgi-bin/
Trong đoạn mã trên User-agent: là tên của spider của công cụ tìm kiếm và trong trường hợp trên là bot của google thì sẽ được index.
Disallow: Không cho phép các công cụ tìm kiếm truy cập vào thời điểm này, ví dụ trong trường hợp trên là không cho index thư những gì trong thư mục cgi-bin.
Điều này sẽ giúp cho bạn không chế sự index của công cụ tìm kiếm, có khi bạn lại không muốn yahoo index, đôi lúc bạn không mún các file trong thư mục nào đó bị công cụ tìm kiếm thấy được, giúp khắc phục lỗi 404 trên web, tạo ra một sự tin tưởng đối với công cụ tìm kiếm.
Cho tất cả các công cụ tìm kiếm vào website của bạn index bằng cách khai báo file robots.txt:
User-agent: *
Những điều nên tránh
1. Không ghi chú thích:
Trong nhiều trường hợp thì bạn không nên chú thích ngay trong file.
“Disallow: support # Đừng index google bot”
2. Disallow đơn giản:
Bạn muốn Disallow nhiều thư mục thì trong file robots.txt và tránh khai báo quá khó khăn khiến nó không hểu vì sao luôn :
User-agent: *
Disallow: /abc /tintuc/ /images/
Như vậy thì con bot không hiểu là bạn viết gì, bạn cần đơn giản hơn như sau:
User-agent: *
Disallow: /abc
Disallow: /tintuc/
Disallow: /images/
3. Có phân biệt chữ hoa thường:
Bạn cũng nên để ý đến vấn đề này cũng nên chú ý nha các bạn bot đọc các lệnh trong robots.txt cũng phân biệt hoa thường rõ ràng, giả sử Disallow: /images/ mà viết Disallow: /Images/ thì nó sẽ pohand thôi.
4. Không nên đổi trật tự:
Đây là quy định bạn không nên thay đổi trật tự các dòng lệnh gây khó khăn cho các spider làm việc nhé. Ví dụ:
Disallow: /abc
User-agent: *
Điều này sẽ không tốt, làm mất giá trị của file. Một lưu ý nữa là không nên viết có khoảng trắng ở đầu dòng lệnh.
Tạo file robots.txt cho WordPress
Bây giờ chúng ta sẽ tạo file robots.txt cho blog WordPress, nó có các đặc trưng về thư mục Disallow…
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themesAllow: /wp-content/uploads# Google Image
User-agent: Googlebot-Image
Allow: /*
Các thư mục đặt biệt thì ta sẽ Disallow nó đồng thời Allow: /wp-content/uploads vì đây sẽ chưa các hình ảnh liên quan chủ đề bài viết … rất có lợi khi search hình ảnh trên google search.
Chúc các bạn vui vẻ. :D
2 nhận xét
Sếp cho em ? em tối ưu thẻ root.txt tùm lum | CÓ đợi nó còn chả nhận được còn chặn cơ
ReplyHIx
Mình mã nguồn PHP
Không phải WordPress
# Google Image
User-agent: Googlebot-Image
Allow: /*
có phù hợp không ạ
site em đây
http://clicktv.vn/
Sếp cho em ? em tối ưu thẻ root.txt tùm lum | CÓ đợi nó còn chả nhận được còn chặn cơ
ReplyHIx
Mình mã nguồn PHP
Không phải WordPress
# Google Image
User-agent: Googlebot-Image
Allow: /*
có phù hợp không ạ
site em đây
http://clicktv.vn/
Đăng nhận xét