Tệp robots.txt vẫn được các công cụ tìm kiếm ưu tiên khi phân tích, khi đọc nội dung trong tệp các bot thu thập biết được các liên kết nào được phép thu thập và lập chỉ mục và các liên kết nào đang bị chặn.
Mỗi trình thu thập đều có một tên riêng được chỉ định rõ ràng trong nội dung tệp robots.txt như ví dụ sau: Google - Googlebot, Bing - Bingbot, Yahoo - Yahoobot, Twitter - Twitterbot, Facebook - Facebot..., ngoài ra bạn có thể chỉ định không rõ ràng bằng thuộc tính (*)
Sau mỗi loại bot được thêm bằng 2 quy tắc: Allow (cho phép) và Disallow (chặn)
Cách tạo tệp robots.txt
Cấu trúc của tệp robots.txt có nội dung như sau:User-agent: Tên bot của công cụ tìm kiếm Disallow: Liên kết bị chặn Allow: Liên kết cho phép Sitemap: <domain>/sitemap.xml Sơ đồ trang webVí dụ minh họa:
Giả sử mình sẽ cho phép các bot của Google, Twitter, Facebook, đối tác Google (Adsense) thu thập dữ liệu như sau:
User-agent: Googlebot User-agent: Twitterbot User-agent: Facebot Disallow: /p Disallow: /search Allow: / User-agent: Mediapartners-Google Allow: / Sitemap: https://vozblogger.blogspot.com/sitemap.xmlKhi đọc nội dung trong tệp hiểu được với các bot của Google, Twitter, Facebook chặn tất cả các liên kết trang tĩnh (/p) và các trang tìm kiếm (/search) và cho phép đối tác Google Mediapartners-Google thu thập tất cà liên kết.
Thêm quy tắc lọc từ những liên kết đã chặn hoặc chặn một liên kết từ các liên kết cho phép
Giả sử trong 2 quy tắc: Disallow: /p và Disallow: /search thêm quy tắc Allow lọc lấy các liên kết có trong các liên kết bị chặn này và chặn một liên kết từ các liên kết Allow: /, ví dụ:
User-agent: Googlebot User-agent: Twitterbot User-agent: Facebot Disallow: /p Disallow: /search Disallow: /2020/03/huong-dan-them-the-meta-day-du-chinh-xac-va-khong-bi-trung-lap.html Allow: / Allow: /p/about-us.html Allow: /search/label/blogspot-seo User-agent: Mediapartners-Google Allow: / Sitemap: https://vozblogger.blogspot.com/sitemap.xmlThêm quy tắc (*) lọc nâng cao
Disallow: *?showComment=* Disallow: *?spref=fb Disallow: *?spref=tw Disallow: *?spref=gp Disallow: *?spref=pi Disallow: *?utm_source=*Với quy tắc thêm (*) này, không cần biết liên kết nào cứ liên kết có các giá trị đằng sau dấu (*) đều sẽ bị chặn.
Created by Voz Blogger
Một số lưu ý khi bình luận
Không đăng bình luận có nội dung khiêu dâm, 18+
Không đăng bình luận có liên quan đến chính trị, nhà nước.
Không đăng bình luận có nội dung phản động, kích động chiến tranh, thù địch.
Không đăng bình luận có nội dung phản cảm, bêu rếu, nói xấu.
Không đăng bình luận có nội dung tục tiểu, bậy bạ hay thậm chí "vô học".
Không đăng bình luận có liên kết spam, dẫn đến những trang có nội dung xấu.
Được đăng bình luận có mang tính đóng góp, xây dựng bài viết / blog.
Được đăng bình luận có liên quan đến nội dung bài viết.
Có thể góp ý, hay báo lỗi bài viết (thiếu ý, sai chính tả hay thiếu hình ảnh minh họa).
Post a Comment