File robots.txt là gì ?
Sau khi tạo web thì website của bạn như một ngôi nhà thì file Robots.txt chính là nội quy khi vào ngôi nhà đó. Việc đầu tiên mà khi khách(Spider của các máy tìm kiếm) đến nhà là phải đọc nội quy của ngôi nhà để biết chủ nhà có cho phép nó vào tham quan hay không ? Và nếu có thì cho vào những phòng nào và những phòng nào không được vào !
Chính vì vậy việc cấu hình file Robots.txt hợp lý là một việc rất quan trọng. Nếu website của bạn có những thông tin nhạy cảm, không muốn public thì hãy thiết lập ở đây. Ngoài ra cấu hình hợp lý còn giúp bạn rất tốt trong SEO.
Cách cài đặt file robots.txt
Robots.txt là một file văn bản có cấu trúc rất đơn giản, đặt ngay sau tên miền (ví dụ: http://inet.vn/robots.txt), được tạo bởi công cụ Notepad, dưới đây là một cấu trúc file đơn giản:
User-agent: *
Disallow: /audio/
Disallow: /login.html/
User-agent: là đối tượng bot được phép vào website. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image(Google), Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)… Ở đây sử dụng dấu “*” có nghĩa là cho phép tất cả các bot đều được truy cập vào.
Disallow: Chặn không cho bot truy cập vào. “/audio/”-chặn không cho truy cập vào thư mục audio, “login.html”-chặn bot truy cập vào trang login.html.
Những cú pháp thông dụng
Khóa toàn bộ site
Disallow: /
Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /audio/
Chặn 1 trang
Disallow: /admin.html
Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/hot.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình bất kỳ, ví dụ .jpg
User-agent: Googlebot
Disallow: /*.jpg$
Chú ý khi tạo file robots.txt
Phân biệt chữ hoa, chữ thường.
Không được viết thừa, thiếu khoảng trắng.
Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh, rất dễ gây nhầm lẫn cho bot.
Mỗi một câu lệnh nên viết trên 1 dòng.
Chúc bạn tạo và sử dụng file robots.txt hiệu quả.
0 Nhận xét