File robots.txt là gì ?


Sau khi tạo web thì website của bạn như một ngôi nhà thì file Robots.txt chính là nội quy khi vào ngôi nhà đó. Việc đầu tiên mà khi khách(Spider của các máy tìm kiếm) đến nhà là phải đọc nội quy của ngôi nhà để biết chủ nhà có cho phép nó vào tham quan hay không ? Và nếu có thì cho vào những phòng nào và những phòng nào không được vào !

Chính vì vậy việc cấu hình file Robots.txt hợp lý là một việc rất quan trọng. Nếu website của bạn có những thông tin nhạy cảm, không muốn public thì hãy thiết lập ở đây. Ngoài ra cấu hình hợp lý còn giúp bạn rất tốt trong SEO.




Cách cài đặt file robots.txt


Robots.txt là  một file văn bản có cấu trúc rất đơn giản, đặt ngay sau tên miền (ví dụ: http://inet.vn/robots.txt), được tạo bởi công cụ Notepad, dưới đây là một cấu trúc file đơn giản:

User-agent: *
Disallow: /audio/
Disallow: /login.html/

User-agent: là đối tượng bot được phép vào website. Có rất nhiều loại bot như: Googlebot (Google), Googlebot-Image(Google),  Yandex(SE của Nga), Bingbot(Bing)/Yahoo Slurp(Yahoo)… Ở đây sử dụng dấu “*” có nghĩa là cho phép tất cả các bot đều được truy cập vào.
Disallow: Chặn không cho bot truy cập vào. “/audio/”-chặn không cho truy cập vào thư mục audio, “login.html”-chặn bot truy cập vào trang login.html.
Những cú pháp thông dụng

Khóa toàn bộ site
Disallow: /

Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /audio/

Chặn 1 trang
Disallow: /admin.html

Loại bỏ 1 hình từ  Google Images
User-agent: Googlebot-Image
Disallow: /images/hot.jpg

Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /

Chặn 1 file hình bất kỳ, ví dụ .jpg
User-agent: Googlebot
Disallow: /*.jpg$

Chú ý khi tạo file robots.txt

Phân biệt chữ hoa, chữ thường.
Không được viết thừa, thiếu khoảng trắng.
Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh, rất dễ gây nhầm lẫn cho bot.

Mỗi một câu lệnh nên viết trên 1 dòng.
Chúc bạn tạo và sử dụng file robots.txt hiệu quả.