File Robots.txt là gì ? có định dạng text, nó giúp Webmaster có thể chỉ định ” bot ” của các công cụ tìm kiếm ( Search Engine – SE ), có thể vào lập chỉ mục ( Index ) hoặc không được vào các thư mục được chỉ định trước 

Robots.txt có nhiệm vụ dẫn đường và chỉ lối, đại loại như ê ” bot ” ( của Google ), mày được đi đường này, còn đường kia thì dừng lại nhé, đại loại là như thế :-P, nó sẽ được thu thập thông tin ở đâu, và không được thu thập thông tin ở đâu

Do đó nó rất quan trọng trong SEO

Có thể bạn quan tâm :

File Robots.txt là gì ?

Là file định dạng text, tệp này là một phần của Robots Exclusion Protocol (REP) chứa một nhóm các tiêu chuẩn web quy định cách robot web (hoặc robot của các công cụ tìm kiếm) thu thập dữ liệu trên web, truy cập, index nội dung và cung cấp nội dung đó cho người dùng, nói cho những con ” bot ” của máy tìm kiếm rằng 

Làm thế nào để thu thập thông tin và index các trang trên website đó

Robots.txt hoạt động ra sao ?

Các tham số có trong file robots.txt

Robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.

  • Crawl-Delay thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.
  • Dấu # được sử dụng trước các dòng cần comment.
  • Disallow là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.
  • User-agent Tên loại bot, ví dụ: Googlebot, Yahoo! Slurp
  • Allow Cho phép
  • Sitemap Đường dẫn sơ đồ của trang web.

Ví dụ :

User-Agent: * Allow: /wp-content/uploads/ Disallow: /wp-content/plugins/ Disallow: /wp-admin/ Sitemap: https://yourdomain.com/sitemap_index.xml

Với yourdomain.com là domain của bạn

Ghi chú: Dấu * thay cho chuỗi, có nghĩa là áp dụng với tất cả. Mỗi công cụ thu thập dữ liệu đều có một cái tên như googlebot, bingbot, coccocbot… nếu muốn chặn một loại bot cụ thể chúng ta sẽ khai báo tên cụ thể của loại bot đó.

File Robots.txt có thể được tìm thấy ở đâu ?

Bạn có thể tìm thấy file Robots.txt ở thư mục gốc của Website hay Folder chính của website

File Robots txt Nằm Ở Đâu
File Robots txt Nằm Ở Đâu

Bot sẽ đi đâu trên một Website

Bất kể khi nào đến với một Website, các công cụ tìm kiếm hay các Web crawler (ví dụ như Facebook’s crawler, Facebot) sẽ ngay lập tức tìm kiếm tệp robots.txt

Tuy nhiên, nó chỉ tìm ở một nơi cụ thể. Đó chính là thư mục chính (root domain hay trang chủ).

Ví dụ : nếu user-agent truy cập www.yourdomain.com/robots.txt và không tìm thấy tệp robots.txt ở đó, nó sẽ cho rằng trang web này không hề tạo file robots.txt cho wordpress.

Ngay lúc này nó sẽ tiến hành thu thập dữ liệu của toàn bộ trang web.

Một số trường hợp là các tệp robots.txt này có tồn tại nhưng không được tìm thấy bởi các web crawler. Mặc nhiên, nó sẽ được xử lí tương tự như trang web không được tạo file robots.txt cho wordpress.

Để đảm bảo các trình thu thập dữ liệu có thể tìm thấy được tệp robots.txt của bạn. Hãy luôn để nó trong các thư mục chính hoặc root domain.

Cách tạo và cấu hình file Robots.txt

Sử Dụng Yoast SEO để tạo File Robots.txt

Bạn vào Phần SEO/tools -> tiếp theo chọn File Editor trong Yoast SEO

Bên dưới là File cấu hình Robots.txt chuẩn của mình

User-agent: *
Disallow: /wp-admin/
Disallow: /readme.html
Disallow: /license.txt
Disallow: /?s=*
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*

Sitemap: https://mzengineer.com/sitemap_index.xml
Tạo File Robots txt Với Yoast SEO
Tạo File Robots txt Với Yoast SEO

Tạo file từ máy tính rồi Upload bằng FTP

Nếu bạn không muốn sử dụng plugin để tạo file robot.txt thì bạn có thể tự tạo file robots.txt thủ công cho wordpress bằng Notepad, hoặc Notepad ++, sau đó sử dụng FTP để upload lên thư mục gốc của Website

Cách Kiểm Tra  đã có File Robots.txt trên Website hay chưa

Bạn cần kiểm tra xem Website mình đã có file robots.txt hay không. Hãy nhập root domain của bạn, sau đó thêm /robots.txt vào cuối URL.

Nếu không có trang .txt xuất hiện, thì chắc chắn website bạn hiện không tạo robots.txt cho wordpress rồi

Tương tự, bạn có thể kiểm tra website của tôi MzEngineer.com có tạo file robots.txt hay không bằng cách như trên:

Nhập root domain (MzEngineer.com) > chèn /robots.txt vào cuối (kết quả là MzEngineer.com /robots.txt) > Nhấn Enter

Ví dụ : https://mzengineer.com/robots.txt

Lời Kết

Qua bài viết này, đã giúp các bạn hiểu thêm về file Robots.txt, nó giúp gì trong SEO, nếu gặp bất cứ thắc mắc nào trong quá trình tạo hoặc edit file Robots.txt, hãy comment bên dưới, mình sẽ hỗ trợ nhé.

Nếu bài viết có ích hãy LikeShare, và đừng quên đánh giá bài viết bên dưới nhé.

Nguồn MzEngineer.com

LEAVE A REPLY

Please enter your comment!
Please enter your name here