Robots.txt là một tệp tin văn bản nằm trong thư mục gốc của website và cung cấp cho các công cụ tìm kiếm hướng dẫn cách thu thập thông tin về các trang mà họ có thể sử dụng để lập chỉ mục.

Khi bạn làm việc về SEO kỹ thuật, file robots.txt là một trong những thứ đầu tiên bạn cần kiểm tra và tối ưu hóa. Sự cố hoặc cấu hình sai trong robots.txt có thể dẫn đến các vấn đề SEO nghiêm trọng có thể ảnh hưởng đến thứ hạng và lượng truy cập của bạn.

Bài đăng này của Terus sẽ giải thích về file robots.txt là gì? Tại sao nó quan trọng và làm thế nào nó có thể được sử dụng để tối ưu hóa SEO.

Robots.txt Là Gì? Cách Tối Ưu SEO Và Xác Nhận Robots.txt
Robots.txt Là Gì? Cách Tối Ưu SEO Và Xác Nhận Robots.txt

I. Robots.txt là gì?

Robots.txt là một tệp tin văn bản nằm trong thư mục gốc của website và cung cấp cho các công cụ tìm kiếm hướng dẫn cách thu thập thông tin về các trang mà họ có thể sử dụng để lập chỉ mục.

Nếu bạn đã đọc bài trước của Terus về cách các công cụ tìm kiếm hoạt động. Bạn sẽ biết rằng trong quá trình thu thập thông tin và lập chỉ mục. Các công cụ tìm kiếm cố gắng tìm các website có sẵn trên internet để đưa vào chỉ mục của chúng.

Công cụ tìm kiếm tìm và kiểm tra nội dung của tệp robots.txt lần đầu tiên khi truy cập website. Chúng tạo ra một danh sách các URLs có thể thu thập dữ liệu dựa trên các quy tắc trong tệp và sau đó tạo chỉ mục riêng cho website.

Nếu bạn không có tệp robots.txt, điều gì sẽ xảy ra? Nếu không có tệp robots.txt, trình thu thập dữ liệu của công cụ tìm kiếm giả sử rằng tất cả các trang có sẵn trên website của bạn đều ở chế độ công khai, điều này cho phép nó thu thập dữ liệu và sau đó thêm nó vào chỉ mục.

  1. Tại sao lại sử dụng robots.txt?
  2. Hai điều quan trọng cần biết về robots.txt

1. Tại sao lại sử dụng robots.txt?

Ngay cả khi bạn không muốn các trang hoặc thư mục của website xuất hiện trong kết quả của công cụ tìm kiếm, robots.txt vẫn phải có. Để chặn các công cụ tìm kiếm truy cập các trang hoặc thư mục cụ thể của website của bạn.

Thu thập thông tin và lập chỉ mục có thể rất tốn tài nguyên nếu website của bạn rộng lớn. Trình thu thập dữ liệu sử dụng các công cụ tìm kiếm sẽ cố gắng thu thập thông tin và tạo chỉ mục cho toàn bộ website của bạn, điều này có thể dẫn đến các vấn đề về hiệu năng nghiêm trọng.

robots.txt giúp chỉ dẫn các con bot của google

Trong trường hợp này, bạn có thể sử dụng robots.txt để hạn chế quyền truy cập vào một số phần cụ thể của website mà không ảnh hưởng đến thứ hạng hoặc tính năng tìm kiếm công cụ. Bằng cách này, bạn không chỉ giảm tải trên máy chủ của mình mà còn giảm tải toàn bộ máy chủ của bạn.

Khi bạn chọn sử dụng liên kết liên kết rút gọn, che giấu nội dung hoặc URL để lừa người dùng hoặc công cụ tìm kiếm không phải là một phương pháp hợp pháp để cải thiện quản lý liên kết của bạn.

2. Hai điều quan trọng cần biết về robots.txt

Đầu tiên, bất kỳ quy tắc nào bạn thêm vào robots.txt phải được coi là hướng dẫn. Điều này có nghĩa là công cụ tìm kiếm phải tuân thủ và tuân thủ các tiêu chuẩn bạn đã đặt ra.

Phần lớn thời gian, công cụ tìm kiếm liên quan đến việc thu thập và lập chỉ mục. Tuy nhiên, nếu bạn có nội dung mà bạn không muốn nằm trong chỉ mục của họ, thì cách tốt nhất là bảo vệ thư mục hoặc trang cụ thể bằng mật khẩu.

Thứ hai, nếu trang hoặc thư mục robots.txt bị chặn, nó vẫn có thể xuất hiện trong kết quả tìm kiếm nếu nó có liên kết đến các trang khác đã được lập chỉ mục. Nói cách khác, việc thêm trang mà bạn muốn chặn vào robots.txt không đảm bảo nó sẽ bị xóa hoặc không hiển thị trên internet.

II. Robots.txt hoạt động như thế nào?

Tệp robot có một cấu trúc rất đơn giản. Bạn có thể sử dụng một số kết hợp từ khóa/giá trị đã được xác định trước. Các tùy chọn người dùng phổ biến nhất bao gồm cấm, cho phép, cho phép, chậm truy cập và sitemap.

Cách robots.txt hoạt động

Người sử dụng: Chỉ định trình thu thập dữ liệu được sử dụng trong các chỉ thị. Bạn có thể cho tất cả các trình thu thập thông tin bằng cách sử dụng một "*" hoặc, nếu bạn không thích, bạn có thể đặt tên của trình thu thập thông tin như trong ví dụ sau.

Bạn có thể xem tất cả các tên và giá trị có sẵn cho chỉ thị user-agent:

User-agent: * – bao gồm tất cả trình thu thập thông tin.
User-agent: Googlebot – chỉ dành cho Google bot.

Các giá trị

Disallow: Chỉ thị hướng dẫn các bot (được chỉ định ở trên) không thu thập dữ liệu URL hoặc một phần của website.

Giá trị của disallow có thể là một tệp, URL hoặc thư mục cụ thể. Xem ví dụ dưới đây được thực hiện từ bộ phận hỗ trợ kỹ thuật của Google.

Robots.txt hoạt động như thế nào

Allow: Chỉ thị xác định các trang hoặc thư mục con có thể truy cập. Điều này chỉ liên quan đến Googlebot.

Bạn có thể sử dụng Allow để cho phép truy cập vào một thư mục con nhất định trên website của bạn, ngay cả khi thư mục gốc là không được phép.

Delay crawler: Bạn có thể đặt một giá trị để công cụ tìm kiếm thu thập dữ liệu đợi một khoảng thời gian nhất định trước khi thu thập dữ liệu từ website tiếp theo. Giá trị bạn nhập đơn vị là mili giây.

Lưu ý rằng Googlebot không xem xét sự chậm trễ Crawl này

Trong trường hợp website của bạn có hàng ngàn trang và bạn không muốn quá tải máy chủ của mình với các yêu cầu liên tục, Crawl-delay có thể được sử dụng. Chỉ thị thu thập dữ liệu trễ này thường không nên được sử dụng.

Sitemap: Chỉ thị sitemap, được hỗ trợ bởi các công cụ tìm kiếm chính, bao gồm Google, được sử dụng để chỉ định vị trí của Sơ đồ website XML của bạn.

Các công cụ tìm kiếm vẫn có thể tìm thấy sơ đồ trang XML trong robot.txt ngay cả khi bạn không đặt nó ở đó.

III. Cách tạo file robots.txt

Tạo tệp robots.txt là một vấn đề đơn giản. Tất cả những gì bạn cần là một trình soạn thảo văn bản - tôi thường sử dụng notepad - và khả năng truy cập các tệp trên website của bạn bằng cách sử dụng bảng điều khiển quản lý hosting hoặc File Transfer Protocol.

Trước khi bắt đầu quá trình tạo tệp tin robot. Điều đầu tiên cần làm là xác minh rằng nó đã được tạo. Để thực hiện điều này, cách dễ nhất là mở cửa sổ trình duyệt mới và truy cập đến https://www.tênmiền.com/robots.txt.

Nếu bạn thấy một thứ tương tự như dưới đây, có nghĩa là bạn đã có tệp robots.txt. Thay vì tạo một tệp mới, bạn có thể chỉnh sửa tệp hiện tại.

Cách điều chỉnh robots.txt:

IV. Cách kiểm tra và xác nhận hợp lệ cho robots.txt?

Bạn có thể xem nội dung robots.txt của mình bằng cách truy cập URL robots.txt. Nhưng cách tốt nhất để kiểm tra và xác nhận nội dung là sử dụng tùy chọn robots.txt Tester trong Google Search Console.

Nếu mọi thứ đều ổn, nút kiểm tra sẽ chuyển sang màu xanh và nhãn sẽ thay đổi sang "Được phép". Đường kẻ gây ra lỗi sẽ được đánh dấu khi có sự cố.

URL Tester là một công cụ mà bạn có thể sử dụng để nhập URL của website của bạn và kiểm tra xem nó có bị chặn hay không.

Mặc dù bạn có thể sửa đổi trình soạn thảo và xem xét các quy tắc mới, nhưng bạn phải chỉnh sửa tệp của mình bằng trình chỉnh sửa văn bản và tải tệp lên thư mục gốc của website của mình để các ứng dụng này được áp dụng cho robots.txt.

Để thông báo cho Google rằng bạn đã sửa đổi robots.txt, nhấp vào nút SUBMIT. Sau đó, nhấp vào nút SUBMIT một lần nữa trong cửa sổ bật lên.

V. Robots.txt với WordPress?

Tất cả những gì bạn đọc cho đến nay về robots.txt cũng áp dụng cho các website WordPress. Những điều bạn cần biết về robots.txt và WordPress là như sau:

WordPress mặc định sử dụng tệp robots.txt ảo. Điều này có nghĩa là bạn không thể trực tiếp chỉnh sửa tập tin hoặc tìm nó trong thư mục gốc của thư mục của bạn.

Cách duy nhất để xem nội dung của tệp là gõ https://www.tênmiền.com/robots.txt trong trình duyệt của bạn. Các giá trị mặc định của WordPress robots.txt là:

User-agent: *
Disallow: / wp-admin /
Allow: /wp-admin/admin-ajax.php

Sử dụng Plugin Yoast SEO, mọi thứ trở nên dễ dàng hơn. Chỉ cần vào SEO -> Tools -> File editor và thay đổi nội dung file robots.txt, sau đó lưu lại.

Chọn chặn tất cả các công cụ tìm kiếm trên website là một điều thường gặp khi cài đặt WordPress. Tôi cũng thường làm điều này khi mới bắt đầu xây dựng một website WordPress. Nhưng sau khi hoàn thành, tôi sẽ mở nó cho các công cụ tìm kiếm.

VI. Tổng kết

Bài viết là tất cả những gì Terus muốn gửi đến bạn về Robots.txt. Cảm ơn bạn đã đọc hết bài viết. Nếu bạn có bất cứ yêu cầu gì về Terus có thể liên hệ Terus tại đây nhé!

Theo dõi Terus tại:

FAQ - Giải đáp các thắc mắc liên quan đến Robots.txt

1. Robots.txt là gì?

Robots.txt là một tập tin văn bản được sử dụng để hướng dẫn các trình thu thập dữ liệu web (web crawler) của các công cụ tìm kiếm như Google, Bing và Yahoo về cách truy cập và thu thập thông tin từ một website. Robots.txt nằm trong thư mục gốc của website và có thể được truy cập tại địa chỉ https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt (thay thế example.com bằng tên miền của website bạn).

2. Tại sao Robots.txt lại quan trọng?

Robots.txt đóng vai trò quan trọng trong SEO vì nó giúp bạn kiểm soát cách các công cụ tìm kiếm thu thập thông tin từ website của bạn. Bạn có thể sử dụng Robots.txt để:

3. Cách tối ưu Robots.txt cho SEO:

Dưới đây là một số mẹo để tối ưu Robots.txt cho SEO:

Đọc thêm:

terus-logo-profile
Cập nhật lúc 16 Tháng 11, 2024