Tệp robots.txt có ngăn trang web của bạn được thu thập thông tin đúng cách không? Tìm hiểu cách chúng hoạt động và cách tự tạo một cái để trang web của bạn xuất hiện trong kết quả tìm kiếm.

Bạn có thể ngạc nhiên khi biết rằng một tệp văn bản nhỏ, được gọi là robots.txt, có thể là lỗi trang web của bạn.

Nếu bạn sử dụng không đúng cách, bạn có thể yêu cầu rô bốt công cụ tìm kiếm không thu thập dữ liệu toàn bộ trang web của bạn, có nghĩa là nó sẽ không xuất hiện trong kết quả tìm kiếm. Do đó, điều quan trọng là phải hiểu mục đích của tệp robots.txt, cách kiểm tra tệp và cách triển khai chính xác.

Robots.txt là gì?

Một tệp robot.txt là gì còn được gọi là crawlers, những trang hoặc tập tin chủ sở hữu miền không muốn họ ‘bò’. Bots truy cập trang web của bạn và sau đó lập chỉ mục (lưu) các trang web và tệp của bạn trước khi liệt kê chúng trên các trang kết quả của công cụ tìm kiếm.

Nếu bạn không muốn Google và các công cụ tìm kiếm khác liệt kê các trang hoặc tệp nhất định, bạn cần chặn chúng bằng cách sử dụng tệp robots.txt của mình.

Bạn có thể kiểm tra xem trang web của mình có tệp robots.txt hay không bằng cách thêm /robots.txt ngay sau tên miền của bạn trong thanh địa chỉ ở trên cùng:

URL bạn nhập phải có định dạng [domain.com/ robots.txt ] hoặc [subdomain.domain.com/ robots.txt ] cho các miền phụ.

Làm thế nào nó hoạt động?

Trước khi công cụ tìm kiếm thu thập dữ liệu trang web của bạn, nó sẽ xem xét tệp robots.txt của bạn để biết hướng dẫn về những trang nào chúng được phép thu thập thông tin và lập chỉ mục trong kết quả của công cụ tìm kiếm.

Tệp Robots.txt rất hữu ích nếu bạn muốn các công cụ tìm kiếm không lập chỉ mục:

  • Các trang trùng lặp hoặc bị hỏng trên trang web của bạn
  • Các trang kết quả tìm kiếm nội bộ
  • Các khu vực nhất định trên trang web của bạn hoặc toàn bộ miền
  • Các tệp nhất định trên trang web của bạn như hình ảnh và PDF
  • Trang đăng nhập
  • Tổ chức trang web cho nhà phát triển
  • Sơ đồ trang web XML của bạn

Sử dụng tệp robots.txt cho phép bạn loại bỏ các trang không có giá trị gì, vì vậy thay vào đó, các công cụ tìm kiếm sẽ tập trung vào việc thu thập thông tin các trang quan trọng nhất. Công cụ tìm kiếm có “ngân sách thu thập thông tin” giới hạn và chỉ có thể thu thập thông tin một số lượng trang nhất định mỗi ngày , vì vậy bạn muốn cho chúng cơ hội tốt nhất để tìm thấy các trang của bạn một cách nhanh chóng bằng cách chặn tất cả các URL không liên quan.

Bạn cũng có thể triển khai độ trễ thu thập thông tin , điều này yêu cầu rô bốt đợi một vài giây trước khi thu thập dữ liệu các trang nhất định, để không làm quá tải máy chủ của bạn. Lưu ý rằng Googlebot không thừa nhận lệnh này, vì vậy thay vào đó, hãy tối ưu hóa ngân sách thu thập thông tin của bạn để có giải pháp mạnh mẽ hơn và phù hợp hơn trong tương lai.

Cách tạo tệp robots.txt

Nếu bạn hiện không có tệp robots.txt, bạn nên tạo một tệp càng sớm càng tốt. Để làm như vậy, bạn cần:

    • Tạo một tệp văn bản mới và đặt tên là “robots.txt” – Sử dụng trình soạn thảo văn bản như chương trình Notepad trên PC Windows hoặc TextEdit cho Mac và sau đó “Lưu dưới dạng” một tệp được phân tách bằng văn bản, đảm bảo rằng phần mở rộng của tệp được đặt tên là “.txt”
    • Tải nó lên thư mục gốc của trang web của bạn – Đây thường là một thư mục cấp gốc có tên là “htdocs” hoặc “www” làm cho nó xuất hiện ngay sau tên miền của bạn
    • Tạo tệp robots.txt cho từng miền phụ – Chỉ khi bạn sử dụng bất kỳ miền phụ nào
    • Kiểm tra – Kiểm tra tệp robots.txt bằng cách nhập yourdomain.com/robots.txt vào thanh địa chỉ của trình duyệt

Những gì cần đưa vào tệp robots.txt của bạn

Thường có những bất đồng về những gì nên và không nên đưa vào tệp robots.txt.

Robots.txt không có nghĩa là để ẩn các trang an toàn cho trang web của bạn, do đó, vị trí của bất kỳ trang quản trị hoặc trang riêng tư nào trên trang web của bạn không nên được đưa vào tệp robots.txt vì trên thực tế, nó làm nổi bật vị trí của chúng cho người khác. Nếu bạn muốn ngăn không cho rô bốt truy cập vào bất kỳ nội dung riêng tư nào trên trang web của mình một cách an toàn thì bạn cần đặt mật khẩu bảo vệ khu vực chúng được lưu trữ.

Nhắc nhở: Tệp robots.txt được thiết kế để chỉ hoạt động như một hướng dẫn cho rô bốt web và không phải tất cả chúng đều tuân theo hướng dẫn của bạn.

Ví dụ về Robots.txt

Hãy xem các ví dụ khác nhau về cách bạn có thể muốn sử dụng tệp robots.txt. Lưu ý rằng bạn có thể thêm nhận xét vào tệp bằng cách tiếp tục dòng có thẻ bắt đầu bằng # ( # ).

Cho phép mọi thứ và gửi sơ đồ trang web – Đây là tùy chọn tốt nhất cho hầu hết các trang web vì nó cho phép tất cả các công cụ tìm kiếm thu thập thông tin đầy đủ về trang web và lập chỉ mục tất cả dữ liệu của nó. Nó thậm chí còn hiển thị cho các công cụ tìm kiếm vị trí của sơ đồ trang XML để họ có thể tìm thấy các trang mới rất nhanh vì nó thường xuyên kiểm tra sơ đồ trang web để tìm các thay đổi:

User-agent: *

Allow: /
#Sitemap Reference
Sitemap:http://www.example.com/sitemap.xml

Cho phép mọi thứ ngoài một thư mục con –  Đôi khi bạn có thể có một khu vực trên trang web của mình mà bạn không muốn công cụ tìm kiếm hiển thị trong kết quả của công cụ tìm kiếm. Đây có thể là khu vực thanh toán, các tệp hình ảnh nhạy cảm, một phần không liên quan của diễn đàn hoặc phần dành cho người lớn của trang web, chẳng hạn như được hiển thị bên dưới. Bất kỳ URL nào bao gồm đường dẫn không được phép sẽ bị công cụ tìm kiếm loại trừ:

User-agent: *
Allow: /

# Disallowed Sub-Directories
Disallow: /checkout/
Disallow: /secret-website-images/
Disallow: /forum/off-topic-random-chat/
Disallow: /adult-only-chat/

Cho phép mọi thứ ngoài một số tệp nhất định – Đôi khi bạn có thể muốn hiển thị phương tiện trên trang web của mình hoặc cung cấp tài liệu nhưng không muốn chúng xuất hiện trong kết quả tìm kiếm hình ảnh, bản xem trước mạng xã hội hoặc danh sách công cụ tìm kiếm tài liệu. Các tệp bạn có thể muốn chặn có thể là bất kỳ tệp GIF động, hướng dẫn sử dụng PDF hoặc bất kỳ tệp PHP nào, ví dụ như được hiển thị bên dưới:

User-agent: *
Allow: /

# Disallowed File Types
Disallow: /*.gif$
Disallow: /*.pdf$
Disallow: /*.PDF$
Disallow: /*.php$

Cho phép mọi thứ ngoài các trang nhất định – Một số trang trên trang web của bạn có thể không phù hợp để hiển thị trong kết quả của công cụ tìm kiếm và bạn cũng có thể chặn các trang riêng lẻ này bằng cách sử dụng tệp robots.txt. Các trang web mà bạn có thể muốn chặn có thể là trang điều khoản và điều kiện của bạn, bất kỳ trang nào bạn muốn xóa nhanh chóng vì lý do pháp lý hoặc một trang có thông tin nhạy cảm mà bạn không muốn tìm kiếm. Hãy nhớ rằng mọi người vẫn có thể đọc các trang không được tệp robot.txt cho phép ngay cả khi bạn không hướng chúng đến đó từ các công cụ tìm kiếm. Ngoài ra, các trang sẽ vẫn được nhìn thấy bởi một số bot trình thu thập thông tin cẩn thận:

User-agent: *
Allow: /

# Disallowed Web Pages
Disallow: /hidden-evil-contract-terms.html
Disallow: /blog/how-to-blow-up-the-moon
Disallow: /secret-list-of-bounty-hunters.php

Cho phép mọi thứ ngoại trừ một số mẫu URL nhất định – Cuối cùng, bạn có thể có một mẫu URL khó xử mà bạn có thể không cho phép, có thể trùng lặp nội dung hoặc không có ích trong bất kỳ danh sách công cụ tìm kiếm nào. Ví dụ về các mẫu URL mà bạn có thể muốn chặn có thể là các trang kết quả tìm kiếm nội bộ, các trang kiểm tra còn sót lại từ quá trình phát triển hoặc các trang tiếp theo sau trang đầu tiên của trang danh mục Thương mại điện tử ( xem thêm về chuẩn hóa ):

User-agent: *
Allow: /

# Disallowed URL Patterns
Disallow: /*search=
Disallow: /*_test.php$
Disallow: /*?pageNumber=*

Để tất cả chúng cùng nhau

Rõ ràng, bạn có thể muốn sử dụng kết hợp các phương pháp này để chặn các khu vực khác nhau trên trang web của mình. Những điều quan trọng cần nhớ là:

  • Nếu bạn không cho phép một thư mục con thì BẤT KỲ tệp, thư mục con hoặc trang web nào trong mẫu URL đó sẽ không được phép
  • Biểu tượng dấu sao ( * ) thay thế cho bất kỳ ký tự hoặc số ký tự nào
  • Ký hiệu đô la ( $ ) biểu thị phần cuối của URL, nếu không sử dụng ký hiệu này để chặn phần mở rộng tệp, bạn có thể vô tình chặn một số lượng lớn URL
  • Các URL được so khớp phân biệt chữ hoa chữ thường vì vậy bạn có thể phải đặt cả phiên bản viết hoa và không giới hạn để nắm bắt tất cả
  • Các công cụ tìm kiếm có thể mất vài ngày đến vài tuần để nhận thấy một URL không được phép và xóa nó khỏi chỉ mục của họ
  • Các “ User-agent ” thiết lập cho phép bạn chặn bot bánh xích nhất định hoặc đối xử với họ khác nhau nếu cần thiết, một danh sách đầy đủ của chương trình user agent có thể được tìm thấy ở đây để thay thế cho-tất cả bắt biểu tượng sao (*).

Nếu bạn vẫn còn phân vân hoặc lo lắng về việc tạo tệp robot.txt thì Google có một công cụ kiểm tra hữu ích trong Search Console . Chỉ cần đăng nhập vào Search Console ( sau khi thiết lập ) và chỉ cần chọn trang web từ danh sách và Google sẽ trả lại ghi chú cho bạn và đánh dấu bất kỳ lỗi nào.

  • Kiểm tra tệp robots.txt của bạn bằng Trình kiểm tra Robots.txt của Google

Google đã tổng hợp một cái nhìn tổng quan về những gì bị chặn và những gì không bị chặn trên trang tệp robots.txt chuyên sâu của họ :

Những gì không được đưa vào tệp robots.txt của bạn (trừ khi cần thiết)

Đôi khi, một trang web có tệp robots.txt bao gồm lệnh sau:

User-agent: *
Disallow: /

Điều này nói với tất cả các bot bỏ qua miền TOÀN BỘ, nghĩa là không có trang web hoặc tệp nào được liệt kê bởi các công cụ tìm kiếm!

Ví dụ nói trên nhấn mạnh tầm quan trọng của việc triển khai đúng cách tệp robots.txt, vì vậy hãy nhớ kiểm tra tệp của bạn để đảm bảo bạn không vô tình hạn chế cơ hội được lập chỉ mục bởi các công cụ tìm kiếm.

Lưu ý: Trong khi phát triển các trang web, bạn có thể cần phải chặn toàn bộ khu vực phát triển bằng kỹ thuật này. Chỉ cần đảm bảo không sao chép tệp robots.txt không cho phép này khi tất cả hoạt động!

Kiểm tra tệp Robots.txt của bạn

Bạn có thể kiểm tra tệp robots.txt của mình để đảm bảo nó hoạt động như bạn mong đợi – bạn nên làm điều này ngay cả khi bạn nghĩ rằng tất cả đều đúng.

Vào Google Search Console ( sau khi thiết lập ) và chuyển đến báo cáo Mức độ phù hợp ở phía bên trái. Báo cáo này sẽ hiển thị cho bạn các cảnh báo, lỗi hiện tại và thông tin khác về các trang bị chặn trên trang web trong tab “Bị loại trừ”:

Điều gì xảy ra nếu bạn không có tệp robots.txt?

Nếu không có tệp robots.txt, các công cụ tìm kiếm sẽ có quyền thu thập thông tin và lập chỉ mục bất kỳ thứ gì họ tìm thấy trên trang web. Điều này là tốt cho hầu hết các trang web, nhưng thậm chí sau đó, thực hành tốt là ít nhất chỉ ra vị trí sơ đồ trang web XML của bạn nằm ở đâu để các công cụ tìm kiếm có thể nhanh chóng tìm thấy nội dung mới trên trang web của bạn, tối ưu hóa ngân sách thu thập thông tin của họ – đọc thêm về chủ đề này .

Nguồn:hallaminternet

LEAVE A REPLY

Please enter your comment!
Please enter your name here