Robots.txt là gì? cách sử dụng

Nếu bạn chưa nghe nói về Mr. Robots, đừng tự trách mình. Nó thậm chí chưa có trên bản đồ SEO cho đến chỉ một vài năm trước. Tuy nhiên, hầu hết các bạn đều biết nó là gì nhưng không biết chính xác cách thống trị robot.

Tệp robots.txt không có gì bí mật. Bạn có thể theo dõi tệp rô bốt của bất kỳ ai theo nghĩa đen bằng cách chỉ cần nhập “www.domain.com/robots.txt”. Robots.txt phải luôn luôn và chỉ ở trong thư mục gốc của miền và MỌI trang web phải có một, ngay cả khi nó là chung và tôi sẽ cho bạn biết lý do.

Có nhiều thông tin liên lạc lẫn lộn về rô bốt. Sử dụng nó. Đừng sử dụng nó. Sử dụng siêu rô bốt. Bạn cũng có thể đã nghe lời khuyên từ bỏ tất cả các tệp robots.txt cùng nhau. Ai đúng?

Đây là bí kíp bí mật. Kiểm tra nó ra.

Trước tiên, hãy hiểu rằng tệp robots.txt không được thiết kế để con người sử dụng. Nó được thiết kế để ra lệnh cho các ‘bot’ tìm kiếm về cách chúng có thể hoạt động chính xác trên trang web của bạn. Nó thiết lập các tham số mà bot phải tuân theo và yêu cầu thông tin nào chúng có thể và không thể truy cập.

Các bài viết liên quan:

Điều này rất quan trọng đối với thành công SEO trang web của bạn. Bạn không muốn các bot nhìn qua tủ quần áo bẩn thỉu của bạn, có thể nói như vậy.

File Robots.txt là gì?

Tệp robots.txt không hơn gì một tệp văn bản đơn giản luôn nằm trong thư mục gốc của trang web của bạn. Một khi bạn hiểu các định dạng phù hợp, đó là một miếng bánh để tạo ra. Hệ thống này được gọi là Tiêu chuẩn loại trừ rô bốt.

Robots.txt là một tệp văn bản đặt trên một trang web để chỉ định cho các robot tìm kiếm những phần nào của trang web nên hoặc không nên truy cập. Các nội dung chính của tệp robots.txt bao gồm:

  1. User-agent: Đây là phần đầu tiên trong tệp robots.txt và chỉ định tên của các robot tìm kiếm mà tệp sẽ áp dụng. Nếu bạn muốn chỉ định cho tất cả các robot tìm kiếm thì bạn có thể sử dụng dấu sao (*).
  2. Disallow: Đây là phần quan trọng nhất của tệp robots.txt và chỉ định những phần nào của trang web bạn không muốn cho các robot tìm kiếm truy cập. Bạn có thể chỉ định một thư mục hoặc một trang cụ thể, hoặc sử dụng dấu sao (*) để từ chối truy cập vào toàn bộ trang web.
  3. Allow: Đây là phần tùy chọn và chỉ định những phần nào của trang web bạn cho phép các robot tìm kiếm truy cập, ngay cả khi đã bị từ chối trong phần Disallow.
  4. Sitemap: Đây là phần cuối cùng của tệp robots.txt và chỉ định đường dẫn đến bản đồ trang web của trang web. Bản đồ trang web giúp các robot tìm kiếm hiểu được cấu trúc của trang web của bạn và tìm kiếm các trang được lập chỉ mục một cách nhanh chóng và dễ dàng hơn.

Luôn đảm bảo tạo tệp trong trình soạn thảo văn bản cơ bản như Notepad hoặc TextEdit chứ KHÔNG phải trong trình soạn thảo HTML như Dreamweaver hoặc FrontPage. Điều đó cực kỳ quan trọng. Tệp robots.txt KHÔNG phải là một tệp html và thậm chí không gần với bất kỳ ngôn ngữ web nào từ xa. Nó có định dạng riêng hoàn toàn khác với bất kỳ ngôn ngữ nào khác ngoài thị trường. Thật may mắn cho chúng tôi, nó cực kỳ đơn giản khi bạn biết cách sử dụng nó.

Xem thêm Cách thay đổi tên cơ sở dữ liệu WordPress

Phân tích Robots.txt

Tệp rô bốt rất đơn giản. Nó bao gồm hai chỉ thị chính: Tác nhân người dùng và Không cho phép.

User Agent

Mọi mục trong tệp robots.txt được chỉ định bởi cái được gọi là “tác nhân người dùng”. Dòng tác nhân người dùng chỉ định rô bốt mà lệnh đề cập đến.

Thí dụ:

User-agent: googlebot

Trên dòng tác nhân người dùng, bạn cũng có thể sử dụng cái được gọi là ‘ký tự đại diện’ chỉ định TẤT CẢ rô bốt cùng một lúc.

Thí dụ:

User-agent: *

Nếu bạn không biết tên tác nhân người dùng là gì, bạn có thể dễ dàng tìm thấy những tên này trong nhật ký trang web của riêng mình bằng cách kiểm tra các yêu cầu đối với tệp robots.txt. Điều thú vị là hầu hết các công cụ tìm kiếm lớn đều có tên cho các trình thu thập thông tin của họ. Giống như tên vật nuôi. Tôi không đùa. Húp xì xụp.

Dưới đây là một số bot chính:

  • Googlebot
  • Yahoo! Slurp
  • MSNbot
  • Teoma
  • Mediapartners-Google (Robot Google AdSense)
  • Xenu Link Sleuth

Disallow

Phần quan trọng thứ hai trong tệp robots.txt của bạn là dòng lệnh ‘disallow’ thường được viết ngay bên dưới tác nhân người dùng. Hãy nhớ rằng, chỉ vì lệnh không cho phép hiện diện không có nghĩa là các bot đã chỉ định hoàn toàn không được phép khỏi trang web của bạn, bạn có thể chọn và chọn những gì chúng có thể và không thể lập chỉ mục hoặc tải xuống.

Các chỉ thị không cho phép có thể chỉ định các tệp và thư mục.

Ví dụ: nếu bạn muốn hướng dẫn TẤT CẢ các trình thu thập dữ liệu không tải xuống chính sách bảo mật của bạn, bạn sẽ nhập:

User-agent: *

Disallow: privacy.html

Bạn cũng có thể chỉ định toàn bộ thư mục bằng một chỉ thị như sau:

User-agent: *

Disallow: /cgi-bin/

Một lần nữa, nếu bạn chỉ muốn một bot nhất định không được phép truy cập vào một tệp hoặc thư mục, hãy đặt tên của nó thay cho dấu *.

Thao tác này sẽ chặn các trình thu thập dữ liệu khỏi thư mục cgi-bin của bạn.

Thủ thuật Robots.txt

Bảo mật là một vấn đề rất lớn trên mạng. Đương nhiên, một số quản trị viên web lo lắng về việc liệt kê các thư mục mà họ muốn giữ riêng tư vì nghĩ rằng họ sẽ giao cho tin tặc và những kẻ mũ đen một lộ trình cho những thứ bí mật nhất của họ.

Nhưng chúng ta thông minh hơn phải không?

Đây là những gì bạn làm: Nếu thư mục bạn muốn loại trừ hoặc chặn là “bí mật”, tất cả những gì bạn cần làm là viết tắt nó và thêm dấu hoa thị vào cuối. Bạn sẽ muốn đảm bảo rằng từ viết tắt là duy nhất. Bạn có thể đặt tên cho thư mục bạn muốn được bảo vệ là ‘/ secretizzlesauce /’ và bạn sẽ chỉ cần thêm dòng này vào tệp robots.txt của mình:

User-agent: *

Disallow: /sec*

Vấn đề đã được giải quyết.

Chỉ thị này sẽ không cho phép các trình thu thập dữ liệu lập chỉ mục các thư mục bắt đầu bằng “giây”. Bạn sẽ muốn kiểm tra lại cấu trúc thư mục của mình để đảm bảo rằng bạn sẽ không cho phép bất kỳ thư mục nào khác mà bạn không muốn bị từ chối. Ví dụ: chỉ thị này sẽ không cho phép thư mục “phụ” nếu bạn có thư mục đó trên máy chủ của mình.

Để làm cho mọi thứ dễ dàng hơn, giống như chỉ thị tác nhân người dùng, có một lệnh ký tự đại diện tương tự cho chỉ thị không cho phép. Nếu bạn không cho phép / tos thì theo mặc định, nó sẽ không cho phép các tệp có ‘tos‘ chẳng hạn như tos.html cũng như bất kỳ tệp nào bên trong thư mục / tos chẳng hạn như /tos/terms.html.

Các chiến thuật quan trọng để tối ưu robot

Luôn đặt rô bốt của bạn trong thư mục gốc của trang web để có thể truy cập nó như sau: 

www.yourdomain.com/robots.txt

Nếu bạn để trống dòng không cho phép, điều đó cho biết rằng TẤT CẢ tệp có thể được truy xuất.

User-agent:*

Disallow:

Bạn có thể thêm bao nhiêu lệnh không cho phép vào một tác nhân người dùng nếu bạn cần nhưng tất cả các tác nhân người dùng phải có lệnh không cho phép cho dù lệnh đó không cho phép hay không.

Để trở thành SEOer, phải có ít nhất một dòng không cho phép cho mọi chỉ thị tác nhân người dùng. Bạn không muốn bot đọc sai nội dung của mình, vì vậy hãy đảm bảo và làm đúng. Nếu bạn không hiểu đúng định dạng, họ có thể bỏ qua toàn bộ tệp và điều đó không hay ho. Hầu hết những người đã lập chỉ mục nội dung của họ khi họ không muốn nó được lập chỉ mục đều có lỗi cú pháp trong rô bốt của họ.

Sử dụng công cụ Phân tích Robots.txt trong Tài khoản Quản trị Trang web của Google của bạn để đảm bảo rằng bạn đã thiết lập đúng tệp rô bốt của mình.

Một rô bốt trống giống hệt như không có rô bốt nào cả. Vì vậy, nếu không có gì khác, hãy sử dụng ít nhất chỉ thị cơ bản để cho phép toàn bộ trang web.

Làm cách nào để thêm nhận xét vào rô bốt? Để thêm nhận xét vào rô bốt của bạn, tất cả những gì bạn cần làm là ném một dấu # vào phía trước và toàn bộ dòng đó sẽ bị bỏ qua. KHÔNG đặt nhận xét ở cuối dòng chỉ thị. Đó là hình thức xấu và một số bot có thể không đọc nó một cách chính xác.

Bạn muốn không cho phép những thứ gì trong rô bốt của mình?

Bất kỳ thư mục nào mà bạn không muốn công chúng tìm thấy hoặc những thư mục không được bảo vệ bằng mật khẩu.

Phiên bản thân thiện với máy in của các trang (chủ yếu là để tránh bộ lọc nội dung trùng lặp).

Thư mục hình ảnh để bảo vệ chúng khỏi đỉa và làm cho nội dung của bạn dễ đọc hơn.

CGI-BIN chứa một số mã lập trình trên trang web của bạn.

Tìm các bot trong nhật ký trang web của bạn đang hút băng thông và không trả lại bất kỳ giá trị nào.

  1. Thiết lập này cho phép các bot truy cập mọi thứ trên trang web của bạn và đôi khi trên máy chủ của bạn, vì vậy hãy sử dụng cẩn thận. Dấu * chỉ định TẤT CẢ rô bốt và lệnh không cho phép mở không áp dụng hạn chế cho BẤT KỲ bot nào.

User-agent: *

Disallow:

  1. Thiết lập này ngăn không cho toàn bộ trang web của bạn được lập chỉ mục hoặc tải xuống. Về lý thuyết, điều này sẽ ngăn TẤT CẢ các bot ở ngoài.

User-agent: *

Disallow: /

  1. Thiết lập này chỉ giữ một bot. Trong trường hợp này, chúng tôi đang phủ nhận sự tồi tệ của bot của Ask, Teoma.

User-agent: Teoma

Disallow: /

  1. Thiết lập này ngăn TẤT CẢ các bot ra khỏi cgi-bin và thư mục hình ảnh của bạn:

User-agent: *

Disallow: /cgi-bin/

Disallow: /images/

  1. Nếu bạn muốn không cho phép Google lập chỉ mục hình ảnh của bạn trong công cụ tìm kiếm hình ảnh của họ nhưng cho phép tất cả các bot khác, hãy làm như sau:

User-agent: Googlebot-Image

Disallow: /images/

  1. Nếu bạn tạo một trang hoàn hảo cho Yahoo !, nhưng bạn không muốn Google nhìn thấy trang đó:

User-Agent: Googlebot

Disallow: /yahoo-page.html

#don’t use user agents or robots.txt for cloaking. That’s SEO suicide.

Nếu bạn không sử dụng tệp Robots.txt…

Tệp robots.txt được viết tốt sẽ giúp trang web của bạn được lập chỉ mục sâu hơn tới 15% đối với hầu hết các trang web. Nó cũng cho phép bạn kiểm soát nội dung của mình để dấu ấn SEO của trang web của bạn sạch sẽ và có thể lập chỉ mục và là thức ăn cho các công cụ tìm kiếm. Điều đó, là giá trị nỗ lực.

Mọi người nên có và sử dụng tệp robots.txt chắc chắn. Nó rất quan trọng đối với sự thành công lâu dài của trang web của bạn.

Hoàn thành nó đi.

(Visited 1 times, 1 visits today)