Kiểm soát nội dung trên các search engine và trên website

Gone Wild · 23/12/24 lúc 23:21

Diễn Đàn SEO - vnseo.edu.vn -

Mình tổng hợp cho các bạn những câu hỏi và vấn đề thường gặp về nội dung trên các search engine cũng như trên website. Các cách giải quyết và những điểm cần chú ý xung quanh vấn đề đó. Các bạn có thắc mắc hoặc câu hỏi nào cứ để lại comment sẽ có các bạn khác hỗ trợ giải quyết nhé.

Làm sao để chặn bot/spider/crawl truy cập vào dữ liệu website?

Sử dụng robots.txt để giới hạn truy cập file
Chắc các bạn cũng đã tìm hiểu kỹ vấn đề này rồi, mình nói qua cho những bạn chưa biết. Cấu trúc của file robots.txt

User-agent: để chỉnh định search engine nào được truy cập

Disallow: /folder hoặc Disallow: file để ngăn không cho truy cập folder hoặc file

Các bạn cũng có thể sử dụng * để thay thế cho tất cả các ký tự, $ thay thế cho url ví dụ: user-agent: * disallow: /*.pdf$ sẽ cho phép tất cả các spider của Google, Bing,Yahoo truy cập vào các thư mục, tập tin trừ những đường dẫn kết thúc bằng .pdf

Chú ý cách sắp xếp thư mục trong website của bạn: khi thiết kế một website mới hay sửa lại một website cũ, các bạn nên sắp xếp các tập tin và thư mục một cách hợp lý để việc chỉnh sửa và phân quyền trong robots.txt ko trở nên lộn xộn và khó kiểm soát.

Một điều các bạn cần chú ý là ai cũng có thể đọc được nội dung robots.txt của bạn nên việc chúng ta đưa các mục quan trọng vào đó cũng là một bất lợi. Mình lấy ví dụ các bạn cài đặt opencart, các bạn đổi tên thư mục install và admin để tránh những người tò mò (như hacker chẳng hạn) nhưng các bạn cũng không muốn các search engine craw vào đó các bạn để disallow: /ten-da-doi như vậy khi một người gõ ten-domain/robots.txt thì vẫn có thể biết được tên thư mục các bạn đã đổi.

Tài liệu tham khảo về robots.txt của một số search engine các bạn có thể xem tại đây:
Google:

Mã:

http://www.google.com/support/webmasters/bin/answer.py?answer=40364

Yahoo:

Mã:

http://help.yahoo.com/help/us/ysearch/slurp/slurp-02.html

Bing:

Mã:

http://help.live.com/Help.aspx?market=en-US&project=WL_Webmasters&querytype=topic&query=WL_WEBMASTERS_CONC_RestrictAccessToSite.htm

Ask:

Mã:

http://about.ask.com/en/docs/about/webmasters.shtml

Sử dụng “noindex” trong thẻ meta
Một cách để các bạn không cho các search engine index website của mình là sử dụng:

Mã:

<meta name=”robots” content=”noindex”/>

Tuy nhiên cách này sẽ chặn hết tất cả các bot của các search engine nên các bạn muốn chặn bot của ai thì ghi rõ ra. ví dụ chặn bot của Google:

Mã:

<meta name=”googlebot” content=”noindex” />

Hãy nhớ là các search engine vẫn tìm đến những trang các bạn như thường lệ mới có thể thấy được trạng thái noindex trong thẻ meta của các bạn. Nếu các bạn đã dùng cách này mà nội dung vẫn xuát hiện trên kết quả tìm kiếm, có thể là do các search engine chưa crawl website của bạn lúc bạn add thẻ meta noindex vào nên hãy chờ một thời gian để họ index lại.
Các bạn có thể sử dụng noindex trong các trang html còn những trang như pdf, doc, odt thì không hỗ trợ nhé

Sử dụng password để bảo vệ những nội dung nhạy cảm

Những nội dung nhạy cảm thường được bảo vệ bằng cách đăng nhập với tên và mật khẩu, những nội dung đó không được các search engine crawl. Việc bắt buộc này thường được đặt ở websever hoặc các ứng dụng cấp cao.

Đây là cách hiệu quả để tránh các search engine, robot và những người truy cập vào nội dung các bạn không muốn công bố, nhưng một số người lại rất tò mò muốn xem những nội dung này.

Sử dụng "nofollow" để tránh các spider đi theo những liên kết bạn không muốn
Vấn đề này các bạn đều nắm rõ khi tham gia các diễn đàn và ngay cả trên website của các bạn, để tránh tình trạng spam và linkout quá nhiều chúng ta sử dụng nofollow. Các bạn có 2 cách:

Mã:

<meta name=”robots” content=”nofollow” /> : sử dụng cho tất cả các link trên website

Mã:

<a href=”trang.html” rel=”nofollow” /> : sử dụng cho từng link bạn muốn

Theo thông tin hiện tại thi sử dụng nofollow có thể làm giảm một chút giá trị liên kết và các search engine vẫn crawl và index chúng.

Đừng liên kết đến những trang bạn muốn chúng không xuất hiện trên search engine
Các search engine sẽ không index nội dung trừ khi chúng biết về nó, nên nếu không ai liên kết đến trang đó hoặc submit chúng lên thì chẳng search engine nào tìm chúng cả, Nhưng đó chỉ là lý thuyết thôi, trong thực tế website rất lớn, sớm muộn gì search engine cũng tìm ra và một ai đó sẽ liên kết đến nó.
Một số search engine sử dụng các toolbar của họ để theo dõi truy cập của người dùng, họ sẽ sử dụng thông tin đó để tìm và index những nội dung chưa có.

Sử dụng x-robots trong http header
Như đã nói ở trên, việc sử dụng robots.txt thì ai cũng thấy được nội dung của nó còn sử dụng noindex thì lại không hỗ trợ pdf, odt, doc và những tập tin không phải html.
Để giải quyết vấn đề trên, tháng 7/2007, Google chính thức đưa ra cách giải quyết các bạn có thể xem tại đây

Mã:

http://googleblog.blogspot.com/2007/07/robots-exclusion-protocol-now-with-even.html

nhược điểm của việc này là hầu hết các webmaster đều không thể thoải mái điều chỉnh http headers, Microsoft IIS hỗ trợ rất ít cho việc này.

Làm sao để một phần nội dung của bạn xuất hiện trên search engine?
Nhiều lúc các bạn chỉ muốn một phần nội dung của mình xuất hiện trên kết quả tìm kiếm thôi. ở đây yahoo có hỗ trợ bằng cách thêm thẻ class=”robots-nocontent” vào html. các bạn có thể xem chi tiết tại đây

Mã:

http://antezeta.com/robots-nocontent.html

Làm sao để xóa bỏ một page đã index?
Các bạn có thể sử dụng url removal

Mã:

https://www.google.com/webmasters/tools/removals

hoặc cũng có thể vào xóa URL trong webmaster tool

Kiểm soát nội dung trên các search engine và trên website

Gone Wild Moderator Thành viên BQT Mod

Bài viết cùng chuyên mục:

Chia sẻ trang này

Dien Dan SEO Viet Nam

Liên kết SEO

Thủ thuật SEO

Diễn Đàn SEO Google

Tìm kiếm hữu ích

Kiểm soát nội dung trên các search engine và trên website

Gone Wild Moderator Thành viên BQT Mod

Bài viết cùng chuyên mục:

Chia sẻ trang này