Kiểm soát SERP thu thập dữ liệu để index và xếp hạng tốt hơn

shichibukai · 20/11/24 lúc 23:15

Diễn Đàn SEO - vnseo.edu.vn -

Chào các bạn! Hôm nay, chúng ta sẽ thảo luận về việc kiểm soát công cụ tìm kiếm thu thập dữ liệu, ngăn chặn bots và gửi bots đến những nơi mà chúng ta muốn, giới hạn chúng đến những nơi mà chúng ta không muốn. Chúng ta sẽ nói sơ qua một chút về ngân sách thu thập dữ liệu và những gì bạn nên và không nên index.

Như đã nói, hôm nay tôi muốn thảo luận về cách mà chúng ta có thể điều khiển robot. Nó bao gồm 3 thành phần chính: robots.txt, robot meta và đề cập một chút đến thẻ nofollow khi nói về việc kiểm soát bots.

Có một vài thành phần khác mà chúng ta sẽ thảo luận thêm như Webmaster Tools (bây giờ là Google Search Console) và mã trạng thái URL. Và bây giờ chúng ta hãy cùng nhau thảo luận về chúng.

Robots.txt sống tại yoursite.com/robots.txt, nó nói cho trình thu thập biết nên hay không nên truy cập, nó không phải lúc nào cũng được Google và Bing tôn trọng. Vì vậy, khi bạn nói "hey, disallow nó" và sau đó bạn nhìn thấy URL xuất hiện và bạn lo lắng không biết điều gì sẽ xảy ra. Google và Bing nghĩ rằng bạn đã thực hiện một hành động nào đó sai lầm, họ nghĩ rằng "hey, có rất nhiều liên kết trỏ đến nội dung này, có rất nhiều người ghé thăm và chăm sóc nội dung này, có thể bạn không muốn chúng tôi chặn nó".

Meta robots thì hơi khác một chút.Nó sống tại headers của các trang cá nhân, vì vậy bạn chỉ có thể kiểm soát từng trang một với thẻ meta robots. Điều đó nói rằng công cụ tìm kiếm nên hoặc không nên giữ trang này để index và chúng nên follow các liên kết này trên trang đó và nó thường được kính trọng hơn, bởi nó là một level trang cá nhân; Google và Bing thường có xu hướng tin tưởng thẻ meta robots.

Thẻ nofollow tồn tại trên một liên kết cá nhân trên một trang. Nó không nói với công cụ tìm kiếm nơi để crawl hoặc không được crawl.

Điểm thú vị về meta robot và robots.txt là chúng làm việc cùng nhau.

Ví dụ, chúng tôi có một trang "blogtest.html" trên doamin của chúng tôi và chúng tôi nói rằng "tất cả các tác nhân người dùng, bạn không được phép crawl blogtest.html. Vì vậy, sau đó chúng tôi đã làm gấp đôi để chắc chắn rằng nó không hiển thị trong kết quả tìm kiếm, chúng tôi sẽ đưa vào thẻ meta robot:

PHP:

<Meta name = "robots" content = "noindex, follow">

Do đó, "noindex, follow" cho các công cụ tìm kiếm thu thập thông tin, chúng có thể follow các liên kết trên trang nhưng chúng không thể index trang đặc biệt này.

Sau đó, bạn đi và chạy tìm kiếm với "blog test" và mọi người trong team của tôi đều ngạc nhiên "What the heck!? WTF? Why am I seeing this page show up in search results?"

Câu trả lời là, bạn đã nói cho công cụ rằng chúng không được crawl trang. Nhưng chúng vẫn đặt nó vào kết quả. Lý do nó hiển thị là bởi chúng không thể nhìn thấy noindex, tất cả những gì họ nhìn thấy là Disallow.

Vì vậy, nếu bạn muốn một cái gì đó thực sự được loại bỏ, không được nhìn thấy trong kết quả tìm kiếm, bạn không thể chỉ disallow một trình thu thập. Bạn có thể dùng meta "noindex" và bạn phải cho phép chúng crawl nó.

Vậy điều này cực kỳ phức tạp. Robots.txt có thể hữu ích nếu chúng ta cố gắng tiết kiệm băng thông thu thập dữ liệu nhưng nó không phải lúc nào cũng là lý tưởng cho việc ngăn ngừa một trang web được hiển thị trong kết quả tìm kiếm. Tôi sẽ không khuyên bạn làm theo cách này, bạn nên làm những gì mà chúng tôi nghĩ rằng giống như Twitter đang cố gắng để làm gần đây "Google, don't crawl the www version of twitter.com.". Những gì bạn cần làm là rel canonical-ing hoặc sử dụng 301.

Meta robots có thể cho phép việc crawl và follow liên kết trong khi disallow việc index, điều đó là tuyệt vời nhưng nó đòi hỏi phải có budget crawl và bạn vẫn có thể duy trì được việc index.

Nhìn chung, thẻ nofollow không phải là thực sự hữu ích cho việc kiểm soát bots hay duy trì việc index.

Webmaster Tools (bây giờ là Google Search Console) có một số điều đặc biệt, nó cho phép bạn hạn chế truy cập hoặc loại bỏ một kết quả từ các kết quả tìm kiếm. Ví dụ, nếu bạn đã 404 một cái gì đó hoặc nếu bạn đã nói với chúng không crawl nhưng nó vẫn hiển thị ở đó, bạn có thể nói "đừng làm điều đó". Có một vài giao thức thu thập dữ liệu khác mà bạn có thể làm.

Và sau đó là mã trạng thái URL - đó là cách hợp lệ để làm việc nhưng chúng thay đổi những gì đang xảy ra trên các trang của bạn.

Nếu bạn không may mắn bằng cách sử dụng 404 để loại bỏ một cái gì đó, bạn có thể sử dụng 410 để loại bỏ vĩnh viễn một cái gì đó từ chỉ mục. Chỉ cần lưu ý rằng khi bạn sử dụng 410, nó có thể mất thời gian dài nếu bạn muốn recrawl hoặc reindex và bạn muốn nói với công cụ tìm kiếm 410 "đã trở lại" để loại bỏ vĩnh viễn.

Chuyển hướng vĩnh viễn 310 và 302 - chuyển hướng tạm thời, chúng tôi sẽ nói chuyện về nó tại đây.

Bây giờ chúng ta hãy đi sâu vào một số trường hợp cụ thể của "loại nội dung nào nên và không nên để công cụ tìm kiếm crawl và index " trong phiên bản tiếp theo này.

4 vấn đề crawl/index cần được giải quyết

Chúng tôi có 4 vấn đề lớn liên quan đến việc crawl và index.

1. Nội dung đó chưa sẵn sàng

"Nếu tôi có nội dung chất lượng, tôi vẫn cố gắng để cải thiện nó - nó chưa sẵn sàng, nó chưa sẵn sàng cho Google, tôi có một loạt các sản phẩm và tôi chỉ có các mô tả từ nhà sản xuất và tôi cần mọi người truy cập vào chúng, vì vậy tôi viết lại nội dung và tạo ra giá trị duy nhất trên các trang đó - chỉ là chúng chưa sẵn sàng, tôi nên làm gì với điều này?".

Lựa chọn của tôi là crawl và index? Nếu tôi có số lượng lớn, có thể là hàng nghìn, hàng chục nghìn, hàng trăm nghìn trang thì tôi sẽ đi theo con đường robots.txt. Tôi không cho phép các trang này được crawl và sau đó tôi nhận được một tập các URL đã sẵn sàng, sau đó tôi có thể cho phép việc crawl và thậm chí có thể submit chúng đến Google thông qua sitemap XML.

Nếu tôi đang nói về số lượng nhỏ - vài chục hoặc vài trăm trang, tôi sẽ chỉ sử dụng meta robots noindex và sau đó tôi đặt noindex off trên các trang đó như thể chúng đang sẵn sàng để Google tiêu hóa. Và một lần nữa, tôi có thể sử dụng sitemap XML và bắt đầu submit khi chúng sẵn sàng.

2. Đối phó với nội dung trùng lặp hoặc sơ sài

Câu hỏi "Tôi có nên noindex, nofollow hoặc ngăn chặn việc crawl trên phần lớn các URL trùng lặp hoặc nội dung sơ sài?". Tôi có đưa ra một ví dụ sau đây. Tôi có một shop thương mại điện tử, tôi bán Star Wars t-shirt, vì vậy tôi nghĩ rằng starwarsshirt.html và liên kết ra một phiên bản lớn hơn và đó là một trang HTML riêng lẻ. Nó liên kết đến những màu sắc khác nhau, trong đó thay đổi URL của trang, vì vậy tôi có một phiên bản màu xám, xanh dương và đen. Vâng đó là 4 trang với cùng một sản phẩm, vì vậy tôi sẽ không khuyên bạn disallow việc thu thập trên các trang đó và tôi cũng không khuyên bạn noindex chúng. Vậy tôi sẽ làm gì với rel canonical trên đó.

Hãy nhớ rằng, rel canonical có thể disallow. Vì vậy, nếu tôi đã disallow nó, Google không thể nhìn thấy rel canonical trở lại, do đó, nếu một người nào đó liên kết đến phiên bản màu xanh thay vì phiên bản mặc định thì ngay bây giờ có khả năng tôi không nhận được các liên kết đó. Vì vậy, tôi thực sự muốn sử dụng rel canonical, cho phép index và cho phép nó được crawl. Nếu bạn đã thực sự cảm thấy thích nó, bạn cũng có thể đặt một meta "noindex, follow" trên các trang này nhưng tôi không nghĩ rằng nó cần thiết và một lần nữa nó có thể được can thiệp với thẻ rel canonical.

3. Đi qua link equity mà không xuất hiện trong kết quả tìm kiếm

Câu hỏi "Nếu tôi muốn đi qua link equity thông qua một tập các trang mà những trang này không xuất hiện trong kết quả tìm kiếm thì có lẽ là có một công cụ điều hướng nào đó điều hướng thông qua các trang của tôi nhưng tôi không cần chúng xuất hiên trong kết quả tìm kiếm, vậy tôi nên sử dụng nó như nào?".

Điều tôi muốn nói ở đây là bạn có thể sử dụng meta robot để nói "đừng index trang nhưng dofollow các liên kết đó trên trang".

Nhiều người nói rằng disallow chúng trong robots.txt nhưng họ đã nhầm. Điều gì sẽ xảy ra nếu bạn disallow việc thu thập. Google không thể nhìn thấy noindex. Chúng không biết rằng chúng có thể follow nó. Như đã nói trước đây, thỉnh thoảng Google cũng không tuân lệnh theo robots.txt nhưng bạn không thể dựa vào hành vi đó. Hãy tin rằng disallow trong robots.txt sẽ ngăn chặn việc crawl. Vì vậy, tôi nói rằng, meta robot "noindex, follow" là cách để làm điều này.

4. Loại trang kết quả tìm kiếm

Câu hỏi: "Tôi nên làm gì với loại trang kết quả tìm kiếm?". Google đã nói rất nhiều lần rằng họ không thích kết quả tìm kiếm của bạn từ động cơ bên trong của bạn xuất hiện trong kết quả tìm kiếm của họ và vì đây có thể là một trường hợp sử dụng khéo léo.

Đôi khi một trang kết quả tìm kiếm - một trang có nhiều loại kết quả và nó có thể đến từ một cơ sở dữ liệu của các loại nội dung mà bạn có trên trang web của bạn - có thể là một kết quả rất tốt cho người tìm kiếm hoặc những người muốn xem những gì bạn cung cấp. Yelp làm điều này: Khi bạn nói "Tôi đang tìm kiếm các nhà hàng ở Seattle, WA," chúng sẽ cung cấp cho bạn một danh sách các kết quả tìm kiếm và Google không muốn ai đó xuất hiện bởi vì trang này đã cung cấp một kết quả tuyệt vời. Nhưng bạn nên làm những gì mà Yelp chưa làm. Bạn hãy cung cấp một trang có giá trị, đó không chỉ là danh sách các kết quả tìm kiếm mà đó còn là một trang đích chi tiết.

Nếu bạn có một từ khóa dài hoặc nếu bạn muốn nói "hey, công cụ tìm kiếm nội bộ của chúng tôi và chúng tôi không nghĩ rằng chúng ta cần phải thực hiện các nỗ lực để đưa mọi người đến trang đích". Sau đó, bạn có thể sử dụng Disallow trong robots.txt để ngăn chặn họ.

Bạn nên thận trọng ở đây, bởi đôi khi nó có thể làm tổn hại SEO và lưu lượng truy cập của bạn. Đôi khi những trang này có thể thực sự hữu ích cho mọi người. Vì vậy, hãy kiểm tra các phân tích của bạn. Bạn sẽ nhìn thấy rất nhiều trang web làm điều này trong tập tin robots.txt của họ.

Tôi hy vọng bạn đã có một số câu hỏi lớn về việc crawl, index và kiểm soát robot, ngăn chặn và cho phép robot. Chúc bạn thành công!

Ghi nguồn www.thegioiseo.com

daotaolaixeb2 · 4/8/15

1. Khi mà website mới thành lập và các bài viết đang trong giai đoạn thử nghiệm => nên khóa index lại
P/s: Có cách nào khóa index không hướng dẫn mình cái!

Kiểm soát SERP thu thập dữ liệu để index và xếp hạng tốt hơn

shichibukai PageRank 1 Member

Bài viết cùng chuyên mục:

daotaolaixeb2 PageRank 1 Member

Chia sẻ trang này

Dien Dan SEO Viet Nam

Liên kết SEO

Thủ thuật SEO

Diễn Đàn SEO Google

Tìm kiếm hữu ích

Kiểm soát SERP thu thập dữ liệu để index và xếp hạng tốt hơn

shichibukai PageRank 1 Member

Bài viết cùng chuyên mục:

daotaolaixeb2 PageRank 1 Member

Chia sẻ trang này