Kỹ thuật SEO - Tổng hợp kiến thức về thu thập dữ liệu

cuongabc · 7/1/25 lúc 13:46

Diễn Đàn SEO - vnseo.edu.vn -

Hơn 12 năm trong ngành SEO, tôi đã chứng kiến rất nhiều người tự cho mình có khả năng “làm SEO”. Làm nhà thiết kế, tiếp thị nội dung, PPC, PR đến truyền thông xã hội. Mọi người đều muốn tham gia vào cuộc chơi này.

Điều đó thì hẳn nhiên là tốt rồi... những người này đều đã có chỗ đứng của họ.

Nhưng với SEO, tất cả mọi thứ đều bắt đầu từ “the crawl” - thu thập dữ liệu.

Nếu công cụ tìm kiếm không thể thu thập dữ liệu website của bạn hoặc lập chỉ mục các trang của bạn thì phần nội dung sẽ không có chuyển biến nào cả. Thậm chí bạn có thể tạo ra số lượng lớn backlink nhưng vẫn bị mắc kẹt trong đám bùn lầy.

Một số website khá thuận lợi trong việc thu thập dữ liệu. Ý của tôi là, nếu website của bạn là website tĩnh, và được xây dựng bằng cách thức đơn giản (WordPress cùng với một vài plugin?), bạn sẽ không gặp vấn đề gì. Tuy nhiên, trong nhiều trường hợp đặc biệt, website cũng gặp khó khăn trong việc lập chỉ mục tối ưu.

Nghiên cứu tình huống

Gần đây, công ty của tôi có một khách hàng mới, người làm cho các phân tích ban đầu của chúng tôi đều bị ảnh hưởng bởi sự trở lại của Google Panda vào tháng 2/2011. Dấu hiệu của việc này khá rõ ràng:

Nhiều năm qua, khách hàng của tôi xác định sẽ đi theo “kinh doanh thông thường”, không phải là SEO với quá nhiều suy nghĩ và cân nhắc. Họ vẫn tạo ra tiền bạc thông qua việc marketing chính họ qua PPC, email và các phương tiện truyền thống khác.

Họ xác định rằng đó là thời gian để bắt kịp với những người khác và hiến dâng thời gian, tiền bạc và sự kiên nhẫn cho quá trình khôi phục sự hiện diện của tìm kiếm tự nhiên.

Các website đặc thù như website thương mại điện tử, trong đó xảy ra việc mọi người bán lại các sản phẩm; sự mô tả về sản phẩm được chia sẻ giữa những người bán lại các sản phẩm giống nhau này. “Quá dễ dàng rồi”, chúng tôi nghĩ vậy... chúng tôi sẽ viết lại một loạt các mô tả sản phẩm và phát triển việc tối ưu hóa kết quả.

Không quá nhanh

Khi tôi chắc chắn về những điều bạn phải làm, chúng tôi đã có “kiểm nghiệm”. Chúng tôi muốn tạo dựng quan điểm tổng thể, nhằm bảo đảm có một phương pháp chiến lược để thực hiện. Đó cũng là lúc chúng tôi phát hiện ra danh sách dài lê thê của những trục trặc kỹ thuật, các lỗi, sự chuyển hướng, và điều đó hướng chúng tôi đến việc cần phải tìm hiểu sâu sắc hơn nữa trong thu thập thông tin và lập chỉ mục.

“Hãy đặt những điều đầu tiên ở vị trí đầu tiên”, họ nói vậy.

Sử dụng công cụ Wayback Machine, chúng ta có thể xem xét lại website, từ tháng 12/2010 đến 02/2011 (phân tích toàn bộ dữ liệu đã bị mất vào khoảng thời gian trên; tạo điều kiện cho những nhà phát triển web có thêm tài liệu để nghiên cứu). Đây là bước đầu cho quá trình tìm hiểu của về những gì chúng ta đã từng lãng quên. Một số “thiên tài” quyết định rằng họ sẽ viết lại tất cả URL của họ (chèn thư mục, không có lý do rõ ràng), ngừng sử dụng công cụ tìm kiếm cấu trúc URL thân thiện (ví dụ: company.com/category/product/product-name) và khi đó 302 chuyển hướng mọi thứ đến các URL mới này. Điều đó thật tồi tệ. Sẽ xuất hiện một loạt các phản ứng lại, dẫn đến các thiệt hại và các hoạt động không tốt cho SEO.

Chúng tôi sẽ nhanh chóng viết lại bản sao như đã hứa và bỏ qua “kế hoạch game”- chỉ làm tụt dốc và làm vấy bẩn các kĩ thuật SEO.

Đầu tiên chúng ta phải xem xem các các robot thu thập thông tin phù hợp với website hay không.

- Google Webmaster Tool (công cụ quản trị website): trong khi Google Webmaster Tool đã có một vị trí thích hợp, thì sơ đồ của một website (sitemap) lại trở nên lỗi thời. Thay vì sử dụng lại một sitemap cũ, chúng tôi sẽ tạo ra một sitemap mới, phân hạng thành các phần của website mà chúng ta muốn phân tích (phần chính, blog, sản phẩm XYZ, sản phẩm ABC,…). Đây sẽ là điều tốt nhất chúng ta đã từng làm. Nó sẽ giúp chúng ta cô lập các khu vực của website, phần mà không được lập chỉ mục đầy đủ.

- Phân tích Long File: chúng tôi nghi ngờ rằng những người chuyên đi sao chép nội dung đang nhắm đến website của khách hàng của chúng tôi. Việc phân tích một log-file đã xác nhận điều này. Chúng tôi có khả năng để cô lập một số IP và phong tỏa việc thu thập thông tin website của chúng. Chúng tôi cũng mong muốn tìm ra tín hiệu mà làm cho robot gặp khó khăn trong việc thu thập dữ liệu website.

- Phân tích nội dung: bởi vì chúng tôi tin rằng Panda vẫn sẽ hiện hữu và chúng tôi có khả năng xác nhận được các website với nội dung sao chép (bị đánh cắp), chúng tôi vẫn phải quan tâm đến các trường hợp cá biệt – đó là việc chúng tôi có thể tạo ra một bản sao trong chính website của mình. Trong khi chẳng dễ dàng gì xác định được các công cụ/thu thập dữ liệu bằng việc xem xét phiên bản bộ nhớ đệm của trang - chúng tôi khẳng định là khó giải quyết, chúng tôi vẫn có khả năng nhận biết khách hàng có nội dung “pop up”đã được lập chỉ mục. Nội dung pop-up này rất quan trọng đối với người sử dụng (họ có thể biết được sản phẩm đã hết hàng…) nhưng nội dung này cũng tồn tại trên mỗi trang sản phẩm mà không cần để ý đến việc sản phẩm đã hết hàng hay chưa... Nó đã ở trong bộ nhớ đệm của Google. Tương đương với 1%, nội dung phế liệu này chiếm số lượng lớn. Dĩ nhiên một nừa của nội dung văn bản của chúng trên trang web đều liên quan đến nội dung đã hết hàng, hoặc nói các khác “không còn phù hợp nữa”. Bạn có nghĩ các công cụ tìm kiếm thích điều này không? Bạn có nghĩ họ muốn lập chỉ mục các trang này không? Chúng ta nghĩ gì? “Cớ lẽ là không”.

- Vấn đề DNS: Khi chúng tôi đào bới sâu hơn vào các vấn đề kỹ thuật có thể xảy ra, chúng tôi muốn tìm xem liệu có vấn đề DNS nào đối với tên miền không. Chúng tôi muốn bảo đảm rằng sẽ không có bất kì vấn đề nào với việc thiết lập tên miền cũng như rào cản sẽ xuất hiện khi site được “gọi tên” và máy chủ phải bắt đầu giao tiếp. Chúng tôi đã tìm ra vấn đề nhỏ tại cấp độ DNSSEC nơi mà phần thiếu thông tin giao tiếp không được chấp nhận. Đây là sự sửa chữa đúng đắn.

An ninh cho lỗ hổng XSS: Khi thực hiện các truy vấn site trong công cụ tìm kiếm, chúng tôi click vào website của khách hàng và nhận được 1 tin nhắn rằng website “cannot be trusted” (“không đáng tin”). Chúng tôi quyết định cần phải kiểm tra website dù cho có bất kì phần mềm độc hại nào. Chúng tôi sử dụng công cụ Zed Attack Proxy. Khi nó bắt đầu, website của khách hàng thực tế trở về kết quả “positive” (mà nghĩa thực sự của nó là “negative”) trong thử nghiệm của chúng tôi. Khi nó hiện ra, nó không phải là XSS nhưng đúng hơn là kết quả “false/positive” lại tùy thuộc cách mà phần mềm của họ thực hiện các nhiệm vụ khác nhau trong chương trình phụ trợ. Hãy cứ suy nghĩ đi… liệu rằng một công cụ có thể chỉ ra được vấn đề không, tại sao công cụ tìm kiếm lại không cho rằng có vấn đề?

Mobile: Vẫn chưa có sự đồng bộ ở đây khi khách hàng đang sử dụng ứng dụng mobile và chưa chưa chạy website hồi đáp. Điều này sẽ nhanh chóng diễn ra thôi nhưng chúng ta vẫn đang thực hiện cùng với ứng dụng mobile của họ cho đến khi ai đó tiếp cận với bản đồ với tất cả các trang (hiện nay, tất cả các trang mobile sẽ hướng bạn đến trang chủ khi họ có ứng dụng “phù thủy” để đẩy bạn đi qua tiến trinh bán hàng).

Javasript/CSS: Khách hàng đang bị phong tỏa JS và CSS do các robot. Năm ngoái, Google tuyên bố điều này và đây quả là tin xấu.

URL Structure (cấu trúc URL): Khách hàng này đang sử dụng một phương pháp thông thường đối với các URL, cái đã từng sử dụng qua nhiều thời gian và được đánh giá là tốt (có thể nói như vậy). Đó là, đặt tất cả các trang sản phẩm trực tiếp ra khỏi gốc của tên miền (companyname.com/product-name). Tôi luôn luôn tin tưởng vào điều này nhưng trong thực tế thì lại không nên như vậy. Công cụ tìm kiếm nên linh hoạt hơn cái này. Cùng với sự thay đổi trong thuật toán mobile, tôi ủng hộ mạnh mẽ cấu trúc URL theo sau cấu trúc của website (và breadcrumb theo sau cái này). Chúng tôi sẽ viết lại tất cả các URL với định dạng phù hợp và thêm vào các trang danh mục, vốn chưa có gì trước đó.

Chúng tôi đã tạo ra rất nhiều thay đổi (nhưng nhiều thứ vẫn chưa ở đúng vị trí mà chúng cần phải ở). Chúng tôi không thể lùi lại và bắt đầu xem xét về phương pháp tiếp cận chiến lược, cái đã được lập kế hoạch cách đây khá lâu. Chúng tôi quan tâm đến những thứ giống như phân tích thiếu sót về nội dung, đẩy mạnh kiến trúc thông tin, thiết kế lại website, chiến lược truyền thông xã hội, PR và tối ưu hóa tính chuyển đổi/tính khả dụng. Tất cả những điều này đều quan trọng và nó đều được bắt đầu từ việc thu thập dữ liệu.
Mã:
www.thegioiseo.com

gamehayst · 16/5/15

Theo mình cái này là lĩnh vực chuyên sâu. Chỉ dành cho cực kỳ pro hoặc Leader seo mới có thể fân tích và hiểu được các số liệu này. Anh em seoer thiên lôi chỉ đâu đánh đấy là đc thôi

linh_seo_pro · 17/5/15

em đọc cái này không hiểu lắm, chứ mà để phân tích được nhứng số liệu qua biểu đồ thì hơi khó!

Kỹ thuật SEO - Tổng hợp kiến thức về thu thập dữ liệu

cuongabc PageRank 1 Member

Bài viết cùng chuyên mục:

gamehayst Trial Moderators

linh_seo_pro PageRank 2 Member

Chia sẻ trang này

Dien Dan SEO Viet Nam

Liên kết SEO

Thủ thuật SEO

Diễn Đàn SEO Google

Tìm kiếm hữu ích

Kỹ thuật SEO - Tổng hợp kiến thức về thu thập dữ liệu

cuongabc PageRank 1 Member

Bài viết cùng chuyên mục:

gamehayst Trial Moderators

linh_seo_pro PageRank 2 Member

Chia sẻ trang này