Ngăn chặn Ghost Spam trong Google Analytics với một bộ lọc

Thảo luận trong 'Google Analytics' bắt đầu bởi shichibukai, 3/8/15.

  1. shichibukai PageRank 1 Member

    Tham gia ngày:
    18/7/15
    Spam trong Google Analytics (GA) đang trở thành một vấn đề nghiêm trọng. Do hàng nghìn các spam từ nút social, các trang web người lớn và nhiều, rất nhiều nguồn tài nguyên khác, mọi người bắt đầu lo lắng bởi tất cả các bộ lọc họ đang thiết lập để quản lý các dữ liệu là vô ích.

    Tin tốt là bạn không phải lo sợ về điều đó. Trong bài viết này, tôi sẽ tập trung vào những sai lầm thường gặp nhất khi chống spam trong GA và giải thích để ngăn chặn nó một cách hiệu quả.

    Nhưng trước tiên, hãy chắc chắn rằng chúng ta hiểu công việc spam như thế nào. Tháng trước, Jared Gardner đã viết một bài viết tuyệt vời để giải thích những gì được coi là spam, trong đó ông cũng chỉ ra mục đích của nó. Ông cũng chỉ ra một số ví dụ tuyệt vời về spam referral.

    Các loại spam

    Spam trong Google Analytics có thể được phân loại theo 2 loại: ghosts và crawlers.

    1. Ghosts

    Phần lớn là spam theo kiểu này. Chúng được gọi là những con ma vì chúng không bao giờ truy cập vào trang web của bạn. Bạn có thể đặt câu hỏi làm thế nào mà chúng có thể theo dõi trên trang web của bạn.

    Chúng làm điều đó bằng cách sử dụng Measurement Protocol, nó cho phép mọi người gửi dữ liệu trực tiếp đến máy chủ của Google Analytics. Sử dụng phương pháp này và mã theo dõi có thể được tạo ra một cách ngẫu nhiên, những spammer lại "ghé thăm" với dữ liệu giả mạo.

    [​IMG]

    2. Crawlers

    Đây là loại spam, trái ngược với ghost spam, nó truy cập vào site của bạn. Như cái tên của nó, bots spam crawl trang của bạn. Khi họ thoát khỏi trang web của bạn, chúng để lại một bản ghi trên báo cáo của bạn mà nó xuất hiện tương tự như một chuyến ghé thăm hợp lệ.

    Crawlers là khó để xác định bởi chúng biết mục tiêu của chúng và sử dụng dữ liệu thực tế. Nhưng nó cũng hiếm khi mới xuất hiện. Vì vậy, nếu bạn phát hiện ra một referral trong các phân tích của bạn mà nhìn nó đáng ngờ, bạn hãy nghiên cứu nó trên Google hoặc kiểm tra nó trong danh sách này, nó có thể giúp bạn trả lời câu hỏi đó có phải là spam hay không.

    Các sai lầm phổ biến thường gặp khi đối phó với spam trong GA

    Tôi đã follow chặt chẽ vấn đề này trong vài tháng qua. Theo ý kiến của mọi người trên các bài viết và các cuộc trò chuyện của tôi, tôi đã tìm thấy trong các diễn đàn thảo luận, có 3 sai lầm chủ yếu khi đối phó với spam trong Google Analytics.

    Sai lầm thứ nhất: Chặn ghost spam từ tập tin .htaccess

    Một trong những sai lầm phổ biến mà mọi người thường mắc phải là cố gắng ngăn chặn Ghost Spam từ tập tin .htaccess.

    Đối với những người chưa quen khi sử dụng tập tin này, một trong những chức năng chính của nó là cho phép hoặc chặn truy cập đến trang web. Bây giờ, chúng ta biết rằng ghosts không bao giờ tiếp cận trang web của bạn, vì vậy việc thêm chúng vào đây sẽ không có bất kỳ ảnh hưởng nào.

    Ghost spam thường xuất hiện vài ngày và sau đó biến mất. Và kết quả là thỉnh thoảng mọi người nghĩ rằng đã ngăn chặn thành công nhưng có khi nó chỉ là sự trùng hợp về thời gian.

    Sau đó, spammer sẽ quay trở lại, họ lo lắng vì giải pháp của họ không làm việc nữa và họ nghĩ rằng spammer đã vượt qua những rào cản mà họ thiết lập.

    Sự thật là, tập tin .htaccess chỉ có hiệu quả ngăn chặn trình thu thập và một vài thành phần khác. Hầu hết không thể ngăn chặn spam khi sử dụng phương pháp này, vì vậy không có lựa chọn nào khác hơn là sử dụng các bộ lọc để loại trừ chúng.

    Sai lầm thứ 2: Sử dụng danh sách loại trừ để ngăn chặn spam

    Sai lầm khác là sử dụng danh sách referral exclusion để ngăn chặn spam. Cái tên này có thể khiến bạn hiểu lầm nhưng nó có mục đích khác.

    Ví dụ, khi một khách hàng mua một cái gì đó, thường thì họ được chuyển đến một trang web thanh toán của bên thứ 3. Sau khi thực hiện thanh toán, chúng chuyển hướng trở lại trang web của bạn và GA ghi nhận rằng đó như là một referral mới. Nếu bạn đang cố gắng để sử dụng danh sách referral exclusion để quản lý spam, thì phần referral sẽ bị loại bỏ vì không có bản ghi từ trước.

    Sai lầm thứ 3: Lo sợ rằng tỷ lệ thoát thay đổi sẽ ảnh hưởng đến thứ hạng

    Khi mọi người thấy rằng tỷ lệ thoát thay đổi, họ bắt đầu lo lắng về những tác động mà nó sẽ có trên bảng xếp hạng của họ trong SERPs.

    [​IMG]

    Đây là một sai lầm thường gặp. Có spam hay không thì Google cũng không đưa vào để coi như là một yếu tố xếp hạng. Dưới đây là lời giải thích của Matt Cutts - người đứng đầu của nhóm web spam của Google.

    Cutts giải thích: mặc dù nhiều người có GA nhưng không phải tất cả mọi người đều sử dụng nó.

    Giả sử trang web của bạn đã bị hack

    Sự quan tâm phổ biến khi người ta thấy các trang đích lạ trên các báo cáo của họ nói rằng họ đã bị hack.

    [​IMG]

    Các trang mà spam cho thấy trên báo cáo không tồn tại và nếu bạn cố gắng để mở nó, bạn sẽ nhận được một trang 404. Trang web của bạn bị ảnh hưởng.

    Nhưng bạn cần phải đảm bảo rằng trang không tồn tại. Vì có trường hợp (không spam) nơi mà một số site có vi phạm vấn đề bảo mật và được tiêm đầy đủ các từ khóa xấu để nói xấu các website.

    Bạn lo lắng về điều gì?

    Bây giờ chúng ta đã loại bỏ các vấn đề bảo mật và ảnh hưởng của chúng trên bảng xếp hạng, điều duy nhất cần lo lắng là về dữ liệu của bạn. Spam giả mạo sẽ làm ô nhiễm báo cáo của bạn.

    Nó có thể có tác động nhiều hay ít tùy thuộc vào lưu lượng truy cập trang web của bạn nhưng tất cả mọi người đều nhạy cảm với spam.

    Các trang web vừa và nhỏ là dễ dàng bị ảnh hưởng nhất - không chỉ bởi vì phần lớn lưu lượng truy cập của họ có thể làm spam mà bởi thông thường các trang web này là tự quản lý và đôi khi không có sự hỗ trợ của một nhà phân tích hay một webmaster.

    Các trang web lớn với rất nhiều lưu lượng truy cập cũng có thể bị ảnh hưởng bởi spam và mặc dù các tác động có thể là không đáng kể, lưu lượng truy cập không hợp lệ nghĩa là báo cáo không chính xác. Là một chuyên gia phân tích, bạn có thể giải thích những gì đang xảy ra ở ngay cả các báo cáo chi tiết nhất.

    Bạn chỉ cần một bộ lọc để đối phó với ghost spam

    Thông thường nó được khuyến cáo thêm referral đến một bộ lọc exclusion sau khi nó bị phát hiện. Mặc dù điều này rất hữu ích để chống lại spam nhưng nó có 3 nhược điểm lớn.

    - Tạo ra bộ lọc spam hàng tuần sẽ tốn nhiều thời gian đặc biệt là nếu bạn quản lý nhiều trang web. Thêm vào đó, do thời gian áp dụng bộ lọc và thời điểm bắt đầu làm việc cho nên dữ liệu bạn đã bị ảnh hưởng.

    - Một vài spammer sử dụng chuyến ghé thăm trực tiếp cùng với khách truy cập được giới thiệu.

    - Các hit trực tiếp sẽ không bị chặn lại bởi bộ lọc, điều này giải thích tại sao một số người đã từng nhìn thấy sự bất thường trong lưu lượng truy cập trực tiếp.

    Rất may mắn là có một cách tốt nhất để ngăn chặn tất cả những vấn đề này. Hầu hết các spammer hoạt động bằng cách đánh dấu tracking-IDs ngẫn nhiên trong GA, điều này có nghĩa là nó không thực sự biết ai là mục tiêu và vì lý do đó hostname không được thiết lập hoặc nó được sử dụng giả mạo. Xem ví dụ dưới đây:

    [​IMG]

    Bạn có thể thấy rằng họ sử dụng một số cái tên lạ hoặc thậm chí không bận tâm đến việc thiết lập. Mặc dù có một số tên tuổi nổi tiếng trong danh sách nhưng họ có thể dễ dàng được thêm vào bởi các spammer.

    Hơn nữa nếu lưu lượng truy cập hợp lệ thì sẽ phải sử dụng một hostname thực sự. Trong hầu hết các trường hợp, nó sẽ có domain. Nhưng nó cũng có thể là kết quả của các dịch vụ thanh toán, dịch vụ chuyển đổi hoặc bất kỳ nơi nào khác mà bạn đã chèn mã theo dõi GA.

    [​IMG]

    Dựa trên điều này, chúng ta có thể tạo ra một bộ lọc mà sẽ chỉ bao gồm hostnames thực sự. Nó sẽ tự động exclude tất cả các hits từ ghost spam, mặc dù nó xuất hiện như là một referral, keyword hoặc pageview hoặc thậm chí là khách truy cập trực tiếp.

    Để tạo bộ lọc này, bạn sẽ cần tìm báo cáo về hostname. Dưới đây là cách thực hiện:

    - Đi đến tab Reporting trong GA

    - Click vào Audience trong bảng điều khiển bên tay trái

    - Mở rộng Technology và chọn Network

    - Ở phía trên của báo cáo, nhấp chuột vào Hostname

    [​IMG]

    Bạn sẽ thấy một danh sách của tất cả các hostnames, bao gồm cả những cái mà spam sử dụng. Tạo một danh sách chứa tất cả các tên máy chủ hợp lệ mà bạn tìm thấy như sau:

    - yourmaindomain.com
    - blog.yourmaindomain.com
    - es.yourmaindomain.com
    - payingservice.com
    - translatetool.com
    - anotheruseddomain.com

    Đối với những site nhỏ và trung bình, danh sách hostname sẽ có khả năng bao gồm domain chính và một vài subdomain. Sau khi bạn chắc chắn rằng bạn đã có danh sách của tất cả, hãy tạo ra một biểu thức chính quy tương tự như này:

    PHP:
    yourmaindomain\.com|anotheruseddomain\.com|payingservice\.com|translatetool\.com
    Bạn không cần phải đặt tất cả các subdomain của bạn vào biểu thức chính quy. Các domain chính sẽ phù hợp với tất cả chúng. Nếu bạn chưa thiết lập một bộ lọc thì bây giờ là lúc bạn có thể tạo ra chúng.

    Sau đó bạn hãy tạo ra một bộ lọc tùy chỉnh.

    Hãy chọn INCLUDE, sau đó chọn "Hostname" trên trường filter và copy biểu thực của bạn vào khung Filter Pattern.

    [​IMG]

    Bạn có thể muốn kiểm tra bộ lọc trước khi lưu để chắc chắn rằng mọi thứ đều ổn. Khi bạn đã sẵn sàng, bạn lưu nó và apply bộ lọc cho tất cả những gì bạn muốn xem.

    Bộ lọc này sẽ giúp bạn thoát khỏi những sự cố trong tương lai mà ghost spam sử dụng hostname không hợp lệ và nó không mất nhiều thời gian để bảo trì. Nhưng điều quan trọng là mỗi khi bạn thêm mã theo dõi của bạn cho bất kỳ dịch vụ nào, bạn nên thêm vào cuối của bộ lọc.

    Bây giờ bạn chỉ cần quan tâm đến crawler spam. Khi trình thu thập truy cập trang web của bạn, bạn có thể ngăn chặn chúng bằng cách thêm các dòng này vào tập tin .htaccess:

    PHP:
    ## STOP REFERRER SPAM

    RewriteCond %{HTTP_REFERERsemalt\.com [NC,OR]

    RewriteCond %{HTTP_REFERERbuttons-for-website\.com [NC]

    RewriteRule .* - [F]
    Điều quan trọng phải lưu ý rằng tập tin này là rất nhạy cảm và nếu bạn đặt sai một ký tự nào đó nó có thể tác động xấu đến toàn bộ trang web của bạn. Vì vậy, hãy chắn chắn rằng bạn tạo ra một bản backup của tập tin này trước khi chỉnh sửa nó.

    Nếu bạn không cảm thấy thoải mái với tập tin này, bạn có thể tạo ra một biểu thức với tất cả các trình thu thập và sau đó thêm nó vào exclude filter của Campaign Source.

    Thực hiện kết hợp các giải pháp và bạn sẽ lo lắng nhiều hơn về spam gây ô nhiễm dữ liệu phân tích của bạn. Sau khi chặn spam, bạn cũng có thể nhận được các báo cáo sạch từ lịch sử dữ liệu bằng cách sử dụng các biểu thức tương tự trong Advance Segment để exclude tất cả spam.

    Tặng thêm vài kinh nghiệm để giúp bạn quản lý spam

    Nếu bạn vẫn còn cần thêm thông tin để giúp bạn hiểu và đối phó với spam trên báo cáo GA của bạn, bạn có thể đọc thêm bài viết này của tôi tại đây. Và để biết thêm thông tin làm thế nào để ngăn chặn spam, bạn cũng có thể đọc thêm bài này và bài này nữa.

    Xin phép được kết thúc bài viết này, tôi rất mong nhận được ý kiến của bạn về vấn đề nghiêm trọng này. Hãy chia sẻ chúng bên dưới bài viết này.

    Ghi nguồn
    PHP:
    www.thegioiseo.com
     
    #1

Chia sẻ trang này