Tự động hóa báo cáo kỹ thuật với SEO

Thảo luận trong 'Thủ thuật khác' bắt đầu bởi cuongapple, 28/11/16.

  1. cuongapple Moderator Mod

    Tham gia ngày:
    8/6/14
    Khi mà Web ngày càng trở nên phức tạp hơn, với framework JavaScript và thư viện front ends trên website, các ứng dụng web tiên tiến, ứng dụng single-page, JSON-LD chúng ta đang nhìn thấy ngày càng nhiều những sai lầm. Khi bạn có HTML, CSS và các liên kết, có rất nhiều thứ bạn cần phải làm. Tuy nhiên, ngày nay các trang web được tạo ra động với giao điện JS phổ biến, có rất nhiều lỗi tiềm ẩn bên trong đó.

    [​IMG]

    Vấn đề thứ hai chúng ta phải đối mặt khá nhiều đó là rất khó để biết cái gì đó đang đi sai hướng hoặc khi Google thay đổi cách thức chúng ta đang xử lý một cái gì đó. Làm thế nào chúng ta có thể giải quyết những thách thức này?

    Cách cũ

    Trong lịch sử, cách bạn muốn phân tích những thứ này là nhìn vào tập tin log của bạn và sử dụng Excel hoặc nếu bạn đang hardcore bạn có thể sử dụng Log Parser. Điều đó là tuyệt vời nhưng chúng yêu cầu bạn phải hiểu rõ hoặc bạn đang tìm kiếm để lấy một phần của bản ghi có vấn đề mà bạn cần phải giải quyết. Không gì là không thể và chúng tôi đã viết về việc này khá nhiều trên blog và đã có những hướng dẫn cho việc phân tích file log.

    Mặc dù vấn đề này là khá rõ ràng. Nó đòi hỏi bạn phải nhìn chứ không phải là bạn nghĩ cần phải tìm cái gì đó. Với ý nghĩ đó, tôi nghĩ rằng tôi muốn dành thời gian điều tra xem liệu có điều gì đó có thể làm toàn bộ quá trình này mà chỉ mất một chút thời gian và hành động như là một hệ thống cảnh báo sớm.

    Giải pháp

    Đầu tiên chúng ta cần phải làm là thiết lập máy chủ để gửi tập tin log ở đâu đó. Giải pháp mà tôi sử dụng đó là log rotation. Tùy thuộc vào máy chủ của bạn, bạn sẽ sử dụng các phương pháp khác nhau để đạt được điều này, nhưng trên Nginx nó trông như thế này:

    Mã:
    # Time_iso8601 trông như thế này: 2016-08-10T14: 53: 00 + 01: 00
    if ($ time_iso8601 ~ "^ (\ d {4}) - (\ d {2}) - (\ d {2})") {
    bộ $ năm $ 1;
    bộ $ tháng $ 2;
    đặt $ ngày $ 3;
    }
    <Span class = "người biên soạn-invisible-space">
    </ Span> access_log /var/log/nginx/$year-$month-$day-access.log;

    Điều này cho phép bạn xem các bản ghi với một ngày cụ thể bằng cách đơn giản là kéo dữ liệu từ các tập tin liên quan đến ngày đó. Khi có thiết lập log rotation, chúng tôi có thể thiết lập một kịch bản để chạy lúc nửa đêm bằng cách sử dụng Cron để kéo tập tin log có liên quan đến dữ liệu ngày hôm qua và phân tích nó. Nếu bạn muốn, bạn có thể nhìn vài lần trong ngày hôm đó hoặc mỗi tuần một lần hoặc bất cứ khoảng thời gian nào phù hợp nhất với khối lượng dữ liệu của bạn.

    Câu hỏi tiếp theo là: Chúng tôi muốn tìm kiếm gì? Vâng, khi chúng ta đã có log cho ngày hôm đó, đây là điều mà hệ thống báo cáo của tôi trả về:

    Mã trạng thái 30*

    Tạo một danh sách tất cả các trang dẫn người dùng đến một chuyển hướng. Nếu trang liên kết đến trang web của bạn, hãy chuyển hướng nó đến điểm cuối. Nếu không hãy liên hệ với bất cứ ai liên kết đến bạn và phân loại các liên kết cần đi.

    Mã trạng thái 404

    Tương tự. Nguồn tài nguyên 404 cần phải được kiểm tra để chắc chắn rằng chúng đang bị thiếu. Bất cứ điều gì cũng cần phải điều tra lý do tại sao nó không được giải quyết.

    Mã trạng thái 50*

    Một điều xấu đã xảy ra và bạn sẽ không có một ngày tốt nếu bạn đang nhìn thấy nhiều mã 50*. Máy chủ của bạn đang hấp hối hoặc có thể toàn bộ trang web của bạn đang gặp nguy hiểm.

    Ngân sách thu thập

    Một danh sách chứa tất cả các nguồn tài nguyên mà Google đã thu thập, số lần nó được yêu cầu, bao nhiêu byte được chuyển giao và thời gian thực hiện để giải quyết những yêu cầu. So sánh nó với site map của bạn để tìm các trang mà Google sẽ không thu thập và khắc phục nó khi cần thiết.

    Các nguồn tài nguyên được yêu cầu

    Tương tự như trên nhưng nó chi tiết hơn và nó được yêu từ công cụ tìm kiếm.

    Các tác nhân xấu

    Nhiều bots đang tìm kiếm các lỗ hổng sẽ gửi yêu cầu tới những thứ như wp_admin, wp_login, 404s, config.php và các nguồn tài nguyên phổ biến khác. Bất kỳ địa chỉ IP nào mà được lặp đi lặp lại những yêu cầu sẽ được tự động thêm vào một danh sách đen IP.

    Mẫu báo cáo URL phù hợp

    Nó là đơn giản để sử dụng regex phù hợp với URL được yêu cầu với mô hình được xác định trước đó, báo cáo về các lĩnh vực cụ thể của trang web hoặc các trang. Ví dụ, bạn có thể báo cáo về yêu cầu hình ảnh, tập tin JavaScript được gọi, phân trang, submit form (thông qua tìm kiếm các yêu cầu POST), các tham số truy vấn hoặc bất kỳ điều gì nếu bạn muốn. Hãy cung cấp cho nó một URL hoặc yêu cầu HTTP, bạn có thể thiết lập nó như một phân khúc được báo cáo.

    Hành vi tìm kiếm khó hiểu

    Số lượng log yêu cầu được thực hiện bởi Googlebot mỗi ngày. Nếu nó tăng nhiều hơn x%, đây là lúc bạn cần phải quan tâm. Lưu ý, với hầu hết các dãy số, việc tính toán để phát hiện giá trị ngoại lệ là không khó, nó chỉ hơi tốn một chút thời gian của bạn.

    Dữ liệu đầu ra

    Tùy thuộc vào các phần cụ thể, bạn có thể thiết lập các dữ liệu theo một vài cách. Thứ nhất, số lượng mã trạng thái 40* và 50* là lớn hoặc các tác nhân yêu cầu là xấu thì đây là lúc bạn cần phải quan tâm. Điều này có thể cho bạn biết nếu có điều gì đó xảy ra và nó có khả năng chỉ ra một vấn đề lớn. Sau đó bạn có thể nhận được đầu vào và giải quyết nó như là một vấn đề cần được ưu tiên.

    Toàn bộ dữ liệu cũng có thể được thiết lập để được báo cáo thông qua một bảng điều khiển. Nếu bạn không có nhiều dữ liệu trong log của bạn, có thể bạn chỉ muốn truy vấn các tập tin và tạo ra báo cáo mới mỗi khi bạn xem nó. Mặt khác, các trang web với nhiều lưu lượng truy cập và các file log lớn hơn, bạn có thể muốn cache dữ liệu vào một tập tin riêng biệt, vì vậy dữ liệu không cần phải tính toán. Tuy nhiên phương pháp bạn sử dụng sẽ phải phụ thuộc rất nhiều vào quy mô bạn đang có và phần cứng máy chủ của bạn.

    Kết luận

    Nhờ vào log máy chủ, bạn sẽ biết được những rủi ro tiềm ẩn trên trang web của bạn. Thông qua báo cáo các vấn đề kỹ thuật, bạn có thể biết được một thế giới mà Google thu thập thông tin với tốc độ nhanh hơn bao giờ hết, có nghĩa là họ có thể bắt đầu kéo thứ hạng của bạn xuống bởi thời gian chết của trang web hoặc lỗi trong vòng một vài giờ. Hãy thiết lập việc theo dõi và đảm bảo rằng bạn có thể tránh được các rủi ro tiềm ẩn với trang web của bạn.

    Ghi nguồn
    Mã:
    www.thegioiseo.com
     
    #1
    trangngoclove thích bài này.
  2. trangngoclove PageRank 1 Member

    Tham gia ngày:
    29/8/16
    cái này dính nhiều đến code, mà anh em seo thì chỉ hiểu sơ sơ thôi. đôi khi cũng nhận dự án về làm trong 1 vài tháng rồi ngưng nên cũng không cần điều náy lắm.
     
    #2
  3. shipcaptainno1 Moderator Thành viên BQT Mod

    Tham gia ngày:
    23/12/14
    thực sự quá khó :)). không có cách làm đơn giản hơn hả thím ơi
     
    #3

Chia sẻ trang này