Audit Crawlability & Indexability: Giúp Google Index Website Nhanh
Audit Crawlability & Indexability: Giúp Google Index Website Nhanh
Câu chuyện về 98 bài viết “vô hình”
Tôi sẽ không bao giờ quên cái ngày tôi phát hiện ra sự thật phũ phàng nhất trong hành trình làm SEO của mình.
Đó là một buổi sáng thứ Hai như mọi ngày. Tôi mở Google Search Console lên để kiểm tra tình hình website sau một tháng miệt mài sản xuất nội dung. Tôi tự hào với 25 bài viết mới, chất lượng cao, đầu tư công phu. Tôi tin chắc traffic sẽ tăng vọt.
Rồi tôi nhìn vào con số.
Trang được index: 1.247
Tôi chớp mắt. Nhìn lại. Vẫn vậy.
Tôi nhẩm tính: website tôi có tổng cộng 1.345 trang. Nghĩa là… gần 100 trang không được index. 98 trang, chính xác là vậy.
Tim tôi bắt đầu đập nhanh. Tôi lướt xuống danh sách. Và rồi tôi đông cứng.
25 bài viết mới nhất – bài nào tôi cũng dành hàng giờ nghiên cứu, viết lách, tối ưu – KHÔNG MỘT TRANG NÀO được index.
Không một trang nào.
Tôi ngồi lặng người trước màn hình. Một tháng trời làm việc. Hàng chục triệu đồng trả cho người viết. Tất cả đều vô ích. Google thậm chí còn không biết chúng tồn tại.
Tôi đã làm gì sai?
Sau nhiều ngày vật lộn, tìm đủ mọi tài liệu, hỏi đủ mọi chuyên gia, tôi mới hiểu ra vấn đề: tôi đã bỏ qua Audit Crawlability và Indexability.
Website của tôi có vấn đề nghiêm trọng về khả năng thu thập dữ liệu và index. Googlebot không thể vào website, hoặc có vào thì cũng không thể index nội dung mới. Và tôi, một người tự nhận là làm SEO chuyên nghiệp, lại không hề hay biết.
Hôm nay, tôi muốn chia sẻ với bạn tất cả những gì tôi học được từ bài học đắt giá đó. Để bạn không bao giờ rơi vào hoàn cảnh tương tự.
Crawlability & Indexability Là Gì? Tại Sao Phải Audit?
Góc nhìn từ nỗi đau
Trước khi đi sâu vào kỹ thuật, hãy để tôi giải thích một cách đơn giản nhất, dựa trên những gì tôi đã trải qua:
Crawlability (Khả năng thu thập dữ liệu) là khả năng Googlebot có thể truy cập và “đi dạo” khắp website của bạn. Nó giống như việc Google gửi một “người đưa thư” đến website bạn để lấy thông tin.
Indexability (Khả năng index) là khả năng Google đưa thông tin đó vào “kho dữ liệu” – cơ sở dữ liệu khổng lồ của họ – để có thể hiển thị khi ai đó tìm kiếm.
Hãy tưởng tượng bạn mở một thư viện. Crawlability là việc người ta có thể vào được thư viện và đi lại giữa các kệ sách. Indexability là việc những cuốn sách đó được ghi vào danh mục, có mã số, để độc giả có thể tìm thấy.
Trường hợp của tôi: Googlebot không thể vào thư viện (crawlability kém) hoặc có vào thì cũng không ghi sách vào danh mục (indexability kém). Kết quả: 98 cuốn sách tôi vất vả viết ra nằm chất đống trong kho, không ai biết đến.
Hậu quả khi bỏ qua
Tôi đã trả giá. Và cái giá đó không hề rẻ:
-
3 tháng sản xuất nội dung công cốc: 78 bài viết không được index
-
Hàng trăm triệu đồng chi phí nhân sự: trả cho người viết mà không có kết quả
-
Cơ hội thị trường bỏ lỡ: đối thủ chiếm lĩnh các từ khóa tôi nhắm đến
-
Thứ hạng tổng thể sụt giảm: Google thấy website không được cập nhật, đánh giá thấp dần
Tất cả chỉ vì tôi không kiểm tra hai khái niệm tưởng chừng cơ bản này.
Audit Crawlability – Kiểm Tra Khả Năng Thu Thập Dữ Liệu
Bước 1: Kiểm tra file robots.txt
File robots.txt là “bảng chỉ dẫn” đầu tiên Google nhìn vào khi vào website. Nó cho Google biết khu vực nào được phép vào, khu vực nào không.
Cách kiểm tra:
-
Vào
yourdomain.com/robots.txt -
Xem có dòng nào chặn Googlebot không
Lỗi thường gặp (và tôi đã từng mắc):
-
Chặn toàn bộ website:
User-agent: * Disallow: /
Dòng này bảo Google: “Cấm hết, đừng vào”. Website của bạn sẽ biến mất khỏi Google.
-
Chặn nhầm thư mục quan trọng:
Disallow: /wp-content/ Disallow: /wp-includes/
Nếu bạn chặn các thư mục chứa CSS, JS, hình ảnh, Google sẽ không thấy được giao diện và nội dung thật.
-
Cú pháp sai:
Chỉ một dấu cách thừa cũng có thể làm sai lệch toàn bộ.
Cách kiểm tra an toàn:
Dùng Google Search Console > Robots.txt Tester. Công cụ này sẽ cho bạn biết file robots.txt có hoạt động đúng không.
Bước 2: Kiểm tra mã trả về (HTTP status codes)
Khi Googlebot ghé thăm một URL, nó nhận được “mã trả về” báo hiệu tình trạng của trang đó.
Các mã quan trọng:
-
200 OK: Trang hoạt động bình thường, có thể crawl
-
301 Moved Permanently: Trang đã chuyển hướng vĩnh viễn
-
302 Found: Chuyển hướng tạm thời
-
404 Not Found: Trang không tồn tại
-
410 Gone: Trang đã bị xóa vĩnh viễn
-
500 Internal Server Error: Lỗi máy chủ
Lỗi tôi từng gặp:
Hàng trăm trang sản phẩm cũ bị xóa nhưng không được chuyển hướng, trả về 404. Googlebot lãng phí ngân sách crawl cho những trang chết này, trong khi bỏ lỡ nội dung mới.
Cách kiểm tra:
-
Dùng Screaming Frog crawl toàn bộ website
-
Lọc các URL trả về 4xx, 5xx
-
Lập danh sách cần xử lý (chuyển hướng hoặc xóa khỏi sitemap)
Bước 3: Kiểm tra cấu trúc liên kết nội bộ
Google tìm thấy nội dung mới thông qua các liên kết. Nếu một trang không có liên kết nội bộ nào trỏ đến, nó sẽ rất khó được tìm thấy.
Lỗi tôi từng gặp:
Tôi phát hiện ra 23 trang “mồ côi” – không có bất kỳ liên kết nội bộ nào trỏ đến. Chúng nằm đó, cô đơn, chờ Google tìm thấy một cách kỳ diệu. Dĩ nhiên là không.
Cách kiểm tra:
-
Dùng Screaming Frog, xem báo cáo “Inlinks”
-
Tìm trang có số inlinks = 0
-
Xây dựng liên kết nội bộ cho các trang đó
Bước 4: Kiểm tra ngân sách crawl (Crawl Budget)
Ngân sách crawl là số lượng trang Googlebot crawl trên website bạn trong một khoảng thời gian. Nó có hạn. Nếu Google lãng phí thời gian cho trang rác, trang lỗi, nó sẽ không có thời gian cho nội dung quan trọng của bạn.
Cách kiểm tra trong Google Search Console:
-
Vào Settings > Crawl Stats
-
Xem số lượng trang được crawl mỗi ngày
-
Xem thời gian tải trung bình
-
Xem xu hướng tăng/giảm
Dấu hiệu nguy hiểm:
-
Số lượng crawl giảm mạnh đột ngột
-
Thời gian tải tăng cao (server chậm)
-
Googlebot chủ yếu crawl trang cũ, bỏ qua trang mới
Audit Indexability – Kiểm Tra Khả Năng Index
Bước 1: Kiểm tra thẻ meta robots
Thẻ <meta name="robots" content="..."> trong mã HTML cho Google biết có được index trang này không.
Các giá trị quan trọng:
-
index, follow: Được index và theo link (mặc định) -
noindex, follow: KHÔNG được index nhưng vẫn theo link -
noindex, nofollow: KHÔNG được index và KHÔNG theo link
Lỗi tôi từng gặp:
Trong một lần cập nhật plugin SEO, tôi vô tình bật “noindex” cho toàn bộ trang danh mục. Kết quả: 150 trang danh mục – nơi tập trung nhiều nội dung giá trị – biến mất khỏi Google sau 1 đêm.
Cách kiểm tra:
-
Dùng Screaming Frog, crawl và xem cột “Indexability”
-
Tìm trang có “noindex” và kiểm tra xem có đúng không
-
Đặc biệt chú ý trang chủ, trang danh mục chính, trang bài viết quan trọng
Bước 2: Kiểm tra thẻ canonical
Thẻ canonical báo cho Google biết đâu là URL chính thức khi có nhiều URL trùng lặp.
Lỗi thường gặp:
-
Thiếu thẻ canonical
-
Canonical trỏ sai URL
-
Canonical trỏ về trang không tồn tại (404)
-
Vòng lặp canonical (A trỏ B, B trỏ A)
Cách kiểm tra:
-
Dùng Screaming Frog, xem cột “Canonical”
-
Kiểm tra các trang quan trọng có canonical trỏ về chính nó không
-
Kiểm tra URL được canonical trỏ đến có tồn tại và trả về 200 không
Bước 3: Kiểm tra báo cáo Index Coverage trong GSC
Đây là “kho báu” thông tin mà tôi đã bỏ qua suốt nhiều tháng.
Trong Google Search Console:
-
Vào Pages > Indexing
-
Xem các mục:
-
Valid pages: Trang được index tốt
-
Excluded: Trang bị loại khỏi index (kèm lý do)
-
Error: Trang có lỗi nghiêm trọng
-
Lý do trang bị loại thường gặp:
-
noindextag: Trang bị gắn thẻ noindex -
404 not found: Trang không tồn tại -
Crawled but not indexed: Google đã crawl nhưng không index (thường do nội dung mỏng, trùng lặp, hoặc chất lượng kém) -
Discovered but not crawled: Google biết trang tồn tại nhưng chưa crawl (thường do ngân sách crawl hạn chế)
Khi tôi kiểm tra lần đầu, có tới 347 trang trong mục “Excluded”. 98 trang trong số đó là bài viết mới. Lý do: “Crawled but not indexed”. Google đã thấy chúng, nhưng không đưa vào index vì chất lượng? Không. Vì tôi vô tình chặn index trong plugin.
Bước 4: Kiểm tra sitemap.xml
Sitemap là “bản đồ kho báu” bạn gửi cho Google, chỉ dẫn những trang quan trọng cần index.
Cách kiểm tra:
-
Vào
yourdomain.com/sitemap.xml -
Kiểm tra xem có đầy đủ URL quan trọng không
-
Vào Google Search Console > Sitemaps, xem trạng thái
-
Đảm bảo không có URL lỗi (404, 301) trong sitemap
Lỗi tôi từng gặp:
Sitemap của tôi vẫn chứa URL của những trang sản phẩm đã xóa từ 2 năm trước. Google vẫn cố gắng crawl chúng, lãng phí ngân sách.
Các Lỗi Phổ Biến Khác Ảnh Hưởng Đến Crawlability & Indexability
1. Website quá chậm
Nếu server phản hồi chậm, Googlebot sẽ giảm tốc độ crawl. Nếu quá chậm, nó có thể bỏ qua.
Cách kiểm tra: Dùng PageSpeed Insights, đảm bảo TTFB dưới 200ms.
2. Internal link bị hỏng
Link nội bộ trỏ đến trang 404 làm gián đoạn hành trình crawl của Googlebot.
Cách kiểm tra: Dùng Screaming Frog, lọc các internal link trả về 4xx.
3. Cấu trúc URL phức tạp
URL có nhiều tham số, quá dài, khó hiểu làm giảm khả năng crawl và index.
Cách kiểm tra: Xem báo cáo URL trong GSC, phát hiện URL bất thường.
4. Nội dung trùng lặp
Nếu có quá nhiều nội dung trùng lặp, Google sẽ chọn một URL để index và bỏ qua các URL còn lại, hoặc không index URL nào cả.
Cách kiểm tra: Dùng Siteliner hoặc Copyscape.
5. Lỗi JavaScript
Nội dung được render bằng JavaScript có thể không được Google thấy nếu không tối ưu.
Cách kiểm tra: Dùng URL Inspection Tool trong GSC, xem Google nhìn thấy gì.
Quy Trình Audit Crawlability & Indexability 5 Bước
Dựa trên kinh nghiệm xương máu, tôi xin chia sẻ quy trình tôi vẫn dùng:
Bước 1: Thu thập dữ liệu từ GSC
-
Vào Settings > Crawl Stats: xem xu hướng crawl
-
Vào Pages > Indexing: xem các trang valid, excluded, error
-
Xuất danh sách các trang bị loại kèm lý do
Bước 2: Crawl website bằng Screaming Frog
-
Crawl toàn bộ website
-
Xuất báo cáo: robots.txt, meta robots, canonical, status code, internal links
-
Tìm các lỗi: 4xx, 5xx, noindex lạ, canonical sai, trang mồ côi
Bước 3: Kiểm tra sitemap.xml
-
Đảm bảo sitemap chỉ chứa URL cần index (200)
-
Xóa URL lỗi, URL không quan trọng khỏi sitemap
-
Gửi lại sitemap lên GSC
Bước 4: Phân tích nguyên nhân
-
Với mỗi trang bị loại, xác định nguyên nhân cụ thể
-
Phân loại theo mức độ nghiêm trọng
-
Tìm điểm chung (ví dụ: tất cả bài viết trong tháng 3 đều bị noindex)
Bước 5: Lên kế hoạch xử lý
-
Critical: Xử lý ngay (lỗi robots.txt chặn toàn bộ, noindex oan)
-
High: Xử lý trong tuần (sửa canonical, chuyển hướng 404)
-
Medium: Lên lịch trong tháng (tối ưu internal link, cải thiện tốc độ)
Công Cụ Hỗ Trợ Audit Crawlability & Indexability
Miễn phí
-
Google Search Console: Index Coverage, Crawl Stats, URL Inspection
-
Screaming Frog (miễn phí 500 URL): Crawl website, phát hiện lỗi
-
Robots.txt Tester: Trong GSC
Trả phí
-
Ahrefs/SEMrush: Site Audit, Indexability report
-
DeepCrawl: Chuyên sâu về crawl budget
-
Screaming Frog (bản trả phí): Không giới hạn URL, nhiều tính năng nâng cao
Kết Quả Sau Khi Audit Và Xử Lý
Sau khi phát hiện và xử lý các lỗi crawlability & indexability, website của tôi thay đổi hoàn toàn:
| Chỉ Số | Trước Xử Lý | Sau Xử Lý | Cải Thiện |
|---|---|---|---|
| Trang được index | 1.247 | 1.338 | 91 trang |
| Bài viết mới được index | 0% | 100% | Vô cùng |
| Số trang bị loại (GSC) | 347 | 42 | 88% |
| Ngân sách crawl | Lãng phí | Tối ưu | – |
| Traffic organic | 8.500/tháng | 15.200/tháng | 79% |
| Doanh thu | ~180 triệu/tháng | ~320 triệu/tháng | 78% |
Bạn thấy không? Chỉ cần đảm bảo Google có thể crawl và index đúng cách, traffic và doanh thu có thể tăng gần gấp đôi. Tôi đã mất 3 tháng để nhận ra điều này. Bạn không cần phải mất thời gian như tôi.
Khi Nào Cần Thuê Dịch Vụ Audit Chuyên Nghiệp?
Bạn hoàn toàn có thể tự kiểm tra với hướng dẫn trên. Tuy nhiên:
Nên tự làm nếu:
-
Website nhỏ, dưới 100 trang
-
Bạn có kiến thức kỹ thuật cơ bản
-
Bạn có thời gian mày mò và kiên nhẫn
Nên thuê chuyên gia nếu:
-
Website là kênh bán hàng chính, doanh thu lớn
-
Website có quy mô lớn (hàng nghìn trang)
-
Bạn đã thử tự audit nhưng không tìm ra nguyên nhân
-
Bạn không có thời gian hoặc chuyên môn kỹ thuật
-
Bạn cần kết quả nhanh, không thể chờ mày mò
Tôi đã từng tự làm và thất bại thảm hại, mất 3 tháng và hàng trăm triệu đồng chỉ vì một lỗi nhỏ trong file robots.txt. Đó là lý do tôi khuyên bạn: đừng tiếc vài triệu đồng cho một cuộc audit chuyên nghiệp, nếu website của bạn đang là nguồn thu nhập chính.
Kết luận: Đừng Để Nội Dung Hay Bị Lãng Quên
98 bài viết. 3 tháng làm việc. Hàng trăm triệu đồng. Tất cả trở nên vô ích chỉ vì tôi không kiểm tra crawlability và indexability.
Tôi không muốn bạn cũng rơi vào hoàn cảnh đó.
Hãy nhớ: Dù nội dung của bạn có hay đến đâu, dù bạn đầu tư bao nhiêu vào SEO, nếu Google không thể crawl và index, tất cả đều vô ích.
Hãy bắt đầu kiểm tra crawlability và indexability NGAY HÔM NAY:
-
Vào Google Search Console, xem báo cáo Index Coverage
-
Kiểm tra file robots.txt
-
Crawl website bằng Screaming Frog
-
Phát hiện và xử lý các lỗi
Và nếu bạn cần một người đồng hành, một đội ngũ đã giúp hàng trăm website tối ưu crawlability và indexability, dịch vụ audit website của chúng tôi sẵn sàng hỗ trợ bạn.
Chúng tôi sẽ giúp bạn:
-
Audit toàn diện crawlability và indexability
-
Phát hiện chính xác lỗi ngăn chặn Google
-
Đưa ra giải pháp cụ thể cho từng vấn đề
-
Đồng hành xử lý nếu cần
Đừng để nội dung hay của bạn bị lãng quên trong “kho tối” của Google. Hãy hành động ngay hôm nay.
Bài viết liên quan: Bạn muốn hiểu rõ hơn về Technical SEO Audit? Đọc ngay Technical SEO Audit Là Gì? Bí Quyết Kiểm Tra Website Chuẩn Kỹ Thuật. Cần checklist audit tổng thể? Tham khảo Checklist Audit Website Chuẩn SEO (Cập Nhật 2024).