- Crawling Là Gì? Googlebot Hoạt Động Như Thế Nào?
- Crawl Budget — Tài Nguyên Có Giới Hạn
- Indexing Là Gì? Sự Khác Biệt Giữa Crawled và Indexed
- Google Search Console Coverage Report — Đọc Và Hiểu
- Cách Tăng Tốc Độ Indexing
- Câu hỏi thường gặp về Crawling và Indexing
- Tại sao trang được crawl nhưng không được index?
- Crawl budget có quan trọng với website nhỏ không?
- Có thể yêu cầu Google crawl lại trang đã bị penalize không?
- JavaScript rendering ảnh hưởng đến crawling như thế nào?
Trước khi một trang web có thể xuất hiện trên Google, nó phải trải qua hai giai đoạn bắt buộc: crawling và indexing. Hầu hết người làm SEO hiểu mơ hồ rằng “Google cần crawl trang của mình” — nhưng ít người hiểu chính xác quy trình đó diễn ra như thế nào, tại sao một số trang không được crawl, và tại sao một số trang được crawl nhưng lại không được index. Hiểu rõ hai giai đoạn này là nền tảng để giải quyết hầu hết vấn đề Technical SEO.
Crawling Là Gì? Googlebot Hoạt Động Như Thế Nào?
Crawling (thu thập — quá trình Googlebot tự động theo dõi các hyperlinks để khám phá và tải xuống nội dung các trang web trên internet) là bước đầu tiên trong quy trình Google xử lý một trang web.
Googlebot (web crawler của Google — phần mềm tự động thu thập thông tin web để cập nhật cơ sở dữ liệu của Google) hoạt động theo cách sau:
- Khởi đầu từ seed URLs (URL hạt giống — danh sách URL ban đầu được biết đến): Googlebot bắt đầu từ danh sách URL đã biết trước — homepage, URLs trong sitemap, URLs đã được index từ trước
- Fetch và parse (tải về và phân tích cú pháp): Tải nội dung trang, đọc HTML (và JavaScript nếu cần)
- Discover new URLs (khám phá URL mới): Trích xuất tất cả links trong trang → thêm vào crawl queue (hàng đợi crawl)
- Repeat: Tiếp tục crawl các URL mới phát hiện
Googlebot có nhiều loại khác nhau cho từng mục đích:
- Googlebot (Desktop): Crawl phiên bản desktop của trang
- Googlebot (Smartphone): Crawl phiên bản mobile — đây là primary crawler trong Mobile-First Indexing
- Googlebot Image: Crawl hình ảnh cho Google Images
- Googlebot Video: Crawl video cho Google Video
- AdsBot (bot kiểm tra chất lượng landing page của Google Ads): Riêng biệt với Googlebot thông thường
Crawl Budget — Tài Nguyên Có Giới Hạn
Crawl budget (ngân sách crawl — số lượng URLs Googlebot sẵn sàng crawl trên website của bạn trong một khoảng thời gian nhất định, bị giới hạn bởi tốc độ crawl và nhu cầu crawl) là khái niệm quan trọng đặc biệt với website lớn.
Crawl budget bị ảnh hưởng bởi hai yếu tố:
- Crawl rate limit (giới hạn tốc độ crawl): Google không crawl quá nhanh để không làm quá tải server của bạn. Server chậm → Googlebot crawl chậm hơn và ít hơn
- Crawl demand (nhu cầu crawl): Google ưu tiên crawl các trang được nhiều người dùng và link đến — trang mới hoặc ít authority được crawl ít hơn
Dấu hiệu website đang lãng phí crawl budget:
- Hàng nghìn URL với tham số (parameters) như
?sort=price&color=red— mỗi combination là một URL mới cho Googlebot - Nhiều faceted navigation (điều hướng lọc sản phẩm) trong e-commerce tạo ra hàng triệu URL tương tự
- Nhiều duplicate pages (trang trùng lặp) với nội dung giống nhau
- Nhiều redirect chains (chuỗi chuyển hướng) — Googlebot mất budget cho mỗi redirect step
- Nhiều soft 404s (lỗi 404 mềm — trang trả về HTTP 200 nhưng hiển thị thông báo “không tìm thấy”)
Indexing Là Gì? Sự Khác Biệt Giữa Crawled và Indexed
Indexing (lập chỉ mục — quá trình Google phân tích nội dung trang đã crawl, xử lý thông tin và lưu vào cơ sở dữ liệu khổng lồ để có thể truy xuất khi người dùng tìm kiếm) là bước sau crawling — nhưng không phải mọi trang được crawl đều được index.
Google có thể crawl một trang nhưng chọn không index khi:
- Trang có thẻ
<meta name="robots" content="noindex"> - Trang bị block bởi
robots.txt(trong trường hợp này thực ra Googlebot không crawl nốt) - Trang có nội dung thin content (nội dung mỏng — quá ít nội dung hoặc nội dung không có giá trị)
- Trang có quá nhiều duplicate content (nội dung trùng lặp) với trang khác — Google chọn canonical version
- Trang vi phạm Google Search Essentials (các yêu cầu tối thiểu để được Google index, trước đây gọi là Webmaster Guidelines)
Google Search Console Coverage Report — Đọc Và Hiểu
Coverage Report (Báo cáo phạm vi trong Google Search Console — hiển thị trạng thái index của tất cả URLs Google biết đến trên website của bạn) phân loại URLs thành 4 nhóm:
| Trạng thái | Màu | Ý nghĩa | Hành động |
|---|---|---|---|
| Error (lỗi) | 🔴 Đỏ | Trang không được index do lỗi: 404, server error, redirect error | Sửa ngay nếu là trang quan trọng |
| Valid with warning (hợp lệ có cảnh báo) | 🟡 Vàng | Trang được index nhưng có vấn đề cần chú ý | Kiểm tra và xử lý từng trường hợp |
| Valid (hợp lệ) | 🟢 Xanh | Trang được index bình thường | Không cần làm gì |
| Excluded (bị loại trừ) | ⚫ Xám | Trang không được index nhưng không phải lỗi: noindex, canonical, duplicate | Kiểm tra xem có trang quan trọng nào bị loại trừ sai không |
Cách Tăng Tốc Độ Indexing
Khi publish bài mới và muốn Google index nhanh hơn:
- Google Search Console → URL Inspection → Request Indexing: Yêu cầu Google crawl URL cụ thể ngay lập tức — thường được xử lý trong vài giờ đến vài ngày
- Submit sitemap: Đảm bảo XML sitemap đã được submit và bao gồm URL mới. Chi tiết tại sitemap XML là gì
- Internal linking: Link từ trang đang được crawl thường xuyên (homepage, trang được nhiều traffic) đến trang mới — Googlebot sẽ tìm thấy qua link. Chi tiết tại Internal Link là gì
- Chia sẻ trên mạng xã hội: Social mentions giúp Google nhận diện URL mới nhanh hơn
- Cải thiện server speed: TTFB (Time to First Byte) nhanh → Googlebot crawl được nhiều trang hơn trong cùng thời gian
Đọc thêm về robots.txt, canonical tag và technical SEO audit toàn diện.
Câu hỏi thường gặp về Crawling và Indexing
Tại sao trang được crawl nhưng không được index?
Nhiều nguyên nhân có thể xảy ra: trang có thẻ noindex, trang có canonical trỏ về URL khác (Google index canonical version thay vì), nội dung quá mỏng hoặc trùng lặp với trang khác, trang bị Google đánh giá là low quality (chất lượng thấp), hoặc trang có HTTP status code 4xx/5xx lúc Googlebot crawl. Cách kiểm tra nhanh nhất: URL Inspection trong Google Search Console sẽ hiển thị lý do cụ thể tại sao trang không được index.
Crawl budget có quan trọng với website nhỏ không?
Với website dưới 1.000 trang, crawl budget hầu như không phải vấn đề cần lo — Google đủ tài nguyên để crawl toàn bộ site thường xuyên. Crawl budget trở nên critical với website từ 10.000 trang trở lên, đặc biệt là e-commerce với nhiều product variants (biến thể sản phẩm) và filtered URLs (URL lọc). Dấu hiệu cần lo lắng về crawl budget: số URLs trong sitemap lớn hơn nhiều so với số URLs được index trong GSC Coverage Report.
Có thể yêu cầu Google crawl lại trang đã bị penalize không?
Có, nhưng phải sửa vấn đề gây ra penalty trước. Với algorithmic penalties (hình phạt thuật toán — ranking giảm do thuật toán Google tự động phát hiện vi phạm): sửa vấn đề, sau đó chờ Google recrawl tự nhiên hoặc submit URL Inspection. Với manual actions (hành động thủ công từ nhân viên Google): sửa vấn đề, submit reconsideration request (yêu cầu xem xét lại) qua GSC → Manual Actions. Thời gian xử lý reconsideration request thường 2–4 tuần.
JavaScript rendering ảnh hưởng đến crawling như thế nào?
JavaScript rendering (render JavaScript — quá trình trình duyệt hoặc Googlebot thực thi code JavaScript để tạo ra nội dung trang cuối cùng) là thách thức lớn trong Technical SEO hiện đại. Google có thể render JavaScript nhưng chậm hơn và tốn kém hơn crawl HTML thuần. Trang sử dụng client-side rendering (render phía client — nội dung được tạo ra bởi JavaScript trong trình duyệt, không có trong HTML gốc) có thể bị crawl và index chậm hơn đáng kể so với trang HTML static. Giải pháp: server-side rendering (SSR — render trang trên server trước khi gửi cho client) hoặc dynamic rendering (phục vụ HTML pre-rendered cho Googlebot, JavaScript cho user).
