Technical SEO

Sitemap XML là gì? Hướng dẫn tạo và submit sitemap chuẩn SEO

Sitemap XML là gì? Hướng dẫn đầy đủ cấu trúc sitemap chuẩn, những gì nên và không nên đưa vào sitemap, cách submit lên Google Search Console và theo dõi trạng thái indexing.

A
admin
07/08/2025
8 phút đọc
1,618 từ

Mỗi khi nói chuyện với chủ website về Technical SEO, câu hỏi “sitemap của bạn đã submit lên Google chưa?” thường nhận được câu trả lời “có, tôi nghĩ vậy” hoặc “plugin tự tạo rồi chắc ổn thôi”. Thực tế, sitemap bị cấu hình sai hoặc bị bỏ quên là một trong những vấn đề Technical SEO phổ biến nhất — và cũng dễ sửa nhất nếu hiểu đúng. Bài viết này giải thích toàn diện về XML sitemap (sơ đồ trang XML — file định dạng XML liệt kê tất cả URLs quan trọng của website cùng metadata về mỗi URL, giúp Googlebot khám phá và crawl nội dung hiệu quả hơn).

Sitemap XML Là Gì và Tại Sao Cần Có?

XML sitemap là file văn bản có định dạng XML được đặt trên server của website, thường tại URL như https://example.com/sitemap.xml, chứa danh sách các URL quan trọng cùng thông tin bổ sung:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://seonhanh.top/blog-seo/technical-seo/sitemap-xml-la-gi/</loc>
    <lastmod>2025-08-07</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Sitemap không phải ranking factor trực tiếp — có sitemap không tự động giúp trang rank cao hơn. Nhưng sitemap đóng vai trò quan trọng trong việc:

  • Khám phá URL: Googlebot khám phá trang mới nhanh hơn, đặc biệt các trang không được link đến từ bất kỳ trang nào khác (orphan pages)
  • Truyền đạt metadata: Thông báo cho Google về tần suất cập nhật và độ ưu tiên tương đối của từng URL
  • Hỗ trợ crawl budget: Giúp Googlebot ưu tiên crawl đúng trang quan trọng

Các Loại Sitemap

  • XML sitemap: Loại phổ biến nhất, dành cho Googlebot, liệt kê URLs trang web
  • Image sitemap (sitemap hình ảnh): Bao gồm metadata về hình ảnh để Google Images index tốt hơn
  • Video sitemap: Metadata về video cho Google Video
  • News sitemap: Dành cho website tin tức muốn xuất hiện trong Google News — yêu cầu đặc biệt từ Google
  • HTML sitemap (sitemap HTML — trang web dành cho người dùng liệt kê tất cả trang quan trọng): Không phải cho Googlebot mà cho người dùng điều hướng — ít được dùng hơn
  • Sitemap index (file index sitemap — file XML chứa danh sách các sitemap con): Dùng khi sitemap vượt quá giới hạn 50.000 URLs hoặc 50MB

Cấu Trúc XML Sitemap Đúng Chuẩn

Các properties (thuộc tính) trong sitemap XML:

Tag Bắt buộc? Ý nghĩa Ghi chú quan trọng
<loc> ✅ Bắt buộc URL đầy đủ của trang Phải là absolute URL (URL tuyệt đối), bao gồm https://
<lastmod> ⭐ Nên có Ngày cập nhật lần cuối Định dạng ISO 8601: 2025-08-07 hoặc 2025-08-07T10:30:00+07:00
<changefreq> ❌ Không cần Tần suất thay đổi dự kiến Google thường bỏ qua — không cần điền
<priority> ❌ Không cần Độ ưu tiên tương đối (0.0–1.0) Google thường bỏ qua — không cần điền

Lưu ý quan trọng: changefreqpriority không được Google sử dụng theo xác nhận chính thức. Đừng tốn thời gian tối ưu hai trường này.

Những Gì NÊN và KHÔNG NÊN Đưa Vào Sitemap

NÊN đưa vào sitemap:

  • Tất cả trang canonical (trang chính thức) có nội dung giá trị
  • Trang chủ, category pages, product pages, bài viết blog quan trọng
  • Trang có nội dung mới hoặc vừa cập nhật

KHÔNG NÊN đưa vào sitemap:

  • Trang có thẻ noindex — mâu thuẫn signal: bạn vừa muốn Google không index vừa thêm vào sitemap
  • Trang có canonical trỏ về URL khác — chỉ đưa canonical URL vào sitemap
  • Trang redirect (trang chuyển hướng) — chỉ đưa destination URL (URL đích)
  • Trang 404 hoặc có lỗi server
  • URL có parameters (tham số) tạo duplicate content
  • Trang có chất lượng thấp, mỏng nội dung
  • Trang pagination (phân trang) không quan trọng (trang 2, 3, 4…)

Submit Sitemap Lên Google Search Console

Sau khi tạo hoặc cập nhật sitemap:

  1. Đăng nhập Google Search Console → chọn property (tài sản) website
  2. Vào Indexing → Sitemaps
  3. Nhập URL sitemap: sitemap.xml hoặc sitemap_index.xml
  4. Click Submit
  5. Kiểm tra trạng thái: “Success” nghĩa là Google đã nhận và đang xử lý

Theo dõi hàng tuần: cột “Discovered URLs” vs “Indexed URLs” — nếu nhiều URLs được phát hiện nhưng ít được index → có vấn đề cần điều tra.

Sitemap Với WordPress — Plugin Và Tự Tạo

WordPress tự động tạo sitemap cơ bản từ WordPress 5.5+. Tuy nhiên, plugin SEO cho nhiều control hơn:

  • Rank Math: Tạo sitemap tự động, tùy chỉnh loại content nào được include, support video/image sitemap, auto-ping Google khi có nội dung mới
  • Yoast SEO: Tương tự, có thêm tính năng news sitemap cho website báo chí
  • Google XML Sitemaps: Plugin chuyên dụng nhẹ hơn nếu không dùng plugin SEO all-in-one

Kết hợp sitemap tốt với robots.txt chuẩn, hiểu rõ crawling và indexingcanonical tag để đảm bảo Googlebot hoạt động hiệu quả trên website của bạn.

Câu hỏi thường gặp về Sitemap XML

Sitemap có giúp trang rank cao hơn không?

Sitemap không trực tiếp ảnh hưởng đến rankings. Vai trò của sitemap là đảm bảo Google biết đến và crawl được tất cả trang quan trọng — đây là điều kiện tiên quyết để trang có thể rank. Trang không được index thì không thể rank dù content tốt đến mấy. Sitemap đặc biệt quan trọng với trang mới, trang ít internal links, và website lớn có nhiều trang không dễ để Googlebot tự khám phá qua links.

Sitemap có thể chứa tối đa bao nhiêu URLs?

Giới hạn chính thức của Google: mỗi sitemap tối đa 50.000 URLs50MB (uncompressed). Nếu website lớn hơn, dùng sitemap index file để tổ chức nhiều sitemap con — mỗi sitemap con có thể chứa 50.000 URLs, và sitemap index có thể chứa tối đa 50.000 sitemap con. Thực tế không nên nhồi 50.000 URLs vào một sitemap — chia theo content type (posts, pages, products, categories) dễ quản lý và monitor hơn.

Cần cập nhật sitemap thường xuyên không?

Với WordPress và plugin Rank Math hoặc Yoast, sitemap được cập nhật tự động mỗi khi publish nội dung mới — không cần làm thủ công. Với website tĩnh hoặc CMS tùy chỉnh, cần cập nhật sitemap mỗi khi thêm trang mới. Nên re-submit sitemap trong GSC sau mỗi lần cập nhật lớn (thêm nhiều trang mới, xóa nhiều trang cũ). Bật tính năng auto-ping trong plugin SEO để tự động thông báo Google mỗi khi sitemap thay đổi.

Tại sao GSC báo số URLs trong sitemap nhiều hơn số URLs được index?

Đây là hiện tượng rất phổ biến và có nhiều nguyên nhân: trang chất lượng thấp bị Google chọn không index, trang bị canonical về URL khác, trang có content trùng lặp, trang mới chưa được crawl đủ lần, hoặc trang có technical issues ngăn indexing. Hành động: vào GSC Coverage Report, lọc “Excluded” URLs, tìm lý do cụ thể. Với trang quan trọng bị exclude, sửa vấn đề và request indexing.