Chính sách sử dụng dữ liệu cho AI
Tài liệu này giải thích chi tiết cách Zeni Cloud sử dụng dữ liệu Khách hàng để huấn luyện các agent AI nội bộ — Zeni Claw, Zeni Make và các agent chuyên biệt như NexBuild, BTHome, KOC. Chúng tôi cam kết minh bạch tuyệt đối: Khách hàng có toàn quyền opt-in hoặc opt-out, mọi dữ liệu phải đi qua quy trình ẩn danh hoá năm bước và năm lớp chống rò rỉ.
Mục lục
1. Tại sao Zeni cần dữ liệu để train AI?
Zeni Cloud xây dựng các agent AI riêng cho doanh nghiệp Việt Nam thay vì chỉ wrap các mô hình nước ngoài. Để mỗi agent thực sự hiểu ngữ cảnh kinh doanh tại Việt Nam, chúng tôi cần dữ liệu thực tế đã được ẩn danh hoá để huấn luyện và tinh chỉnh:
- Zeni Claw — agent đa năng: cần hiểu các nghiệp vụ phổ biến trong SME Việt Nam như quản lý kho, công nợ, chăm sóc khách hàng, báo cáo doanh thu.
- Zeni Make — agent thiết kế và sáng tạo: cần học style thiết kế phù hợp văn hoá Việt, từ font chữ, màu sắc đến bố cục poster, tờ rơi, ấn phẩm marketing.
- NexBuild — agent xây dựng web: cần hiểu cấu trúc website thương mại điện tử Việt, các chuẩn thanh toán nội địa, các tích hợp chuẩn (VNPay, Momo, Giao Hàng Nhanh).
- BTHome — agent bất động sản: cần dữ liệu về thị trường nhà đất theo khu vực, các thuật ngữ chuyên ngành, quy định pháp lý đặc thù.
- KOC — agent marketing: cần hiểu xu hướng nội dung, các nền tảng MXH phổ biến tại Việt Nam, hành vi người tiêu dùng.
Những hiểu biết sâu này không có sẵn trong các mô hình nguồn nước ngoài. Vì vậy, Zeni xây dựng quy trình train trên dữ liệu thực tế của khách hàng Việt — nhưng luôn ẩn danh hoá nghiêm ngặt để không bao giờ tiết lộ thông tin cá nhân hoặc bí mật kinh doanh của bất kỳ khách hàng cụ thể nào.
2. Pipeline ẩn danh hoá 5 bước
Trước khi bất kỳ dữ liệu nào của Khách hàng đã opt-in được đưa vào kho huấn luyện, dữ liệu phải đi qua trọn vẹn năm bước xử lý sau. Sơ đồ tổng quan:
┌───────────────────────────────────────────────────────────────────────┐
│ │
│ DỮ LIỆU GỐC TỪ WORKSPACE KHÁCH HÀNG (đã opt-in) │
│ - Văn bản, log nghiệp vụ, prompt người dùng, đầu ra agent │
│ │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ Bước 1 — STRIP PII │
│ Loại bỏ tên, email, số điện thoại, CMND/CCCD, biển số, địa chỉ, │
│ số thẻ, mã hợp đồng, số tài khoản, MST cá nhân │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ Bước 2 — K-ANONYMITY (k = 5) │
│ Mỗi bản ghi không thể phân biệt với ít nhất 4 bản ghi khác │
│ trên các thuộc tính chuẩn-định danh (tuổi, mã vùng, ngành) │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ Bước 3 — DIFFERENTIAL PRIVACY (epsilon = 1.0) │
│ Thêm nhiễu Laplace có kiểm soát toán học vào kết quả tổng hợp │
│ → Không ai có thể truy ngược cá nhân nào trong tập dữ liệu │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ Bước 4 — TOKENIZATION │
│ Thay các giá trị còn lại bằng token ngẫu nhiên không đảo ngược │
│ Lookup table được đốt sau khi sinh token │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ Bước 5 — VALIDATION │
│ Chạy battery test: │
│ - Membership inference attack │
│ - Linkage attack với tập public │
│ - Reconstruction attack │
│ Chỉ batch nào pass MỚI được commit vào kho zeni_ai_training │
└────────────────────────────────┬──────────────────────────────────────┘
│
▼
┌───────────────────────────────────────────────────────────────────────┐
│ KHO HUẤN LUYỆN BigQuery: zeni_ai_training │
│ - Mã hoá CMEK riêng │
│ - Truy cập giới hạn, mọi query đều log │
│ - Region: us-central1 hoặc asia-southeast1 │
└───────────────────────────────────────────────────────────────────────┘
Chi tiết từng bước:
Strip PII (Loại bỏ thông tin định danh)
Hệ thống tự động phát hiện và loại bỏ các trường thông tin định danh trực tiếp: họ tên, email, số điện thoại, số CMND, CCCD, hộ chiếu, biển số xe, số thẻ tín dụng, số tài khoản ngân hàng, mã số thuế cá nhân, địa chỉ chi tiết, GPS toạ độ. Sử dụng kết hợp regex pattern, NER (Named Entity Recognition) tiếng Việt và tiếng Anh, cộng với danh sách entity tuỳ chỉnh theo ngành nghề.
K-Anonymity với k = 5
Sau khi strip PII, các thuộc tính chuẩn-định danh (tuổi, giới tính, mã vùng, ngành nghề, mức thu nhập) còn lại có thể bị kết hợp để truy ngược. K-anonymity gộp nhóm các bản ghi sao cho mỗi bản ghi không thể phân biệt với ít nhất bốn bản ghi khác trên các thuộc tính này. Ví dụ: thay vì lưu "tuổi 27", nhóm thành "25-30"; thay vì lưu "quận 1", gộp lên "TP.HCM".
Differential Privacy với epsilon = 1.0
Thêm nhiễu ngẫu nhiên có kiểm soát toán học (Laplace mechanism hoặc Gaussian mechanism) vào kết quả tổng hợp. Tham số epsilon = 1.0 đảm bảo: thêm hoặc xoá dữ liệu của một Khách hàng bất kỳ ra khỏi tập huấn luyện làm thay đổi kết quả không quá hệ số e^1 ≈ 2.72. Đây là chuẩn vàng được Apple, Google, Microsoft áp dụng cho thống kê người dùng.
Tokenization (Mã hoá token không đảo ngược)
Các giá trị danh từ riêng còn sót lại (tên công ty, sản phẩm, từ khoá độc đáo) được thay bằng token định danh ngẫu nhiên dạng TOKEN_a3f9b2. Lookup table dùng để sinh token được đốt ngay sau khi xử lý xong batch — không thể tra ngược từ token về giá trị gốc.
Validation (Kiểm thử bảo vệ riêng tư)
Mỗi batch trước khi commit vào kho huấn luyện phải pass battery test gồm: Membership inference attack (kiểm tra xem có thể đoán bản ghi A có nằm trong tập huấn luyện hay không), Linkage attack (thử kết hợp với tập dữ liệu công khai để truy ngược), Reconstruction attack (thử tái dựng lại dữ liệu gốc). Batch nào fail bất kỳ test nào sẽ bị loại, gửi lại cho đội kỹ thuật tinh chỉnh tham số.
3. Differential Privacy là gì?
Differential Privacy (DP) là chuẩn toán học để đo và đảm bảo bảo vệ riêng tư trong xử lý dữ liệu thống kê. Định nghĩa hình thức:
Một thuật toán M được gọi là epsilon-differentially private nếu với hai tập dữ liệu D1 và D2 chỉ khác nhau ở một bản ghi duy nhất, và với mọi tập kết quả S:
Pr[M(D1) ∈ S] ≤ e^epsilon × Pr[M(D2) ∈ S]
Nói cách khác: dù có hay không có dữ liệu của bạn trong tập huấn luyện, kết quả mô hình về cơ bản giống nhau. Người ngoài nhìn vào mô hình không thể suy ra được bạn có trong đó hay không.
Ý nghĩa thực tế của epsilon = 1.0
| Giá trị epsilon | Mức bảo vệ | Ứng dụng điển hình |
|---|---|---|
| 0.1 — 0.5 | Rất mạnh | Điều tra dân số quốc gia (US Census 2020) |
| 1.0 | Mạnh — Zeni áp dụng | Apple Differential Privacy, Google RAPPOR |
| 2.0 — 5.0 | Trung bình | Phân tích sản phẩm nội bộ |
| 10+ | Yếu | Hầu như không có bảo vệ |
Zeni chọn epsilon = 1.0 để cân bằng giữa tính hữu dụng của dữ liệu (đủ tín hiệu để train AI tốt) và mức bảo vệ riêng tư (đủ mạnh theo chuẩn ngành).
4. 5 lớp chống rò rỉ
Ngoài pipeline ẩn danh hoá, Zeni còn áp dụng năm lớp bảo vệ độc lập để đảm bảo agent AI không bao giờ rò rỉ dữ liệu Khách hàng:
Input sanitization
Trước khi đưa vào training, mọi prompt đầu vào được lọc lại lần nữa qua bộ phát hiện PII residual và blocklist các pattern nhạy cảm.
Training với DP
Sử dụng DP-SGD (Differentially Private Stochastic Gradient Descent) trong quá trình huấn luyện, thêm nhiễu vào gradient để mô hình không "nhớ chính xác" bất kỳ điểm dữ liệu cụ thể nào.
System prompt hardening
System prompt của mỗi agent có chỉ thị rõ ràng: "Không bao giờ lặp lại nguyên văn đoạn dữ liệu huấn luyện". Có cơ chế từ chối khi user dụ agent xuất ra dữ liệu nhạy cảm.
Output filter
Mọi đầu ra của agent đi qua bộ lọc cuối: phát hiện PII (email, số điện thoại, số thẻ), phát hiện chuỗi giống nguyên văn từ training data dài hơn 50 token, và tự động che hoặc từ chối.
Continuous audit
Mỗi ngày Zeni sample 1% lượng output của agent, kiểm thủ công và bằng tool để phát hiện rò rỉ. Đội Red Team thực hiện attack kiểm thử hằng tuần với prompt injection và jailbreak attempt.
5. Cam kết của Zeni
- Agent không bao giờ trả về PII: nếu Khách hàng phát hiện agent xuất ra email, số điện thoại, số thẻ, hoặc thông tin định danh của bất kỳ ai (kể cả của chính Khách hàng đó), Zeni xác minh và bồi thường theo cam kết SLA.
- Cách ly cross-tenant tuyệt đối: dữ liệu của Khách hàng X không bao giờ xuất hiện trong câu trả lời của agent với Khách hàng Y, kể cả khi cả hai cùng dùng chung mô hình. Cơ chế này được kiểm thử hằng ngày qua test prompt cố ý.
- Không ngược tra: ngay cả với DP epsilon = 1.0, không ai (kể cả nhân sự Zeni có quyền cao nhất) có thể truy vấn mô hình để biết dữ liệu của một Khách hàng cụ thể có nằm trong tập huấn luyện hay không.
- Audit hằng ngày 1%: 1% output mỗi ngày được lưu trữ ẩn danh và đội bảo mật review để phát hiện rò rỉ. Báo cáo audit hằng tháng gửi cho DPO.
- Red Team test hằng tuần: nhóm bảo mật nội bộ và bug bounty bên ngoài liên tục thử các kỹ thuật prompt injection, jailbreak, model inversion, training data extraction để tìm và vá lỗ hổng.
6. Opt-in / Opt-out
Khi đăng ký tài khoản hoặc trong cài đặt Quyền riêng tư tại /app/settings/privacy, Khách hàng thấy hai lựa chọn rõ ràng:
Đồng ý — giảm 20% giá
Cho phép Zeni dùng dữ liệu của tôi (đã ẩn danh hoá) để huấn luyện các agent AI. Đổi lại, tôi được giảm 20% giá gói dịch vụ trong toàn bộ thời gian sử dụng.
Không đồng ý — giá nguyên
Dữ liệu của tôi sẽ KHÔNG được dùng để huấn luyện AI. Tôi vẫn nhận đầy đủ mọi tính năng, chỉ không có ưu đãi 20%.
Đổi lựa chọn bất kỳ lúc nào
Khách hàng có thể chuyển opt-in sang opt-out (hoặc ngược lại) bất kỳ lúc nào. Khi chuyển từ opt-in sang opt-out:
- Zeni ngừng đưa thêm dữ liệu mới của Khách hàng vào pipeline huấn luyện ngay lập tức (trong vòng 24 giờ).
- Các bản ghi đã ẩn danh hoá của Khách hàng đang lưu trong kho
zeni_ai_trainingsẽ bị khoá truy cập, không được dùng cho các đợt train tiếp theo. - Lưu ý kỹ thuật: dữ liệu đã qua DP epsilon=1.0 không thể truy ngược ra Khách hàng cụ thể, nên không thể "xoá riêng" từng bản ghi đã ẩn danh hoá. Tuy nhiên, mọi mô hình huấn luyện sau thời điểm opt-out sẽ không sử dụng dữ liệu của Khách hàng nữa.
- Ưu đãi 20% chấm dứt từ chu kỳ thanh toán kế tiếp.
Khi chuyển từ opt-out sang opt-in:
- Ưu đãi 20% áp dụng từ chu kỳ thanh toán kế tiếp.
- Pipeline ẩn danh hoá bắt đầu xử lý dữ liệu mới sau 24 giờ kể từ thời điểm opt-in.
- Dữ liệu cũ trước thời điểm opt-in KHÔNG được đưa vào pipeline (vì khi đó Khách hàng chưa đồng ý).
7. Ưu đãi 20% khi opt-in
Zeni dành ưu đãi 20% cho Khách hàng opt-in vì hai lý do:
- Ghi nhận đóng góp: Dữ liệu của Khách hàng giúp Zeni xây dựng các agent tốt hơn, phục vụ chính cộng đồng doanh nghiệp Việt. Đây là quan hệ đôi bên cùng có lợi.
- Tiết kiệm chi phí huấn luyện: Có dữ liệu thực tế của khách hàng giúp Zeni giảm chi phí mua dữ liệu bên ngoài và giảm chi phí gán nhãn, một phần tiết kiệm này được chia lại cho Khách hàng.
Áp dụng ưu đãi
| Gói | Giá gốc | Giá khi opt-in | Tiết kiệm |
|---|---|---|---|
| Pro Tháng | Theo bảng giá | Giá gốc x 0.80 | 20% |
| Pro Năm | Theo bảng giá | Giá gốc x 0.80 | 20% |
| Enterprise | Theo hợp đồng | Theo thoả thuận, tối thiểu 15% | 15-25% |
Ưu đãi không áp dụng cho gói Free (vốn đã miễn phí), không áp dụng cho phí overage và không cộng dồn với mã giảm giá khác trừ khi nêu rõ.
8. Câu hỏi thường gặp
Nếu tôi opt-in, dữ liệu của tôi có bị bán cho ai khác không?
Không. Zeni cam kết tuyệt đối KHÔNG bán, KHÔNG cho thuê, KHÔNG trao đổi dữ liệu của Khách hàng cho bất kỳ bên thứ ba nào. Dữ liệu (đã ẩn danh hoá) chỉ được dùng nội bộ để huấn luyện các agent của Zeni.
Đối thủ cạnh tranh của tôi có thể "moi" được dữ liệu doanh nghiệp tôi qua agent Zeni không?
Không. Có ba lớp bảo vệ ngăn chặn việc này: (1) Pipeline 5 bước đã ẩn danh hoá toàn bộ dữ liệu trước khi train, không còn tên doanh nghiệp, sản phẩm cụ thể; (2) Differential Privacy đảm bảo mô hình không "nhớ chính xác" dữ liệu nào; (3) Output filter chặn agent xuất ra chuỗi nguyên văn dài hơn 50 token từ training data. Đội Red Team kiểm thử các kịch bản tấn công kiểu này hằng tuần.
Tôi opt-out thì agent có hoạt động kém hơn cho tôi không?
Không. Mọi agent hoạt động với chất lượng giống nhau cho cả Khách hàng opt-in và opt-out. Sự khác biệt duy nhất là Khách hàng opt-in được giảm 20% giá. Việc opt-out không bao giờ làm Khách hàng nhận chất lượng kém hơn — đó là cam kết bất khả xâm phạm của Zeni.
Pipeline ẩn danh hoá có được bên thứ ba kiểm chứng không?
Có. Zeni đang trong quá trình lấy chứng nhận SOC 2 Type II và ISO 27701, với phạm vi audit bao gồm pipeline ẩn danh hoá. Chứng nhận dự kiến hoàn thành trong năm 2027. Khi đạt, báo cáo full sẽ chia sẻ cho Khách hàng Enterprise kèm NDA. Ngoài ra, code của các bộ lọc PII và validation tests sẽ được mở mã nguồn (open source) tại github.com/zenicloud để cộng đồng độc lập kiểm tra.
Nếu agent vô tình lộ thông tin của tôi, tôi được bồi thường thế nào?
Khách hàng báo cáo qua email security@zenicloud.io kèm bằng chứng (screenshot, prompt, output). Zeni xác minh trong vòng 72 giờ. Nếu xác nhận có rò rỉ thực sự xuất phát từ lỗi của Zeni, Khách hàng được:
- Bồi thường tài chính theo mức trần SLA tại Điều khoản dịch vụ Mục 6.3.
- Miễn phí dịch vụ ba tháng tiếp theo.
- Báo cáo công khai chi tiết về lỗ hổng và cách Zeni đã vá (sau khi hoàn tất khắc phục).
Zeni cũng vận hành chương trình bug bounty công khai cho người ngoài Khách hàng tìm và báo cáo lỗ hổng tại zenicloud.io/security.
Nếu cơ quan thẩm quyền yêu cầu Zeni cung cấp dữ liệu huấn luyện, Zeni có cung cấp không?
Dữ liệu trong kho huấn luyện đã qua ẩn danh hoá năm bước, không còn liên hệ trực tiếp với cá nhân hay doanh nghiệp cụ thể. Vì vậy nếu cơ quan thẩm quyền yêu cầu dữ liệu của một Khách hàng cụ thể, Zeni về mặt kỹ thuật không thể trích xuất từ kho huấn luyện. Yêu cầu cung cấp dữ liệu cụ thể của Khách hàng được xử lý theo quy trình riêng tại Mục 6 Chính sách bảo mật (multi-sig 3-trong-5 trên Polygon).
Tôi có thể yêu cầu Zeni xoá riêng dữ liệu của tôi khỏi mô hình AI đã train không?
Đây là giới hạn kỹ thuật của AI hiện tại: một khi mô hình đã train xong, không thể "xoá" một điểm dữ liệu cụ thể mà không train lại từ đầu. Zeni cam kết:
- Khi Khách hàng opt-out, ngừng đưa dữ liệu mới vào pipeline ngay.
- Các đợt train mới (Zeni train lại model định kỳ mỗi 6 tháng) sẽ không sử dụng dữ liệu của Khách hàng đã opt-out.
- Nhờ DP epsilon=1.0, ngay cả mô hình hiện tại cũng không "nhớ chính xác" dữ liệu của Khách hàng — không thể truy ngược.
Có giới hạn loại dữ liệu nào Zeni từ chối nhận vào pipeline dù Khách hàng đã opt-in không?
Có. Zeni từ chối đưa các loại dữ liệu sau vào pipeline huấn luyện kể cả khi Khách hàng đã opt-in:
- Dữ liệu cá nhân nhạy cảm theo Nghị định 13/2023 (tình trạng sức khoẻ, dữ liệu sinh trắc học, tôn giáo, lý lịch hình sự).
- Dữ liệu trẻ em dưới 16 tuổi.
- Dữ liệu liên quan đến an ninh quốc phòng.
- Bí mật thương mại được Khách hàng đánh dấu cấp độ "Confidential" trong workspace.
9. Liên hệ
Mọi câu hỏi về Chính sách sử dụng dữ liệu cho AI, vui lòng liên hệ:
| DPO (Cán bộ Bảo vệ Dữ liệu) | dpo@zenicloud.io |
| Đội bảo mật AI | ai-security@zenicloud.io |
| Báo cáo lỗ hổng | security@zenicloud.io |
| Pháp lý chung | legal@zenicloud.io |
| Bug Bounty | zenicloud.io/security |