Chiến lược sinh nội dung (Vocab v2 – Content Generation Strategy)

DomainsDOL EnglishUX1.480 words7 min read

active

Hardening Note (SoT precedence): Tài liệu này tuân theo VOCV2_Product_Spec_Hardening_v1.md. Nếu có mâu thuẫn, ưu tiên SoT hardening.

1. Core Philosophy

“Prompt-driven Entry”: Thay vì nhập liệu thủ công từng trường, Content Team sẽ nhập từ khoá (Keyword) và Review đầu ra từ AI.
“Context-aware Distractors”: Đáp án nhiễu (Distractors) không lấy random từ kho mà được sinh ra cụ thể cho từng skill (Speaking cần đồng âm, Writing cần đồng nghĩa/collocation sai).

2. Generate Logic per Skill

2.1 Speaking / Listening (Phonetic Focus)

Target: Luyện phản xạ âm, phân biệt từ có âm gần giống nhau (Minimal Pairs).
Distractor Prompt Logic:
- Input: Target Word (e.g., “Think” /θɪŋk/)
- Condition: Find words with similar onset/rhyme or common mispronunciations.
- Output: ["Sink", "Thing", "Tank"]
Audio Generation (Quan trọng):
- Hệ thống phải sinh Audio cho cả các đáp án nhiễu (Distractors).
- Exercise Flow: User nghe “Think” -> Chọn giữa Audio options: [Sound A: “Sink”] vs [Sound B: “Think”].
- Mục tiêu: Bắt buộc user phân biệt bằng tai, không phải bằng mặt chữ.

2.2 Writing / Reading (Semantic & Collocation Focus)

Target: Luyện độ chính xác về nghĩa và kết hợp từ (Collocation).
Distractor Prompt Logic (General):
- Input: Target Word (e.g., “Job”)
- Output: ["Work", "Career", "Profession"] (Semantic field but wrong context).

2.2.1 Collocation Special Logic

Target: Luyện tư duy từ vựng tự nhiên (Naturalness).
Prompt Strategy: “L1 Interference” (Lỗi giao thoa ngôn ngữ).
Logic: Tìm các từ mà người học (ví dụ: người Việt) hay dùng sai do dịch word-by-word.
Ví dụ:
- Target: “Heavy rain” (Mưa to).
- Distractor: “Strong rain” (Vì tiếng Việt nói là “Mưa mạnh”).
- Distractor: “Big rain” (Vì tiếng Việt nói là “Mưa lớn”).
Synonymous Collocations (Accepted Variations):
- Problem: Một collocation có thể có nhiều biến thể đúng (e.g., Receive / Gain / Reap benefits).
- Solution: AI phải list ra các Accepted Variations.
- Grading Rule: Nếu user nhập biến thể đúng (VD: nhập “Gain” thay vì “Receive”) -> Hệ thống chấm ĐÚNG (Correct).
- UX: Có thể hiển thị note nhỏ: “Correct! (Standard form used in lesson: Receive)“.

2.3 Multiple Correct Answers (Flexible Grading)

Problem: Một context có thể chấp nhận nhiều từ đúng (e.g., Receive / Gain / Reap benefits).
Solution:
- Primary Answer: Từ gốc trong giáo trình (e.g., “Receive”).
- Accepted Variations: AI suggest danh sách các từ đồng nghĩa thay thế được trong ngữ cảnh đó.
- Grading:
  - User nhập Gain -> Hệ thống báo CORRECT (nhưng có thể note nhỏ: “Standard form: Receive”).
  - Tránh việc user nhập đúng về nghĩa nhưng bị báo sai do lệch key.

2.3.1 Typing & Dictation Handling (Logic Chép Chính Tả)

Scenario A: Meaning Focus (Recall)
- Exercise: Nhìn định nghĩa/Context -> Gõ từ.
- Logic: Áp dụng triệt để Accepted Variations.
- Result: User gõ “Gain benefit” thay vì “Receive” -> CORRECT (Đúng 100%).
Scenario B: Audio Focus (Dictation)
- Exercise: Nghe Audio (“Receive”) -> Gõ từ.
- Logic: Ưu tiên khớp âm thanh (Exact Audio Match).
- Result:
  - Nếu user gõ “Receive” -> CORRECT.
  - Nếu user gõ “Gain” (Đúng nghĩa, sai âm) -> SOFT WARNING (Cảnh báo nhẹ).
  - Message: “Bạn gõ đúng nghĩa, nhưng khác với Audio. Đáp án nghe được là: Receive”. (Có thể cho user thử lại hoặc tính điểm thấp hơn, nhưng không báo sai hoàn toàn gây ức chế).

3. Data Entry Workflow (UI Integrated)

Dựa trên giao diện nhập liệu CMS (Content Management System), quy trình sinh nội dung sẽ đi theo luồng sau:

Step 1: Core Information (AI Gen + Human Review)

Input: Keyword -> AI generate định nghĩa (En/Vi), Phiên âm, Audio.
UI Field: Term, Phiên âm, Loại từ, English definition, Vietnamese definition.

Step 2: Context & Notes

Input: AI suggest câu ví dụ & ghi chú ngữ cảnh.
UI Field:
- Example: “Word in context” (Câu ví dụ).
- Linear note: Ghi chú bổ sung về cách dùng, nuance (tùy chỉnh cho giáo trình).
- Collocation, Word pattern note: Lưu các cụm từ đi kèm (e.g. “Make a decision”).

Step 3: Exercise Data Generation (“Bẫy câu hỏi”)

Đây là bước quan trọng nhất để tạo nguyên liệu cho thuật toán sinh bài tập. AI sẽ điền dữ liệu vào section “Bẫy câu hỏi bài tập”:

Từ đồng âm (Bẫy âm thanh):
- Data: List các từ [Sink, Thing, Tank].
- Usage: Dùng cho bài Listening MCQ.
Từ đồng nghĩa sai ngữ cảnh (Bẫy ngữ nghĩa):
- Data: List các từ [Job, Profession] (cho từ Work).
- Usage: Dùng cho bài Fill-in-blank.
Lỗi giao thoa L1 (Bẫy dịch sai):
- Data: List các lỗi sai phổ biến của người Việt (e.g. Strong rain).
- Usage: Dùng cho bài sửa lỗi sai.
Từ chấp nhận thay thế (Accepted Variations):
- Data: List các từ đồng nghĩa được chấp nhận.
- Rule: Match Format (Cấu trúc phải khớp với Term).
  - Nếu Term là 1 từ (e.g. Receive) -> Variation là 1 từ (Get).
  - Nếu Term là 1 cụm (e.g. Gain benefit) -> Variation phải là cụm đầy đủ (Get benefit, Receive benefit).
- Usage: Dùng để chấm đúng (Flexible Grading) cho bài Typing/Recall.

Action: Người nhập liệu review các “Bẫy” này, có thể thêm/bớt thủ công nếu thấy AI gợi ý chưa hay.
Save: Dữ liệu này được lưu kèm với Word để tái sử dụng mãi mãi.

4. Advanced Input Fields (Optimization for Exercises)

Để hỗ trợ tạo ra các bài tập “khó” và “thông minh” hơn (thay vì random ngẫu nhiên), hệ thống cần thêm các trường dữ liệu đầu vào sau (có thể AI-generated hoặc Human-input):

4.1 Distractor Logic (Các bẫy nhiễu)

Phonetic Distractors (Bẫy âm thanh):
- Mục đích: Dùng cho bài Listening MCQ.
- Logic: Các từ có phát âm gần giống (Minimal pairs, homophones).
- Ví dụ: Target là “Think” (/θɪŋk/) -> Distractors: “Sink” (/sɪŋk/), “Thing” (/θɪŋ/).
Visual Distractors (Bẫy thị giác/chính tả):
- Mục đích: Dùng cho bài Reading / Spelling check.
- Logic: Các từ có mặt chữ ná ná nhau (Similar spelling).
- Ví dụ: Target là “Quiet” -> Distractors: “Quite”, “Quit”.
Semantic Distractors (Bẫy ngữ nghĩa):
- Mục đích: Dùng cho bài điền từ vào câu (Contextual Fit).
- Logic: Các từ cùng trường nghĩa nhưng sai ngữ cảnh (Nuance).
- Ví dụ: Target là “Wound” (vết thương) -> Distractors: “Injury” (chấn thương chung), “Bruise” (vết bầm).

4.2 Contextual Depth (Chiều sâu ngữ cảnh)

Collocations (Kết hợp từ):
- Mục đích: Tạo bài tập điền từ “Fill in the blank” tự nhiên.
- Logic: Những từ thường đi chung với nhau.
- Ví dụ: Target “Decision” -> Collocation: “Make” a decision (Not “Do” a decision).
Common Confusions (Lỗi sai phổ biến):
- Mục đích: Tạo bài sửa lỗi sai (Error Correction).
- Ví dụ: “I am agree with you” (Sai) vs “I agree with you” (Đúng).

4.3 Accepted Variations (Biến thể chấp nhận)

Purpose: Hỗ trợ Flexible Grading (Chấm điểm linh hoạt) cho các bài tập Typing/Recall.
Logic:
- Synonyms (Word-level): Các từ đồng nghĩa hoàn toàn trong ngữ cảnh.
- Paraphrases (Phrase-level): Các cách diễn đạt tương đương.
Rule: Match Structure (Cấu trúc tương đồng).
- Nếu Term là Word -> Variation là Word.
- Nếu Term là Phrase -> Variation là Phrase.
Ví dụ:
- Term: “Receive” -> Variations: ["Get", "Gain", "Reap"].
- Term: “Gain benefit” -> Variations: ["Get benefit", "Receive benefit"]. (Không chấp nhận Get đứng một mình).

5. Open Questions

Consistency: Cần đảm bảo prompt chạy ổn định, không hallucinate ra từ không có thật.
Override: Content Team phải có quyền sửa tay đè lên kết quả AI nếu AI sai.

6. Hardening Decisions (Production Contract)

6.1 Mandatory QA Workflow

Quy trình publish bắt buộc:

AI generate
Human review
Publish

Không cho phép đưa dữ liệu AI chưa review trực tiếp vào exercise production.

6.2 Content Completeness Contract

Mỗi item phải đủ dữ liệu theo nhóm exercise:

Speaking/Listening:
- Distractors phonetic
- Audio cho distractors
Reading/Writing:
- Distractors semantic/collocation
- Accepted variations cho recall/typing

6.3 Fallback Rule (Bắt buộc)

Nếu thiếu dữ liệu để render match-skill exercise ở difficulty cần thiết:

Downgrade sang exercise an toàn (general MCQ/flashcard).
Không generate distractor realtime khi chưa qua QA.
Không để user fail vì thiếu data hoặc lỗi nội dung.