Bỏ qua để đến nội dung

Chiến lược sinh nội dung (Vocab v2 – Content Generation Strategy)

DomainsDOL EnglishUX1.480 words7 min read
active

Hardening Note (SoT precedence): Tài liệu này tuân theo VOCV2_Product_Spec_Hardening_v1.md. Nếu có mâu thuẫn, ưu tiên SoT hardening.

  • “Prompt-driven Entry”: Thay vì nhập liệu thủ công từng trường, Content Team sẽ nhập từ khoá (Keyword) và Review đầu ra từ AI.
  • “Context-aware Distractors”: Đáp án nhiễu (Distractors) không lấy random từ kho mà được sinh ra cụ thể cho từng skill (Speaking cần đồng âm, Writing cần đồng nghĩa/collocation sai).
  • Target: Luyện phản xạ âm, phân biệt từ có âm gần giống nhau (Minimal Pairs).
  • Distractor Prompt Logic:
    • Input: Target Word (e.g., “Think” /θɪŋk/)
    • Condition: Find words with similar onset/rhyme or common mispronunciations.
    • Output: ["Sink", "Thing", "Tank"]
  • Audio Generation (Quan trọng):
    • Hệ thống phải sinh Audio cho cả các đáp án nhiễu (Distractors).
    • Exercise Flow: User nghe “Think” -> Chọn giữa Audio options: [Sound A: “Sink”] vs [Sound B: “Think”].
    • Mục tiêu: Bắt buộc user phân biệt bằng tai, không phải bằng mặt chữ.

2.2 Writing / Reading (Semantic & Collocation Focus)

Phần tiêu đề “2.2 Writing / Reading (Semantic & Collocation Focus)”
  • Target: Luyện độ chính xác về nghĩa và kết hợp từ (Collocation).
  • Distractor Prompt Logic (General):
    • Input: Target Word (e.g., “Job”)
    • Output: ["Work", "Career", "Profession"] (Semantic field but wrong context).
  • Target: Luyện tư duy từ vựng tự nhiên (Naturalness).
  • Prompt Strategy: “L1 Interference” (Lỗi giao thoa ngôn ngữ).
  • Logic: Tìm các từ mà người học (ví dụ: người Việt) hay dùng sai do dịch word-by-word.
  • Ví dụ:
    • Target: “Heavy rain” (Mưa to).
    • Distractor: “Strong rain” (Vì tiếng Việt nói là “Mưa mạnh”).
    • Distractor: “Big rain” (Vì tiếng Việt nói là “Mưa lớn”).
  • Synonymous Collocations (Accepted Variations):
    • Problem: Một collocation có thể có nhiều biến thể đúng (e.g., Receive / Gain / Reap benefits).
    • Solution: AI phải list ra các Accepted Variations.
    • Grading Rule: Nếu user nhập biến thể đúng (VD: nhập “Gain” thay vì “Receive”) -> Hệ thống chấm ĐÚNG (Correct).
    • UX: Có thể hiển thị note nhỏ: “Correct! (Standard form used in lesson: Receive)“.
  • Problem: Một context có thể chấp nhận nhiều từ đúng (e.g., Receive / Gain / Reap benefits).
  • Solution:
    • Primary Answer: Từ gốc trong giáo trình (e.g., “Receive”).
    • Accepted Variations: AI suggest danh sách các từ đồng nghĩa thay thế được trong ngữ cảnh đó.
    • Grading:
      • User nhập Gain -> Hệ thống báo CORRECT (nhưng có thể note nhỏ: “Standard form: Receive”).
      • Tránh việc user nhập đúng về nghĩa nhưng bị báo sai do lệch key.

2.3.1 Typing & Dictation Handling (Logic Chép Chính Tả)

Phần tiêu đề “2.3.1 Typing & Dictation Handling (Logic Chép Chính Tả)”
  • Scenario A: Meaning Focus (Recall)
    • Exercise: Nhìn định nghĩa/Context -> Gõ từ.
    • Logic: Áp dụng triệt để Accepted Variations.
    • Result: User gõ “Gain benefit” thay vì “Receive” -> CORRECT (Đúng 100%).
  • Scenario B: Audio Focus (Dictation)
    • Exercise: Nghe Audio (“Receive”) -> Gõ từ.
    • Logic: Ưu tiên khớp âm thanh (Exact Audio Match).
    • Result:
      • Nếu user gõ “Receive” -> CORRECT.
      • Nếu user gõ “Gain” (Đúng nghĩa, sai âm) -> SOFT WARNING (Cảnh báo nhẹ).
      • Message: “Bạn gõ đúng nghĩa, nhưng khác với Audio. Đáp án nghe được là: Receive”. (Có thể cho user thử lại hoặc tính điểm thấp hơn, nhưng không báo sai hoàn toàn gây ức chế).

Dựa trên giao diện nhập liệu CMS (Content Management System), quy trình sinh nội dung sẽ đi theo luồng sau:

  • Input: Keyword -> AI generate định nghĩa (En/Vi), Phiên âm, Audio.
  • UI Field: Term, Phiên âm, Loại từ, English definition, Vietnamese definition.
  • Input: AI suggest câu ví dụ & ghi chú ngữ cảnh.
  • UI Field:
    • Example: “Word in context” (Câu ví dụ).
    • Linear note: Ghi chú bổ sung về cách dùng, nuance (tùy chỉnh cho giáo trình).
    • Collocation, Word pattern note: Lưu các cụm từ đi kèm (e.g. “Make a decision”).

Step 3: Exercise Data Generation (“Bẫy câu hỏi”)

Phần tiêu đề “Step 3: Exercise Data Generation (“Bẫy câu hỏi”)”

Đây là bước quan trọng nhất để tạo nguyên liệu cho thuật toán sinh bài tập. AI sẽ điền dữ liệu vào section “Bẫy câu hỏi bài tập”:

  1. Từ đồng âm (Bẫy âm thanh):
    • Data: List các từ [Sink, Thing, Tank].
    • Usage: Dùng cho bài Listening MCQ.
  2. Từ đồng nghĩa sai ngữ cảnh (Bẫy ngữ nghĩa):
    • Data: List các từ [Job, Profession] (cho từ Work).
    • Usage: Dùng cho bài Fill-in-blank.
  3. Lỗi giao thoa L1 (Bẫy dịch sai):
    • Data: List các lỗi sai phổ biến của người Việt (e.g. Strong rain).
    • Usage: Dùng cho bài sửa lỗi sai.
  4. Từ chấp nhận thay thế (Accepted Variations):
    • Data: List các từ đồng nghĩa được chấp nhận.
    • Rule: Match Format (Cấu trúc phải khớp với Term).
      • Nếu Term là 1 từ (e.g. Receive) -> Variation là 1 từ (Get).
      • Nếu Term là 1 cụm (e.g. Gain benefit) -> Variation phải là cụm đầy đủ (Get benefit, Receive benefit).
    • Usage: Dùng để chấm đúng (Flexible Grading) cho bài Typing/Recall.
  • Action: Người nhập liệu review các “Bẫy” này, có thể thêm/bớt thủ công nếu thấy AI gợi ý chưa hay.
  • Save: Dữ liệu này được lưu kèm với Word để tái sử dụng mãi mãi.

4. Advanced Input Fields (Optimization for Exercises)

Phần tiêu đề “4. Advanced Input Fields (Optimization for Exercises)”

Để hỗ trợ tạo ra các bài tập “khó” và “thông minh” hơn (thay vì random ngẫu nhiên), hệ thống cần thêm các trường dữ liệu đầu vào sau (có thể AI-generated hoặc Human-input):

  • Phonetic Distractors (Bẫy âm thanh):
    • Mục đích: Dùng cho bài Listening MCQ.
    • Logic: Các từ có phát âm gần giống (Minimal pairs, homophones).
    • Ví dụ: Target là “Think” (/θɪŋk/) -> Distractors: “Sink” (/sɪŋk/), “Thing” (/θɪŋ/).
  • Visual Distractors (Bẫy thị giác/chính tả):
    • Mục đích: Dùng cho bài Reading / Spelling check.
    • Logic: Các từ có mặt chữ ná ná nhau (Similar spelling).
    • Ví dụ: Target là “Quiet” -> Distractors: “Quite”, “Quit”.
  • Semantic Distractors (Bẫy ngữ nghĩa):
    • Mục đích: Dùng cho bài điền từ vào câu (Contextual Fit).
    • Logic: Các từ cùng trường nghĩa nhưng sai ngữ cảnh (Nuance).
    • Ví dụ: Target là “Wound” (vết thương) -> Distractors: “Injury” (chấn thương chung), “Bruise” (vết bầm).
  • Collocations (Kết hợp từ):
    • Mục đích: Tạo bài tập điền từ “Fill in the blank” tự nhiên.
    • Logic: Những từ thường đi chung với nhau.
    • Ví dụ: Target “Decision” -> Collocation: “Make” a decision (Not “Do” a decision).
  • Common Confusions (Lỗi sai phổ biến):
    • Mục đích: Tạo bài sửa lỗi sai (Error Correction).
    • Ví dụ: “I am agree with you” (Sai) vs “I agree with you” (Đúng).

4.3 Accepted Variations (Biến thể chấp nhận)

Phần tiêu đề “4.3 Accepted Variations (Biến thể chấp nhận)”
  • Purpose: Hỗ trợ Flexible Grading (Chấm điểm linh hoạt) cho các bài tập Typing/Recall.
  • Logic:
    • Synonyms (Word-level): Các từ đồng nghĩa hoàn toàn trong ngữ cảnh.
    • Paraphrases (Phrase-level): Các cách diễn đạt tương đương.
  • Rule: Match Structure (Cấu trúc tương đồng).
    • Nếu Term là Word -> Variation là Word.
    • Nếu Term là Phrase -> Variation là Phrase.
  • Ví dụ:
    • Term: “Receive” -> Variations: ["Get", "Gain", "Reap"].
    • Term: “Gain benefit” -> Variations: ["Get benefit", "Receive benefit"]. (Không chấp nhận Get đứng một mình).
  • Consistency: Cần đảm bảo prompt chạy ổn định, không hallucinate ra từ không có thật.
  • Override: Content Team phải có quyền sửa tay đè lên kết quả AI nếu AI sai.

Quy trình publish bắt buộc:

  1. AI generate
  2. Human review
  3. Publish

Không cho phép đưa dữ liệu AI chưa review trực tiếp vào exercise production.

Mỗi item phải đủ dữ liệu theo nhóm exercise:

  1. Speaking/Listening:
    • Distractors phonetic
    • Audio cho distractors
  2. Reading/Writing:
    • Distractors semantic/collocation
    • Accepted variations cho recall/typing

Nếu thiếu dữ liệu để render match-skill exercise ở difficulty cần thiết:

  1. Downgrade sang exercise an toàn (general MCQ/flashcard).
  2. Không generate distractor realtime khi chưa qua QA.
  3. Không để user fail vì thiếu data hoặc lỗi nội dung.