Để viết Style Instruction (hướng dẫn phong cách) cho một Voice AI, cấu trúc prompt cần phải rõ ràng, chi tiết và bao quát tất cả các yếu tố bạn muốn AI tái tạo trong giọng nói của nó. Mục tiêu là để AI hiểu và thể hiện được “tính cách” giọng nói mong muốn.
Dưới đây là một cấu trúc prompt chi tiết và các yếu tố cần mô tả cho Voice AI:
Cấu trúc Prompt cơ bản
Một cấu trúc prompt hiệu quả thường bao gồm các phần chính sau:
- Mục tiêu (Goal/Purpose): Nêu rõ mục đích của giọng nói AI này (ví dụ: đọc tin tức, kể chuyện, trả lời tổng đài, quảng cáo…).
- Vai trò (Role/Persona): AI nên “đóng vai” gì khi nói (ví dụ: chuyên gia, người bạn thân thiện, người kể chuyện cổ tích, trợ lý nghiêm túc…).
- Đặc điểm giọng nói chính (Core Voice Characteristics): Các yếu tố cơ bản về cao độ, âm lượng, tốc độ.
- Đặc điểm âm sắc và biểu cảm (Timbre & Expressiveness): Chi tiết về chất giọng, ngữ điệu, cách phát âm, hơi thở, độ vang.
- Tính cách/Cảm xúc (Personality/Emotion): AI nên thể hiện cảm xúc, thái độ nào khi nói.
- Những điều cần tránh (Things to Avoid): Những đặc điểm giọng nói không mong muốn.
- Ví dụ (Examples – Optional but Highly Recommended): Cung cấp các ví dụ cụ thể hoặc đoạn văn mẫu mà bạn muốn AI đọc với phong cách đó.
Chi tiết các yếu tố cần mô tả trong Prompt
1. Mục tiêu (Goal/Purpose)
-
- Mục đích chính: Giọng nói AI sẽ được sử dụng cho việc gì?
- Ví dụ: “Mục tiêu là tạo ra một giọng nói AI phù hợp cho việc đọc sách nói lịch sử.”
- Ví dụ: “Giọng nói này sẽ được sử dụng cho tổng đài chăm sóc khách hàng tự động.”
- Mục đích chính: Giọng nói AI sẽ được sử dụng cho việc gì?
2. Vai trò (Role/Persona)
-
- Tính cách tổng thể:
- Ví dụ: “Giọng nói này nên thể hiện vai trò của một người kể chuyện điềm tĩnh, uyên bác và cuốn hút.”
- Ví dụ: “Đóng vai một trợ lý ảo thân thiện, sẵn lòng giúp đỡ và đáng tin cậy.”
- Ví dụ: “Là một phát thanh viên tin tức chuyên nghiệp, khách quan và rõ ràng.”
- Tính cách tổng thể:
3. Đặc điểm giọng nói chính (Core Voice Characteristics)
-
- Cao độ (Pitch):
- “Giọng nam trầm ấm, sâu lắng.”
- “Giọng nữ cao vừa phải, trong trẻo.”
- “Cao độ ổn định, không quá lên bổng xuống trầm.”
- Cao độ (Pitch):
-
- Âm lượng (Volume):
- “Nói với âm lượng vừa phải, rõ ràng, đủ nghe trong môi trường yên tĩnh.”
- “Nói to, dứt khoát nhưng không gây chói tai.”
- “Nói nhỏ nhẹ, thủ thỉ khi cần truyền tải cảm xúc.”
- Âm lượng (Volume):
-
- Tốc độ (Pace/Tempo):
- “Tốc độ vừa phải, dễ nghe, khoảng 120-150 từ/phút.”
- “Tốc độ nhanh, năng động để truyền tải sự phấn khích.”
- “Tốc độ chậm, có những khoảng dừng hợp lý để người nghe suy ngẫm.”
- Tốc độ (Pace/Tempo):
-
- Khoảng dừng (Pauses):
- “Sử dụng các khoảng dừng tự nhiên sau mỗi câu hoặc ý chính.”
- “Có những khoảng dừng ngắn, tinh tế để tạo điểm nhấn.”
- Khoảng dừng (Pauses):
4. Đặc điểm âm sắc và biểu cảm (Timbre & Expressiveness)
-
- Âm sắc (Timbre/Tone Quality):
- “Chất giọng ấm, vang, mượt mà.”
- “Giọng trong trẻo, không lẫn tạp âm, không rè hay khàn.”
- “Giọng có chiều sâu, truyền cảm, không đều đều.”
- “Tránh giọng mũi, giọng cổ.”
- Âm sắc (Timbre/Tone Quality):
-
- Ngữ điệu (Intonation/Melody):
- “Ngữ điệu tự nhiên, giàu cảm xúc, lên xuống nhẹ nhàng theo ý nghĩa câu.”
- “Nhấn nhá đúng trọng âm của từ và câu.”
- “Tránh ngữ điệu đơn điệu, máy móc.”
- Ngữ điệu (Intonation/Melody):
-
- Phát âm (Articulation/Pronunciation):
- “Phát âm rõ ràng, tròn vành rõ chữ từng âm tiết.”
- “Không nói ngọng, không nói líu.”
- “Giọng nói chuẩn giọng phổ thông (miền Bắc) hoặc giọng miền Nam rõ ràng (tùy yêu cầu cụ thể).”
- Phát âm (Articulation/Pronunciation):
-
- Hơi thở (Breath):
- “Hơi thở đều đặn, không có tiếng hụt hơi.”
- “Duy trì luồng hơi ổn định cho các câu dài.”
- Hơi thở (Breath):
-
- Độ vang (Resonance):
- “Giọng nói có độ vang tự nhiên, không bị khô khan.”
- Độ vang (Resonance):
5. Tính cách/Cảm xúc (Personality/Emotion)
-
- Tính cách:
- “Thân thiện, cởi mở.”
- “Nghiêm túc, đáng tin cậy.”
- “Vui vẻ, lạc quan.”
- “Trầm tĩnh, điềm đạm.”
- “Tự tin, quyết đoán.”
- Tính cách:
-
- Biểu cảm cảm xúc:
- “Thể hiện sự đồng cảm khi cần thiết.”
- “Có thể biểu lộ sự ngạc nhiên nhẹ nhàng khi tương tác.”
- “Giữ vẻ trung lập và khách quan khi đọc tin tức.”
- “Truyền tải sự ấm áp và gần gũi.”
- Biểu cảm cảm xúc:
6. Những điều cần tránh (Things to Avoid)
-
- “Tránh giọng nói quá nhanh hoặc quá chậm.”
- “Tránh giọng nói máy móc, không cảm xúc, đều đều.”
- “Tránh giọng nói khàn, rè, ồn ào.”
- “Không được nói lắp, nói ngọng.”
- “Tránh việc nhấn quá mạnh vào các từ không cần thiết.”
- “Không sử dụng từ ngữ địa phương quá nặng (trừ khi có yêu cầu).”
7. Ví dụ (Examples – Optional but Highly Recommended)
Cung cấp các đoạn văn mẫu và chỉ ra cách bạn muốn AI đọc chúng.
-
- Ví dụ 1 (Đọc tin tức):
- Văn bản: “Hôm nay, thời tiết tại Hà Nội được dự báo sẽ có mưa rào và giông rải rác vào buổi chiều.”
- Hướng dẫn: “Đọc với giọng điệu khách quan, rõ ràng, tốc độ vừa phải, ngữ điệu ổn định như một phát thanh viên.”
- Ví dụ 1 (Đọc tin tức):
-
- Ví dụ 2 (Kể chuyện):
- Văn bản: “Ngày xửa ngày xưa, có một cô bé lọ lem hiền lành sống cùng mẹ kế và hai cô con gái riêng.”
- Hướng dẫn: “Đọc với giọng ấm áp, truyền cảm, có chút trầm bổng để tạo không khí cổ tích. Nhấn nhá vào các nhân vật chính.”
- Ví dụ 2 (Kể chuyện):
-
- Ví dụ 3 (Hội thoại):
- Văn bản: “Xin chào, tôi có thể giúp gì cho quý khách?”
- Hướng dẫn: “Đọc với giọng thân thiện, rõ ràng, hơi lên giọng ở cuối câu hỏi để thể hiện sự sẵn lòng.”
- Ví dụ 3 (Hội thoại):
Prompt tổng hợp (Ví dụ)
Dưới đây là một ví dụ prompt tổng hợp cho một Voice AI dùng để đọc sách nói:
Bạn là một Voice AI được huấn luyện để đọc sách nói.
[Mục tiêu]:
Mục tiêu chính là mang lại trải nghiệm nghe thư giãn, hấp dẫn và dễ hiểu cho người nghe sách nói.
[Vai trò/Tính cách]:
Đóng vai một người kể chuyện điềm tĩnh, ấm áp, uyên bác và có khả năng truyền tải cảm xúc tinh tế. Giọng nói cần thể hiện sự thông thái, đáng tin cậy nhưng vẫn gần gũi, không quá học thuật.
[Đặc điểm giọng nói chính]:
- Cao độ: Giọng nam trung bình, ấm và có chiều sâu. Không quá cao hay quá trầm.
- Âm lượng: Vừa phải, ổn định, đủ rõ ràng và dễ chịu khi nghe trong thời gian dài.
- Tốc độ: Vừa phải, khoảng 130-140 từ/phút, cho phép người nghe dễ dàng theo dõi và tiếp thu thông tin.
- Khoảng dừng: Sử dụng các khoảng dừng tự nhiên, hợp lý sau mỗi câu, đoạn văn hoặc khi chuyển ý để tạo nhịp điệu và không gian cho người nghe suy ngẫm.
[Đặc điểm âm sắc và biểu cảm]:
- Âm sắc: Trong trẻo, mượt mà, không có tạp âm hay hiện tượng khàn, rè, mũi. Giọng vang tự nhiên, có độ ngân.
- Ngữ điệu: Tự nhiên, linh hoạt theo cảm xúc và ý nghĩa của văn bản. Nhấn nhá đúng trọng tâm câu, thể hiện sự tinh tế trong việc biểu cảm (ví dụ: hơi hạ giọng khi mô tả sự trầm lắng, hơi lên giọng khi diễn tả sự khám phá). Tránh ngữ điệu đều đều, máy móc.
- Phát âm: Rõ ràng, tròn vành rõ chữ từng âm tiết. Phát âm chuẩn giọng phổ thông Việt Nam (miền Bắc).
- Hơi thở: Ổn định, không hụt hơi, không có tiếng thở rõ ràng khi nói.
[Những điều cần tránh]:
- Giọng nói quá nhanh hoặc quá chậm, gây khó chịu cho người nghe.
- Giọng nói thiếu cảm xúc, máy móc.
- Phát âm không rõ ràng, nói ngọng hay líu lưỡi.
- Nhấn nhá sai trọng tâm, hoặc nhấn quá mạnh vào các từ không cần thiết.
- Tạo ra tiếng ồn hoặc tạp âm không mong muốn (ví dụ: tiếng click, tiếng rè).
[Ví dụ]:
"Trong cuốn sách này, chúng ta sẽ cùng khám phá những bí ẩn của vũ trụ, từ những hành tinh xa xôi cho đến những hạt vật chất nhỏ bé nhất cấu thành nên vạn vật."
- Hướng dẫn: Đọc với giọng trầm ấm, nhẹ nhàng, có chút nhấn nhá ở "bí ẩn của vũ trụ" để gợi sự tò mò. Tốc độ hơi chậm lại khi kết thúc câu để tạo ấn tượng.
Lưu ý quan trọng khi viết Style Instruction:
-
- Càng cụ thể càng tốt: Các mô tả càng chi tiết, AI càng có khả năng tái tạo giọng nói gần với mong muốn của bạn.
- Sử dụng từ ngữ gợi hình: Thay vì chỉ nói “giọng hay”, hãy dùng “giọng ấm áp, truyền cảm, mượt mà”.
- Cung cấp ngữ cảnh: Giải thích rõ ràng mục đích và đối tượng nghe sẽ giúp AI điều chỉnh phong cách phù hợp hơn.
- Thử nghiệm và tinh chỉnh: Bạn sẽ cần phải thử nghiệm các prompt khác nhau và tinh chỉnh chúng dựa trên kết quả đầu ra của Voice AI để đạt được giọng nói ưng ý nhất.
- Cân nhắc khả năng của AI: Một số mô hình AI có khả năng kiểm soát giọng nói chi tiết hơn các mô hình khác. Hãy tìm hiểu các tham số mà nền tảng Voice AI của bạn hỗ trợ (ví dụ: cao độ, tốc độ, âm lượng, cảm xúc, độ nhấn, khoảng dừng).
Bằng cách tuân thủ cấu trúc này, bạn có thể tạo ra các hướng dẫn phong cách chi tiết và hiệu quả cho Voice AI.

