Nguyên lý hoạt động của Text to Speech: Biến văn bản thành âm thanh như thế nào?

Nguyên lý hoạt động của công nghệ chuyển đổi văn bản thành giọng nói dựa trên quy trình phức tạp nhằm tạo ra âm thanh tự nhiên như giọng nói con người. Với các thành phần xử lý ngôn ngữ tự nhiên và các mô hình tổng hợp giọng nói, chất lượng tiếng nói nhân tạo ngày càng được nâng cao và dễ dàng tiếp cận.

Công nghệ Text to Speech (TTS) hoạt động với quá tình bắt đầu từ việc tiền xử lý văn bản, nơi mà văn bản đầu vào được phân tích và chuẩn hóa. Tiếp theo, văn bản được sẽ phân tích ngôn ngữ để xác định cấu trúc cú pháp và ngữ nghĩa. Cuối cùng, các dự đoán ở mô hình âm học sẽ được đưa vào mô hình sinh tiếng nói để tạo ra giọng nói tự nhiên, bắt chước các mẫu lời nói của con người.

Nguyên lý hoạt động của công nghệ chuyển đổi văn bản thành giọng nói
Nguyên lý hoạt động của công nghệ chuyển đổi văn bản thành giọng nói

1. Thành phần xử lý ngôn ngữ tự nhiên

Thành phần xử lý ngôn ngữ tự nhiên có trách nhiệm tiền xử lý văn bản đầu vào như mở rộng từ viết tắt, xóa bỏ ký tự đặc biệt, chuẩn hóa cách đọc,… và phân tích những thông tin về mặt ngôn ngữ học như vị trí âm vị, từ loại,… Việc tiền xử lý dữ liệu sẽ giúp cho quá trình huấn luyện và suy dẫn được thực hiện dễ dàng và chính xác hơn..

1.1 Tiền xử lý văn bản

Việc tiền xử lý văn bản (text preprocessing) là một bước quan trọng trong xử lý ngôn ngữ tự nhiên (NLP). Quá trình này bao gồm nhiều bước cụ thể để cải thiện chất lượng và tính nhất quán của dữ liệu văn bản. Đầu tiên, các từ viết tắt được mở rộng thành dạng đầy đủ, ví dụ như “BKHN” thành “bách khoa hà nội”, “HĐND” thành “hội đồng nhân dân”. Tiếp theo, các ký tự đặc biệt như dấu chấm than, dấu chấm hỏi, và các ký tự không phải chữ cái hay số thường bị loại bỏ để làm sạch dữ liệu. 

Chuẩn hóa cách đọc văn bản cũng là một bước quan trọng, bao gồm việc chuyển đổi chữ hoa thành chữ thường, loại bỏ dấu tiếng Việt, và chuyển đổi số thành từ. Sau đó, văn bản được tách thành các đơn vị từ (tokens) để dễ dàng phân tích và xử lý. Việc loại bỏ các khoảng trắng thừa cũng giúp đảm bảo dữ liệu sạch sẽ và dễ xử lý hơn.

Xử lý văn bản đầu vào chính xác
Xử lý văn bản đầu vào chính xác

1.2 Chuyển đổi văn bản sang âm vị

Trong mô hình tổng hợp tiếng nói End-to-End, tiếng nói được tổng hợp ở mức ký tự, nghĩa là mỗi ký tự trong văn bản sẽ được mô hình xử lý trực tiếp để tạo ra âm thanh tương ứng. Ví dụ, các ký tự như a, ă, b, c,… sẽ được xử lý để phát âm. Tuy nhiên, trong tiếng Việt, có những ký tự có cách phát âm khác nhau tùy thuộc vào ngữ cảnh của từ. Ví dụ:

  • Ký tự “c” trong từ “cáu” phát âm khác với ký tự “c” trong từ “cháu”.
  • Nếu mô hình chỉ học từ các ký tự mà không hiểu ngữ cảnh, thì sẽ dễ gây ra nhầm lẫn trong cách phát âm khi tổng hợp giọng nói.

Vì vậy, nếu dữ liệu huấn luyện không đủ đa dạng, mô hình sẽ gặp khó khăn trong việc xử lý những trường hợp đặc biệt và phát âm không chính xác. Do đó, cần có cách biểu diễn khác cho văn bản đầu vào để đảm bảo rằng mô hình có thể phân biệt được cách phát âm của các ký tự trong từng ngữ cảnh cụ thể.

Để làm được điều đó, việc chuyển văn bản đầu vào sang dạng âm vị là vô cùng cần thiết.  m vị là phiên âm chi tiết của mỗi từ, mô tả cách đọc của từ đó một cách cụ thể hơn so với mức ký tự. Khi văn bản đầu vào được chuyển đổi sang âm vị, mô hình sẽ nhận được thông tin chính xác hơn về cách phát âm, từ đó giảm thiểu khả năng nhầm lẫn và cải thiện độ chính xác khi tổng hợp giọng nói.

2. Mô hình âm học

Để dự đoán được những đặc trưng âm học từ văn bản đầu vào, cần phải thực hiện nhiều bước trung gian, bao gồm: Tiền xử lý văn bản, Chuyển đổi văn bản sang âm vị, Vectơ hóa âm vị, Dự đoán đặc trưng và Chuyển đổi sang định dạng XML.

Sử dụng mô hình âm học để tổng hợp âm thanh
Sử dụng mô hình âm học để tổng hợp âm thanh

2.1 Vectơ hóa âm vị

Vectơ hóa âm vị là quá trình biến đổi chuỗi âm vị đầu vào thành một vectơ số nguyên, trong đó mỗi âm vị được đại diện bởi một số nguyên duy nhất. Quá trình này giúp các phép tính toán có thể thực hiện được trên máy tính và làm cho quá trình huấn luyện trở nên dễ dàng hơn.

2.2 Dự đoán đặc trưng

Có rất nhiều mô hình huấn luyện để dự đoán đặc trưng âm học cho một văn bản đầu vào. Điển hình có thể kể đến là c Các mô hình này giúp xác định các đặc trưng âm học cần thiết để tổng hợp giọng nói từ văn bản. Sau quá trình huấn luyện sẽ có được mô hình dự đoán những đặc trưng âm học từ văn bản đầu vào và có thể tổng hợp âm thanh từ đặc trưng âm học dự đoán.

2.3 Chuyển đổi sang định dạng xml

Quá trình chuyển đổi sang định dạng XML là bước cuối cùng trong mô hình âm học, sau khi đã dự đoán được các đặc trưng âm học từ văn bản đầu vào. Trong bước này, các đặc trưng âm học được mã hóa dưới dạng XML để dễ dàng lưu trữ, truyền tải và sử dụng trong các hệ thống tổng hợp giọng nói. XML (eXtensible Markup Language) là một ngôn ngữ đánh dấu linh hoạt và có cấu trúc rõ ràng, giúp tổ chức và quản lý thông tin một cách hiệu quả. Việc chuyển đổi sang XML đảm bảo rằng các đặc trưng âm học có thể được tích hợp và xử lý một cách nhất quán trong các ứng dụng khác nhau.

Quá trình chuyển đổi sang định dạng XML là bước cuối cùng trong mô hình âm học
Quá trình chuyển đổi sang định dạng XML là bước cuối cùng trong mô hình âm học

3. Mô hình sinh tiếng nói

Mô hình sinh tiếng nói là một phần quan trọng trong quá trình tổng hợp âm thanh từ văn bản. Dưới đây là giải thích chi tiết về quá trình này:

  • Dữ liệu đầu vào: Dữ liệu đầu vào cho thành phần tổng hợp âm thanh sẽ ở định dạng XML. Dữ liệu XML này bao gồm các âm vị và các đặc trưng âm học tương ứng.
  • Trích xuất và vectơ hóa âm vị: Để tổng hợp thành âm thanh, đầu tiên cần trích xuất chuỗi âm vị và các tham số đặc trưng từ dữ liệu XML. Sau đó, chuỗi âm vị sẽ được chuyển đổi (vectơ hóa) thành các số nguyên. Quá trình vectơ hóa này giúp chuyển đổi các âm vị thành dạng mà mô hình máy tính có thể xử lý.
Mô hình sinh tiếng nói là một phần quan trọng trong quá trình tổng hợp âm thanh
Mô hình sinh tiếng nói là một phần quan trọng trong quá trình tổng hợp âm thanh
  • Dự đoán quang phổ âm thanh: Các mô hình như FastSpeech, FastSpeech2, FastPitch, Tacotron, Flowtron, LightSpeech, AdaSpeech… sau khi được huấn luyện sẽ sử dụng thông tin âm vị đã được vectơ hóa. Dựa vào các giá trị âm học tương ứng, các mô hình sẽ dự đoán quang phổ âm thanh từ vectơ âm vị.
  • Chuyển đổi quang phổ thành âm thanh: Cuối cùng, quang phổ dự đoán sẽ được đưa qua một bộ chuyển đổi gọi là Vocoder. Bộ Vocoder này sẽ chuyển đổi quang phổ thành âm thanh, tạo ra âm thanh tổng hợp cuối cùng.

Bằng cách sử dụng dữ liệu đầu vào chi tiết và các mô hình học sâu như FastSpeech2, quá trình này cho phép tạo ra giọng nói tự nhiên và chất lượng cao từ văn bản.

Mỗi thành phần trong hệ thống tổng hợp tiếng nói đều đóng vai trò quan trọng để tạo ra giọng nói tự nhiên và dễ hiểu. Với sự phát triển của trí tuệ nhân tạo và học sâu, tương lai của công nghệ TTS hứa hẹn sẽ mang lại nhiều đột phá và cải tiến, nâng cao chất lượng và ứng dụng của giọng nói nhân tạo trong nhiều lĩnh vực.

MỤC LỤC
Try for Free