Nội dung chính

Lịch sử phát triển của công nghệ Text to Speech bắt đầu từ những năm 1700 và đã trải qua nhiều bước tiến vượt bậc. Bài viết này sẽ tìm hiểu về nguồn gốc và các giai đoạn hình thành của công nghệ chuyển văn bản thành giọng nói.

1. Nguồn gốc của công nghệ Text to Speech (TTS)

Hơn 200 năm trước, con người đã bắt đầu ấp ủ ý tưởng về việc tạo ra máy móc có thể mô phỏng giọng nói con người. Năm 1779, Giáo sư người Nga Christian Kratzenstein đã chế tạo một thiết bị có khả năng tạo ra các nguyên âm một cách nhân tạo. Một phát minh khác tiếp nối vào năm 1791, đó là “Acoustic-Mechanical Speech Machine” của Wolfgang Von Kempelen. Chiếc máy này có thể tạo ra những âm thanh đơn lẻ và một số tổ hợp âm thanh.

Thiết bị tổng hợp giọng nói đầu tiên được phát minh đầu thế kỷ 17. (Nguồn: responsivevoice.org)

Đến đầu những năm 1800, Charles Wheatstone đã chế tạo thành công “máy nói” dựa trên thiết kế của Von Kempelen. “Máy nói” này phức tạp hơn và có khả năng tạo ra các nguyên âm cũng như hầu hết phụ âm. Thậm chí, một số sự kết hợp âm thanh và cả từ đầy đủ cũng có thể được tạo ra.

Thiết bị Wheatstone đã phát triển từ máy nói của Von Kempelen. (Nguồn: research.spa.aalto.fi)

Sang giai đoạn năm 1937 – 1938, tại Bell Labs, Homer Dudley đã phát triển thành công thiết bị tổng hợp giọng nói VODER dựa trên công trình trước đó của ông về bộ phát âm. VODER được trưng bày tại Hội chợ Thế giới New York năm 1939 và đã gây tiếng vang lớn.

Sơ đồ mạch của Voder. — Sơ đồ mạch của VODER. (Nguồn: en.wikipedia.org)

2. Các giai đoạn hình thành công nghệ TTS

Để có thể phát triển hoàn thiện như ngày hôm nay, công nghệ chuyển văn bản thành âm thanh đã trải qua nhiều thách thức và hạn chế để cải tiến và phát triển.

2.1 Giai đoạn bắt đầu (1950 – 1970)

Giai đoạn bắt đầu từ năm 1950 đánh dấu bước chân đầu tiên của công nghệ tổng hợp giọng nói dựa trên máy tính. Vào thời điểm này, các thiết bị máy tính còn rất thô sơ và hạn chế về khả năng xử lý âm thanh, tuy nhiên, các nhà khoa học đã bắt đầu thử nghiệm và xây dựng những hệ thống đơn giản để biến văn bản thành giọng nói. Đây chính là nền tảng mở đường cho các nghiên cứu và ứng dụng trong tương lai.

Năm 1961, tại Bell Labs, nhà vật lý John Larry Kelly, Jr cùng với đồng nghiệp Louis Gerstman đã sử dụng chiếc máy tính IBM 704 để thực hiện tổng hợp tiếng nói đầu tiên. Họ phát triển một hệ thống tạo ra âm thanh mô phỏng giọng nói con người bằng cách xử lý và tái tạo các tần số âm thanh cơ bản. Đây là một bước tiến lớn trong việc máy tính có thể “nói” thay vì chỉ xử lý số liệu.

Thiết bị tổng hợp giọng nói được tạo ra bởi Kelly. (Nguồn: research.spa.aalto.fi)

Dựa trên công nghệ này, John Larry Kelly đã tạo ra phiên bản tổng hợp bài hát “Daisy Bell” (Bicycle Built for Two) – một trong những bản Text to Voice đầu tiên có âm điệu và tính nghệ thuật. Phiên bản giọng hát tổng hợp này đã đi vào lịch sử khi được nhà văn kiêm nhà làm phim Arthur C. Clarke sử dụng trong cảnh cao trào của bộ phim khoa học viễn tưởng nổi tiếng “2001: A Space Odyssey” ra mắt năm 1968. Cảnh phim này đã gây ấn tượng mạnh và trở thành biểu tượng cho công nghệ giọng nói nhân tạo.

Từ năm 1966 đến những năm 1970, kỹ thuật mã hóa dự đoán tuyến tính (Linear Predictive Coding – LPC) ra đời và được phát triển liên tục. LPC giúp mô hình hóa cách phát âm của con người bằng phương pháp dự đoán và tái tạo tín hiệu âm thanh dựa trên các thông số tuyến tính. Đây là bước đột phá giúp giảm dung lượng dữ liệu cần xử lý mà vẫn giữ được chất lượng giọng nói ở mức chấp nhận được. Kỹ thuật này trở thành nền tảng quan trọng cho nhiều hệ thống tổng hợp giọng nói trong các thập kỷ tiếp theo.

Mặc dù trong giai đoạn này, giọng nói tổng hợp vẫn còn mang âm hưởng robot, cứng nhắc và thiếu tự nhiên, không thể tái tạo được cảm xúc hay ngữ điệu như giọng nói con người thật, những thành tựu này đã mở ra hướng đi quan trọng cho ngành tổng hợp giọng nói. Đây là nền móng giúp công nghệ Text to Speech ngày càng phát triển và tiến bộ hơn trong những thập kỷ sau.

2.2 Giai đoạn phát triển (1970 – 2010)

Năm 1975, Fumitada Itakura đã phát triển phương pháp cặp phổ vạch (LSP) để mã hóa giọng nói có độ nén cao. Từ năm 1975 đến năm 1981, Itakura nghiên cứu các vấn đề về phân tích và tổng hợp giọng nói dựa trên phương pháp LSP.

Itakura và bộ tổng hợp giọng nói. (Nguồn: ethw.org)

Năm 1975, hệ thống tổng hợp giọng nói MUSA được phát hành. Năm 1976, một trong những thiết bị điện tử cầm tay có tính năng tổng hợp giọng nói đầu tiên ra đời là máy tính cầm tay Speech+ của Telesensory Systems Inc. (TSI) dành cho người mù. Hay các thiết bị khác như đồ chơi Speak & Spell do Texas Instruments sản xuất vào năm 1978. Những món đồ chơi này là ví dụ về công nghệ giọng nói với ngữ điệu chính xác, giúp phân biệt rõ ràng với giọng robot phổ biến vào thời bấy giờ.

Máy Speak & Spell mẫu 1979 của Mỹ. (Nguồn: en.wikipedia.org)

Vào những năm 1980, công nghệ chuyển văn bản thành âm thanh bắt đầu làm khuynh đảo thế giới trò chơi điện tử. Trong đó phải kể đến như bản phát hành năm 1980 của Stratovox (một game arcade phong cách bắn súng) được cho ra mắt bởi Sun Electronics, Manbiki Shoujo hay Milton của Công ty Milton Bradley.

Năm 1990, một cột mốc lịch sử được ghi dấu khi Ann Syrdal tại AT&T Bell Laboratories đã tạo ra giọng nữ đầu tiên cho máy tổng hợp giọng nói. Suốt thập niên 90, các kỹ sư không ngừng nghiên cứu và cải tiến, lần lượt chinh phục những thử thách để biến giọng nói máy tính trở nên sống động và gần gũi hơn.

Ann Syrdal - người tạo ra giọng nữ đầu tiên cho thiết bị tổng hợp giọng nói. — Ann Syrdal – người tạo ra giọng nữ đầu tiên cho thiết bị tổng hợp giọng nói. (Nguồn: nytimes.com)

Năm 1999, Microsoft phát hành Narrator, một giải pháp đọc màn hình hiện được tích hợp trong mọi bản sao của Microsoft Windows.

2.3 Giai đoạn bùng nổ (2010 – nay)

Kể từ năm 2010, trí tuệ nhân tạo (AI) đã đưa công nghệ chuyển văn bản thành giọng nói lên một tầm cao mới, mang đến những trải nghiệm âm thanh sống động và đầy cảm xúc. Từ Mô hình Markov ẩn (Hidden Markov Model – HMM) tạo ra giọng đọc cứng nhắc, thiếu cảm xúc và ít đa dạng, Text to Speech đã phát triển vượt bậc nhờ Mạng lưới thần kinh sâu (DNN – Deep neural networks).

DNN đã thay thế HMM, trở thành yếu tố quan trọng trong Text to Speech. Nhờ khả năng học hỏi từ lượng lớn dữ liệu âm thanh, DNN có thể mô phỏng chính xác cách phát âm, ngữ điệu và cảm xúc, tạo ra giọng đọc tự nhiên, mượt mà, chân thực.

Công nghệ TTS dựa trên DNN đã được áp dụng rộng rãi trong nhiều lĩnh vực như trợ lý ảo (Google Assistant, Siri – Apple, Alexa), dịch vụ khách hàng tự động, hệ thống thông báo công cộng, và nhiều ứng dụng giáo dục, giải trí khác như trò chơi điện tử, phim ảnh hoặc sách nói…

Một số công cụ ứng dụng DNN được phát triển trong giai đoạn này phải kể đến như WaveNet – mô hình tổng hợp giọng nói tạo ra dạng sóng âm thanh thô, được phát triển bởi DeepMind; Deep Voice 3 của Baidu – mô hình chuyển văn bản thành giọng nói có khả năng sao chép giọng nói của con người chỉ với một vài phút dữ liệu âm thanh hay Jukebox của OpenAI có thể tạo ra các bài hát có lời và giọng hát ở nhiều thể loại và phong cách khác nhau… Các công cụ này giúp mọi thông tin được tiếp cận một cách thuận lợi hơn, dễ dàng hơn, hỗ trợ nhiều tác vụ công việc một cách hiệu quả.

Siri - một sản phẩm của công nghệ chuyển văn bản thành tiếng nói. — Siri – một sản phẩm của công nghệ chuyển văn bản thành tiếng nói. (Nguồn: www.apple.com/siri)

3. Tương lai của công nghệ chuyển văn bản sang tiếng nói

Tương lai của công nghệ Text to Speech rất thú vị và đầy hứa hẹn. Với sự phát triển của trí tuệ nhân tạo và học sâu, các mô hình giọng nói nhân tạo giờ đây có thể truyền tải những cảm xúc như vui, buồn hoặc tức giận, giúp cho việc tương tác và truyền tải thông tin trở nên dễ dàng, hấp dẫn và cá nhân hơn.

Hãy cùng tìm hiểu về các xu hướng mới trong công nghệ chuyển văn bản thành giọng nói:

3.1 Voice Cloning, Singing Text to Speech Voice Cloning

Voice Cloning – Nhân bản giọng nói hay Singing Text to Speech Voice Cloning – Nhân bản giọng hát là việc sử dụng thuật toán, mạng thần kinh (Neural Network) và kỹ thuật học sâu (Deep Learning) để tái tạo hoặc bắt chước giọng nói của một người. Việc nhân bản cho phép người dùng tạo các mô hình bằng giọng nói của bất kỳ ai theo thời gian thực. Phần mềm nhân bản giọng đọc tạo ra giọng nói mà không cần thu âm, mang lại trải nghiệm cá nhân hóa cho người nghe và tạo nội dung độc đáo.

Voice Cloning - nhân bản giọng nói cho phép tạo ra giọng nói của bất kỳ ai. — Voice Cloning – nhân bản giọng nói cho phép tạo ra giọng nói của bất kỳ ai. (Nguồn: freepik.com)

3.2 Dubbing

Dubbing – Ứng dụng công nghệ AI tiên tiến để tạo ra bản lồng tiếng AI chất lượng cao bằng các ngôn ngữ khác nhau. Công nghệ Text to Speech và giọng nói AI được sử dụng để chuyển văn bản ngôn ngữ gốc sang các đoạn lồng tiếng ngôn ngữ khác nhau. Ví dụ: một video tiếng Anh có thể được lồng tiếng sang tiếng Hindi hoặc bất kỳ ngôn ngữ nước ngoài nào khác, nâng cao trải nghiệm xem cho khán giả không nói tiếng Anh.

Công nghệ lồng tiếng bằng AI đang cách mạng hóa ngành lồng tiếng truyền thống, giúp nội dung được bản địa hóa dễ tiếp cận hơn và giá cả phải chăng hơn. Đồng thời cải thiện trải nghiệm xem cho khán giả trên toàn thế giới.

Tạo lồng tiếng chất lượng cao bằng các ngôn ngữ khác nhau với công nghệ Dubbing. (Nguồn: vidnoz.com)

3.3 Voice Conversion

Voice Conversion – Chuyển đổi giọng nói cho phép bạn chuyển đổi giọng nói của một người thành giọng nói của người khác. Công nghệ này sử dụng quy trình sao chép giọng nói để mã hóa giọng nói mục tiêu (giọng nói gốc chúng ta sử dụng để chuyển đổi) và tạo ra giọng nói tương ứng nhưng vẫn giữ nguyên ngữ điệu ban đầu. Công nghệ chuyển đổi giọng nói chất lượng cao có khả năng cách mạng hóa cách thức sản xuất, phân phối và tương tác nội dung trong nhiều lĩnh vực.

Voice Conversion chuyển đổi dễ dàng giọng nói của một người thành người khác. (Nguồn: freepik.com)

4. Một số câu hỏi thường gặp về lịch sử phát triển của công nghệ TTS

4.1 Công nghệ chuyển văn bản thành giọng nói (Text to Speech) bắt đầu từ khi nào?

Công nghệ chuyển văn bản thành giọng nói bắt nguồn từ thế kỷ 18 với những máy móc cơ học đơn giản mô phỏng giọng nói. Tuy nhiên, bước tiến lớn đầu tiên trong tổng hợp giọng nói bằng máy tính bắt đầu từ những năm 1950 với các hệ thống tổng hợp giọng nói đầu tiên sử dụng máy tính lớn.

4.2 Ai là người tiên phong trong việc tổng hợp giọng nói bằng máy tính?

John Larry Kelly, Jr và Louis Gerstman tại Bell Labs được xem là những nhà tiên phong với hệ thống tổng hợp giọng nói bằng máy tính IBM 704 vào năm 1961. Họ đã tạo ra phiên bản giọng hát nổi tiếng “Daisy Bell”.

4.3 Công nghệ Text to Speech phát triển như thế nào trong giai đoạn 1970 – 2010?

Trong giai đoạn này, nhiều phương pháp mã hóa giọng nói mới ra đời, cùng với sự xuất hiện của các thiết bị cầm tay, đồ chơi tổng hợp giọng nói và phần mềm đọc màn hình như Microsoft Narrator. Giọng nói tổng hợp dần trở nên tự nhiên hơn, nhưng vẫn còn hạn chế về cảm xúc và ngữ điệu.

4.4 AI và mạng nơ-ron sâu (DNN) đã thay đổi công nghệ TTS ra sao từ năm 2010 đến nay?

Từ năm 2010, AI và các mô hình Deep Neural Networks giúp mô phỏng chính xác cách phát âm, ngữ điệu và cảm xúc của con người. Giọng nói tổng hợp nhờ đó trở nên tự nhiên, mượt mà và đa dạng hơn rất nhiều, được ứng dụng rộng rãi trong trợ lý ảo, dịch vụ khách hàng, giải trí và giáo dục.

Text to Speech đang phát triển nhanh chóng với những tiến bộ mới trong công nghệ giúp tạo ra những lời nói tự nhiên giàu cảm xúc. Những tiến bộ này mang đến cơ hội mới về khả năng tiếp cận và sáng tạo nội dung không giới hạn cho các nhà sản xuất, doanh nghiệp và các ngành công nghiệp trên toàn thế giới.

1. Nguồn gốc của công nghệ Text to Speech (TTS)