Trong vài chục năm gần đây, công nghệ tiếng nói đã thu hút được sự quan tâm của rất nhiều nhà khoa học, nhà nghiên cứu và doanh nghiệp lớn trên toàn thế giới. Một trong những ứng dụng quan trọng nhất của công nghệ này là hệ thống hội thoại tiếng nói giúp cho con người có thể giao tiếp với máy tính thông qua tiếng nói tự nhiên. Chẳng hạn như, chúng ta có thể tra cứu, hỏi đáp hay thực hiện giao dịch bằng chính giọng nói của mình.
Các trợ lý ảo nổi tiếng trên thế giới như Apple Siri, Google Assistant, Amazon Alexa là những ví dụ điển hình cho hệ thống hội thoại tiếng nói này. Công nghệ tiếng nói cũng được sử dụng rộng rãi trong các hệ thống thông báo công cộng, trong ngành giáo dục, y tế, giải trí… Công nghệ tiếng nói còn giúp ích cho nhiều người khuyết tật, như hỗ trợ giao tiếp cho những người bị rối loạn khả năng nói, hay giúp người khiếm thị sử dụng các ứng dụng công nghệ và đặc biệt giúp họ có thể tiếp cận với kho tri thức khổng lồ của nhân loại cùng ngôn ngữ với người mắt sáng.
Vbee trở thành 1 trong 12 dự án đầu tiên trên toàn quốc về công nghệ tiếng nói nhận được tài trợ trị giá 10 tỉ từ Quỹ VinTech Fund năm 2019
Vbee: Công ty khởi nghiệp tiên phong trong công nghệ tiếng nói tiếng Việt
Tại Việt Nam, công nghệ tiếng nói tiếng Việt đã được nghiên cứu và thử nghiệm từ hơn chục năm nay. Tuy nhiên, công nghệ này mới bắt đầu được tập trung nghiên cứu, phát triển và đưa ra thị trường chỉ trong vài năm gần đây, đặc biệt khi có sự xuất hiện của Vbee, công ty khởi nghiệp tiên phong trong lĩnh vực tổng hợp tiếng nói tiếng Việt [1].
Vbee là công ty khởi nghiệp chính thức thành lập từ năm 2018, với nhiều giải thưởng lớn như Giải cao nhất Nhân tài Đất Việt năm 2018, Giải thưởng công nghệ số Việt Nam các năm 2018 và 2020, Công ty khởi nghiệp thắng cuộc tại chương trình Tăng tốc khởi nghiệp Grab (Grab Ventures Ignite) mùa 1 năm 2020… Vbee cũng được Bộ Thông tin và Truyền thông lựa chọn trở thành một trong hai nền tảng lõi tiên phong về công nghệ tiếng nói trong chương trình chuyển đổi số quốc gia “Make in Vietnam”.
Năm 2019, một cột mốc quan trọng của Vbee chính là trở thành một trong 12 dự án đầu tiên về công nghệ tiếng nói được tài trợ bởi Quỹ nghiên cứu ứng dụng VinTech Fund và Quỹ đổi mới sáng tạo VinIF thuộc tập đoàn Vingroup. Việc được nhận mức tài trợ tối đa (10 tỷ đồng) đã mang lại cho Vbee một cơ hội lớn trong việc nghiên cứu và làm chủ các công nghệ tiên tiến hiện đại, từ đó có thể phát triển, đóng gói sản phẩm và dần chiếm lĩnh thị trường.
Không chỉ được hưởng lợi về mặt tài chính, bên cạnh những giải thưởng lớn khác, với sự công nhận và đánh giá công tâm từ Vingroup, thương hiệu của Vbee đã được củng cố và trở nên nổi bật trên thị trường. Vbee cũng được tham gia một mạng lưới các nhà nghiên cứu và các công ty khởi nghiệp. Tại đó, Vbee có thể giao lưu, học tập, chia sẻ kinh nghiệm và kết nối kinh doanh.
Nghiên cứu, phát triển và hoàn thiện công nghệ lõi
Một trong những thành quả quan trọng nhất của dự án Vbee về công nghệ tiếng nói khi được Vingroup tài trợ là được cung cấp đủ kinh phí để nghiên cứu và đề xuất các mô hình, công nghệ tổng hợp tiếng nói tiếng Việt tiên tiến, hiện đại và có khả năng ứng dụng trong thực tiễn. Điều này là một yếu tố sống còn với bất kỳ một công ty khởi nghiệp công nghệ nào khi có thể hoàn toàn tập trung vào hoàn thiện công nghệ lõi. Từ đó có thể cạnh tranh được với một số đối thủ đang dần xuất hiện trên thị trường. Vbee đã nghiên cứu, đề xuất, thực hiện huấn luyện và thử nghiệm các mô hình học sâu mới nhất, hiện đại nhất trên thế giới cho công nghệ tiếng nói Việt. Các nghiên cứu và thực nghiệm có thể tiến hành nhanh chóng trên các máy chủ GPU [2] mạnh và chuyên dụng.
Video giới thiệu về version mới Vbee Text to Speech v3
Trong khuôn khổ của dự án, các bộ ngữ liệu bao gồm sáu giọng nói nam nữ thuộc ba miền Bắc Trung Nam đã được thu âm, tiền xử lý và huấn luyện trên các công nghệ, mô hình Vbee đề xuất. Kết quả thí nghiệm cảm thụ MOS [3] cho thấy chất lượng tiếng nói nhân tạo đã đạt độ tự nhiên từ 91% đến 95% so với tiếng nói tự nhiên của con người trên tất cả các giọng ba miền.
Hình dưới minh hoạ sự tiến triển của chất lượng tiếng nói tiếng Việt nhân tạo so với tiếng nói tự nhiên khi sử dụng các công nghệ tổng hợp tiếng nói tiên tiến trên thế giới và mô hình ngữ điệu đề xuất cho tiếng Việt. Việc đưa thêm mô hình ngữ điệu riêng cho tiếng Việt đã giúp tăng từ 5% đến 8% chất lượng của tiếng nói tổng hợp so với tiếng nói tự nhiên. Nghiên cứu này đã được thực hiện và công bố tại hội nghị hàng đầu thế giới (Rank A) về tiếng nói Interspeech 2021 tại Cộng hoà Séc.
Kết quả thí nghiệm cảm thụ chất lượng tiếng nói tiếng Việt với các công nghệ tổng hợp tiếng nói hiện đại (HMM: Hidden Markov Model, DNN: Deep Neural Network, E2E: End-to-end, Natural: Tiếng nói tự nhiên) và mô hình hoá ngữ điệu tiếng Việt đề xuất (Prosody).
Một trong những mục tiêu quan trọng của Quỹ Vingroup là nâng cao tính khả thi của các nghiên cứu cũng như đưa được các kết quả nghiên cứu đó ứng dụng vào thực tiễn. Chính vì vậy, trong quá trình thực hiện dự án, Vbee đã giải quyết và xử lý các thách thức trong việc đóng gói, triển khai những kết quả nghiên cứu ra thị trường, bao gồm: (i) xử lý phân tán và song song để giảm thời gian phản hồi cho một yêu cầu, (ii) đề xuất và triển khai giải pháp phân tải nhằm phục vụ được số lượng lớn người dùng đồng thời với khả năng scale tự động không giới hạn theo nhu cầu trong thực tế; (iii) đảm bảo các yếu tố bảo mật cho các hệ thống trên Cloud; và (iv) đóng gói mã nguồn khi triển khai on-premise.
Thực tế cho thấy các công nghệ tiếng nói hiện đại có độ phức tạp cao và thời gian tính toán lâu, rất khó để có thể đưa ra sử dụng hay ứng dụng vào các hệ thống đòi hỏi xử lý theo thời gian thực. Vì vậy, Vbee đã nghiên cứu và đề xuất giải pháp xử lý song song và phân tán cho một yêu cầu nhằm rút ngắn thời gian xử lý, giúp công nghệ tiếng nói tiếng Việt có thể sử dụng được với các ứng dụng thời gian thực.
Dịch vụ tổng hợp tiếng nói của Vbee được thiết kế và triển khai trên cloud hoặc on-premise, đảm bảo hàng trăm yêu cầu bảo mật khi triển khai cho các doanh nghiệp lớn, với khả năng tự động scale không giới hạn theo nhu cầu thực tế. Tất cả những thách thức mà Vbee đã giải quyết nêu trên là những yếu tố quan trọng để giúp Vbee đưa được kết quả nghiên cứu vào thực tiễn sử dụng cho các doanh nghiệp lớn cũng như phục vụ được một lượng lớn khách hàng.
Phát triển, đóng gói sản phẩm và chiếm lĩnh thị trường
Việc hoàn thiện và đóng gói công nghệ lõi đảm bảo các yếu tố bảo mật, thời gian đáp ứng hay số lượng người dùng đồng thời giúp Vbee có thể cung cấp dịch vụ tổng hợp tiếng nói cho người dùng cuối để tạo nội dung số như sản xuất sách nói, tạo clip tự động, review phim… Tuy nhiên, để có thể tiếp cận được với các doanh nghiệp lớn, việc phát triển các sản phẩm có ứng dụng công nghệ lõi là một nhiệm vụ thiết yếu với công ty khởi nghiệp công nghệ nhằm trực tiếp giải quyết các vấn đề trong thực tiễn.
Chính vì vậy, Vbee, với sự tài trợ của Vingroup, đã nghiên cứu và phát triển hệ thống tổng đài nhân tạo AICC (https://vbee.ai/aicall). Hệ thống có thể khả năng thay thế nhân viên tổng đài thực hiện một số nghiệp vụ như chăm sóc khách hàng tự động, xác nhận đơn hàng và bán hàng tự động. AICC cung cấp các công cụ thiết kế và thực hiện các chiến dịch gọi tự động với nội dung cá nhân hoá cho từng khách hàng. Các tổng đài viên ảo có thể thực hiện các cuộc gọi vào bất kỳ thời điểm nào (như gọi điện cảnh báo khi có sự cố hay vấn đề với tài khoản/ thẻ của khách hàng trong ngân hàng), với số lượng cuộc gọi đồng thời không giới hạn (như khi cần thực hiện gọi ra cho hàng nghìn khách hàng đồng thời).
Với công nghệ tiếng nói tiếng Việt chất lượng cao cùng hệ thống tổng đài nhân tạo AICC tiên phong, Vbee hiện đã và đang dẫn đầu trên thị trường về số lượng người dùng cũng như thị trường doanh nghiệp. Hình 5 minh hoạ số lượng cuộc gọi đã thực hiện trên tổng đài nhân tạo AICC và sản lượng yêu cầu dịch vụ tổng hợp tiếng nói TTS của Vbee từ tháng 1 đến tháng 7 năm 2021.
Theo đó, Vbee đã và đang cung cấp hàng triệu cuộc gọi tổng đài nhân tạo và yêu cầu dịch vụ TTS mỗi tháng. Khoảng hơn 600 triệu ký tự trung bình mỗi tháng đã được yêu cầu và chuyển đổi thành tiếng nói với công nghệ TTS của Vbee, có tháng đạt mốc gần 1 tỉ ký tự. Với hơn 70.000 người dùng và gần 600 doanh nghiệp tin dùng, Vbee đã có bước chuyển mình nhanh chóng để trở thành dịch vụ về tổng hợp tiếng nói tiếng Việt và tổng đài nhân tạo được sử dụng nhiều nhất tại Việt Nam. Thành quả này có sự góp công rất lớn của Vingroup trong việc tài trợ kinh phí cũng như tổ chức quản lý trong suốt quá trình dự án diễn ra.
Góp phần phát triển cộng đồng nghiên cứu về công nghệ tiếng nói tại Việt Nam
Trong quá trình thực hiện dự án về công nghệ tiếng nói, Vbee đã kết hợp chặt chẽ với Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội trong việc tạo môi trường nghiên cứu và phát triển cho một số nhóm nghiên cứu tại Viện về lĩnh vực xử lý ngôn ngữ tự nhiên và tiếng nói tiếng Việt. Một số nhóm nghiên cứu đã có công bố tại các hội thảo uy tín trong lĩnh vực.
Bên cạnh đó, trong khuôn khổ dự án, Vbee đã thực hiện phối hợp và tài trợ cho các hoạt động đào tạo và nghiên cứu của Viện như các giải thưởng đồ án được trình bày tốt nhất tại các hội đồng bảo vệ năm 2020-2021, hay Trường hè về Khoa học dữ liệu và Trí tuệ nhân tạo của Viện tổ chức trên phạm vi toàn quốc vào tháng 4 năm 2021.
Vbee luôn hiểu rõ vai trò tiên phong của mình trong quá trình phát triển công nghệ tiếng nói tại Việt Nam. Vì vậy, Vbee luôn luôn có ý thức và chủ động tham gia phát triển và đóng góp cho cộng đồng nghiên cứu về lĩnh vực này tại Việt Nam. Cụ thể, Vbee đã kết hợp với Trường Đại học Bách Khoa Hà Nội đứng ra tổ chức và tài trợ cho các cuộc thi cộng đồng về công nghệ tiếng nói Việt tại Hội thảo quốc tế về xử lý ngôn ngữ và tiếng nói tiếng Việt VLSP [4] trong suốt các năm 2019, 2020 và các năm tiếp theo.
Trong các cuộc thi này, ngoài việc trực tiếp tham gia các hoạt động tổ chức, quản lý, giám sát, đánh giá các đội thi; Vbee còn trực tiếp đóng góp dữ liệu đồng thời đóng góp công sức vào việc xây dựng và hoàn thiện các dữ liệu khác chia sẻ cho cộng đồng. Ngoài ra, Vbee cũng đã phát triển và vận hành nền tảng quản lý, tổ chức và đánh giá cho các cuộc thi tổng hợp tiếng nói tiếng Việt trong suốt hai năm 2019 và 2020.
Hệ sinh thái công nghệ tiếng nói tiếng Việt của Vbee
Dự án công nghệ tiếng nói Vbee với sự tài trợ của Vingroup dự kiến kéo dài trong vòng hai năm, từ tháng 10 năm 2019 đến hết tháng 9 năm 2021. Tuy nhiên, với sự phát triển rất nhanh của công nghệ và thị trường, Vbee đã nỗ lực hoàn thành toàn bộ các KPI đặt ra trong dự án sớm hơn kế hoạch ban đầu sáu tháng, với một số kết quả vượt ngoài KPI về công bố khoa học hay các đóng góp cho cộng đồng.
Trong quá trình phát triển của mình, Vbee luôn hướng tới việc hoàn thiện công nghệ lõi và mở rộng các sản phẩm trong hệ sinh thái về tiếng nói tiếng Việt. Bên cạnh các dịch vụ cho người dùng cuối như các dịch vụ giá trị gia tăng (VAS [5]: sản xuất sách nói, tạo clip tự động, review phim…), công nghệ của Vbee còn có thể tích hợp với các thiết bị IoT trong các hệ thống ô tô thông minh, nhà thông minh, đô thị thông minh, chính phủ điện tử…
Trong suốt thời gian thực hiện dự án, với sự tài trợ và hỗ trợ từ Vingroup, Vbee đã dần khẳng định được chỗ đứng, nâng cao uy tín và lòng tin với các đối tác và khách hàng. Với một công ty khởi nghiệp công nghệ, việc có được một nguồn tài trợ với trị giá lên tới 10 tỷ đồng từ Vingroup là một cú hích lớn giúp Vbee có thể nhanh chóng hoàn thiện công nghệ, phát triển và đóng gói sản phẩm từ đó nhanh chóng dẫn đầu thị trường. Quỹ Vingroup cũng tạo ra những kết nối giữa các công ty khởi nghiệp, các nhà nghiên cứu và tạo ra đòn bẩy cho các công ty khởi nghiệp nói chung và Vbee nói riêng phát triển nhanh hơn và mạnh mẽ hơn.
Một số thuật ngữ
[1] Công nghệ chuyển văn bản thành tiếng nói (Text-To-Speech TTS) [2] Máy chủ GPU (Graphics Processing Unit) là máy chủ có gắn cạc đồ hoạ GPU được sử dụng cho quá trình huấn luyện và thử nghiệm các mô hình học sâu với tốc độ tính toán nhanh gấp nhiều lần so với máy chủ thông thường. Máy chủ GPU chính là chìa khoá giúp đẩy nhanh quá trình nghiên cứu cho các nhà khoa học để có thể thử nghiệm và đưa các mô hình AI vào thực tiễn. [3] Thí nghiệm cảm thụ MOS (Mean Opinion Score) là thí nghiệm đánh giá chất lượng các đoạn tiếng nói dựa trên số điểm trung bình của những người tham gia dựa trên một tiêu chí nào đó. [4] VLSP: Vietnamese Language and Speech Processing (https://vlsp.org.vn) [5] VAS: Value Added ServiceXem thêm:
- Tổng đài trí tuệ nhân tạo AI – Bước chuyển mình trong dịch vụ chăm sóc khách hàng
- Tìm hiểu phần mềm Vbee AIVoice Studio và tính năng trải nghiệm