Khi nhu cầu sử dụng AI Voice tăng mạnh, bài toán lớn nhất không còn là công nghệ mà là khả năng mở rộng hệ thống. Vbee AIVoice đã lựa chọn Google Cloud để giải quyết thách thức này, giúp xử lý hàng loạt yêu cầu tạo và nhân bản giọng nói trong thời gian ngắn.
Vbee AIVoice – Dẫn đầu công nghệ giọng nói AI tiếng Việt tự nhiên, giàu cảm xúc
Các nền tảng chuyển văn bản thành giọng nói trên thế giới thường gặp khó khăn khi thể hiện trọn vẹn âm sắc và ngữ điệu phức tạp của tiếng Việt. Đây cũng chính là khoảng trống mà Vbee hướng tới: xây dựng một hệ thống giọng nói AI không chỉ đọc đúng, mà còn đọc “có hồn”, thể hiện rõ sự khác biệt vùng miền và đặc trưng ngôn ngữ của người Việt.
Tuy nhiên, bài toán không chỉ nằm ở chất lượng giọng đọc. Khi Vbee ra mắt tính năng nhân bản giọng nói (Voice Cloning) vào đầu năm 2025, nhu cầu của người dùng tăng nhanh ngoài dự đoán. Chỉ sau một đêm, số lượng yêu cầu tạo giọng nhân bản tăng vọt, kéo theo áp lực lớn lên toàn bộ hệ thống.
Trong khi đó, hạ tầng cũ dựa trên máy ảo tĩnh lại không đủ linh hoạt để đáp ứng mức tăng trưởng này. Mỗi khi quá tải, đội ngũ kỹ thuật phải cấp thêm server một cách thủ công, khiến quá trình xử lý bị chậm lại. Người dùng có khi phải chờ đến vài ngày mới nhận được giọng nhân bản. Ngay cả các tác vụ quen thuộc như chuyển văn bản thành giọng nói cũng bị ảnh hưởng, với độ trễ có lúc kéo dài đến vài phút.
Từ đây, một vấn đề cốt lõi dần lộ rõ: để duy trì trải nghiệm mượt mà khi nhu cầu tăng mạnh, Vbee cần một hạ tầng có khả năng tự động mở rộng, đủ sức xử lý các tác vụ AI phức tạp theo thời gian thực, thay vì phụ thuộc vào việc vận hành thủ công như trước.

Nhân bản giọng nói thời gian thực với quy trình AI serverless
Để giải quyết bài toán mở rộng hệ thống, Vbee đã lựa chọn Google Cloud làm nền tảng hạ tầng. Trong đó, khả năng sử dụng GPU theo mô hình serverless của Cloud Run giúp hệ thống có thể xử lý các tác vụ AI nặng theo nhu cầu mà không cần vận hành hay quản lý máy chủ. Đồng thời, nền tảng này cũng tích hợp tốt với các công cụ MLOps, phù hợp với định hướng tự động hóa của Vbee.
Từ đó, Vbee xây dựng lại toàn bộ quy trình xử lý nhân bản giọng nói theo hướng linh hoạt và dễ mở rộng hơn. Cụ thể như sau:
- Khi người dùng tải lên hoặc ghi âm giọng nói trên hệ thống, dữ liệu sẽ được lưu trữ trên Cloud Storage. Sau đó, một tiến trình xử lý trên Cloud Run sẽ tự động làm sạch và chia nhỏ dữ liệu đầu vào.
- Khi dữ liệu đã sẵn sàng, hệ thống sẽ kích hoạt quá trình huấn luyện trên môi trường GPU (Cloud Run), tạo ra một mô hình giọng nói mới dựa trên đặc trưng giọng của từng người dùng.
- Sau khi hoàn tất, mô hình này được lưu vào Artifact Registry và tự động triển khai lên hệ thống thông qua Cloud Build. Nhờ vậy, toàn bộ quá trình từ huấn luyện đến đưa vào sử dụng đều diễn ra liền mạch, không cần can thiệp thủ công.
- Ở bước cuối cùng, người dùng chỉ cần nhập văn bản, hệ thống sẽ chuyển đổi thành giọng nói theo thời gian thực, sử dụng chính giọng đã được nhân bản trước đó.
Toàn bộ quy trình này được tự động hóa hoàn toàn, từ lúc tải dữ liệu lên cho đến khi nhận được audio đầu ra, giúp hệ thống vừa xử lý nhanh hơn, vừa sẵn sàng đáp ứng khi lượng người dùng tăng cao.
Chia sẻ về quá trình triển khai, anh Nguyễn Hoàng Kỳ – Head of AI của Vbee cho biết: “Google Cloud giúp hệ thống dễ dàng kết nối với các công cụ như Cloud Build, Artifact Registry hay Cloud Monitoring, từ đó mở rộng quy mô mà không cần tốn nhiều công sức quản lý hạ tầng.”
Để đẩy nhanh quá trình xây dựng hệ thống, Vbee cũng hợp tác với đối tác Cloud Ace. Đơn vị này hỗ trợ thiết kế kiến trúc chạy trên nền container với Cloud Run (GPU), đồng thời tư vấn triển khai CI/CD, thiết lập hệ thống theo dõi và tối ưu chi phí thông qua các chính sách sử dụng tài nguyên dài hạn (CUDs).

Chinh phục thị trường với mức tăng trưởng 20% người dùng mỗi tháng
Nhờ nền tảng hạ tầng mới, những cải thiện không chỉ dừng lại ở mặt kỹ thuật mà còn thể hiện rõ trong hiệu quả vận hành và trải nghiệm người dùng. Cụ thể:
Việc chuyển sang kiến trúc serverless (không máy chủ) giúp tốc độ mở rộng của dịch vụ Voice Cloning tăng tới 800%, đồng thời giảm khoảng 50% khối lượng công việc bảo trì của đội ngũ kỹ thuật.
Khi không còn bị giới hạn bởi hạ tầng, hệ thống cũng phản hồi nhanh hơn đáng kể. Tốc độ xử lý text-to-speech được cải thiện khoảng 25%, cho phép người dùng nhận audio gần như theo thời gian thực thay vì phải chờ đợi đến vài phút như trước.
Không chỉ cải thiện hiệu suất, việc giảm tải công việc vận hành còn giúp đội ngũ AI Engineering có thêm thời gian tập trung vào nghiên cứu và thử nghiệm các mô hình lớn hơn. Nhờ đó, chất lượng giọng nói ngày càng tự nhiên và giàu cảm xúc hơn. Đây cũng là nền tảng giúp Vbee trở thành một trong những đơn vị tiên phong tại Việt Nam triển khai công nghệ sao chép giọng nói (Voice Cloning) ở quy mô lớn, đồng thời duy trì mức tăng trưởng khoảng 20% người dùng hoạt động mỗi tháng.
Chia sẻ về sự thay đổi này, chị Nguyễn Thị Thu Trang (Founder & CTO Vbee) cho biết: “Google Cloud đã giúp Vbee rút ngắn khoảng cách từ ý tưởng đến thực tế, cho phép đội ngũ phát triển nhanh hơn, linh hoạt hơn và sẵn sàng mở rộng ở bất kỳ quy mô nào.”

Trên nền tảng đó, Vbee đang từng bước mở rộng định hướng sản phẩm theo mô hình “all-in-one” cho các nhu cầu liên quan đến giọng nói. Bên cạnh nhân bản giọng nói và chuyển văn bản thành giọng nói, hệ thống sẽ tiếp tục tích hợp thêm các công nghệ như chuyển giọng nói thành văn bản (speech-to-text) và dịch thuật (AI translation), hướng tới xây dựng một hệ sinh thái AI Voice toàn diện.
Không chỉ dừng lại ở thị trường trong nước, Vbee đang từng bước mở rộng sang Đông Nam Á, tận dụng hạ tầng linh hoạt từ Google Cloud để triển khai nhanh chóng và hiệu quả tại các thị trường mới. Trong dài hạn, Vbee hướng tới việc tự động hóa các tương tác bằng giọng nói AI một cách tự nhiên và giàu cảm xúc, qua đó nâng cao trải nghiệm người dùng và tối ưu hiệu quả vận hành cho doanh nghiệp.
Xem thêm: Chi tiết câu chuyện thành công của Vbee trên trang chủ của Google Cloud toàn cầu Tại Đây.

