Tổng hợp tiếng nói ⚡ Text To Speach Ai Viettel

What Is AI Text to Speech and How Does It Work?

Trải Nghiệm Ngay

Công nghệ được cho phép tự động hóa quy đổi văn bản thành lời nói Tiếng Việt giúp doanh nghiệp tự động hóa quy trình phân phối loại sản phẩm dịch vụ, nâng cao hiệu suất cao hoạt động giải trí sản xuất kinh doanh thương mại. Giọng đọc tự tạo Viettel AI có ngôn từ tự nhiên, phong phú vùng miền, thuận tiện tích hợp với mọi mạng lưới hệ thống

Tính Năng Cơ Bản

Giọng nói tự nhiên

Với việc sử dụng các công nghệ tiên tiến thế giới về xử lý ngôn ngữ tự nhiên, xử lý tiếng nói, học sâu, hệ thống tổng hợp cho giọng đọc tự nhiên, ngắt nghỉ tự động và kết hợp biểu cảm chính xác

Giọng đọc đa dạng

Hiện tại chúng tôi phân phối giọng đọc báo, đọc truyện với cả 3 vùng miền : Bắc ( 3 giọng nữ, 2 giọng nam ), Trung ( 1 giọng nữ, 1 giọng nam ), Nam ( 3 giọng nữ, 1 giọng nam )

Đáp ứng nhanh chóng

Sử dụng số lượng lớn những sever mạnh với công nghệ tiên tiến thống kê giám sát song song được cho phép phân phối nhanh gọn mọi nhu yếu của người mua, ngay cả trong trường hợp tải tăng đột biến

Trải Nghiệm Ngay

Ứng Dụng Thực Tế

Hệ thống thông báo, IoT, Robotics

Hỗ trợ những mạng lưới hệ thống thông tin, phát thanh, hướng dẫn tại trường bay, đài truyền hình, bệnh viện hoặc Smart Home …

Thuyết minh / Tổng đài tự động

Tiết kiệm ngân sách, thời hạn, tăng hiệu suất và chất lượng cho những dịch vụ thuyết minh, bán hàng hoặc CSKH qua điện thoại cảm ứng

Sách / Báo nói

Cho phép người dùng lắng nghe nội dung trực tiếp trên những trang sách báo trực tuyến khi đi đường, lái xe, đi tàu. Đặc biệt tương hỗ người khiếm thị

Tổng hợp tiếng nói và ứng dụng

Tổng hợp lời nói ( TTS : Text to Speech ) về thực chất là quy trình tạo tín hiệu lời nói từ văn bản. Một mạng lưới hệ thống tổng hợp lời nói hoàn toàn có thể được ứng dụng trong rất nhiều bài toán khác nhau hoàn toàn có thể lấy ví dụ như báo nói Dân trí, một loại sản phẩm mà tôi đã tham gia tăng trưởng, ngoài những những ứng dụng của trí tuệ tự tạo như trợ lý ảo, tổng đài tự động hóa, … đều cần mô đun đầu ra là mạng lưới hệ thống tổng hợp lời nói. Hiện nay có rất nhiều mẫu sản phẩm thuộc những chủng loại khác nhau được ứng dụng vào những mục tiêu khác nhau, nhưng vững mạnh nhất phải kể đến những loại sản phẩm được phân phối trên Google Cloud, Amazon Web Services, Microsoft Azure. Những cloud này được cho phép những bạn tích hợp mạng lưới hệ thống TTS của họ vào những loại sản phẩm cá thể của mình. Ở Nước Ta và dành cho tiếng Việt cũng có những loại sản phẩm điển hình nổi bật như mẫu sản phẩm của Viettel, FPT hay Vbee .

Lịch sử phát triển

Tổng hợp tiếng nói về bản chất là quá trình tạo tín hiệu tiếng nói từ văn bản. Trong nhiều năm trở lại đây, người ta cố gắng tạo ra một hệ thống tổng hợp sao cho có độ tự nhiên cao nhất (Naturaless) và đọc dễ hiểu nhất (Intelligibility).
Một trong những nghiên cứu đầu tiên mà ta phải nói đến chính là mô hình mô phỏng hệ thống cấu âm của con người do nhà khoa học người đan mạch Christian Kratzentein phát triển, hệ thống đơn giản này có thể phát ra được âm thanh của một số nguyên âm dài như (/a/, /e/, /i/, /o/, và /u/), ngoài ra nhiều phiên bản cải tiến cũng được phát triển trong thời gian sau đó. Tuy nhiên trải qua một quá trình dài phát triển, ngay cả tới tận thế kỷ 19 các nghiên cứu tổng hợp tiếng nói vẫn còn ở mức đơn giản.
Tới đầu thế kỷ 20, khi mà có sự lớn mạnh của các hệ thống điện tử, thì các hệ thống tổng hợp có chất lượng mới được phát triển. Năm 1937, The Bell Telephone Laboratory đã giới thiệu VODER (Voice Operating Demonstator), đây có thể nói là hệ thống điện tử đầu tiên của con người có thể tổng hợp tiếng nói bằng cách phân tích các đặc trưng âm học.
Ngoài các hệ thống tổng hợp tiếng anh thì tới năm 1975 MUSA được giới thiệu với khả năng tổng hợp tiếng ấn độ. Nhưng vẫn chưa có gì gọi là tổng hợp nhiều ngôn ngữ cả, phải tới khi Bell labs công bố nghiên cứu của họ về việc tổng hợp đa ngôn ngữ dựa trên các hướng tiếp cận “Xử lý ngôn ngữ tự nhiên” năm 1997 thì lĩnh vực này mới bắt đầu được khai thác. Nhìn chung, đến thời điểm này chất lượng của các hệ thống tổng hợp vẫn còn rất tệ, phải đến đầu những năm 2000 chất lượng và độ tự nhiên mới có sự nhảy bậc khi áp dụng tổng hợp thống kê dựa trên các mô hình Markov ẩn. Gần đây những nghiên cứu về mạng nơ ron học sâu được dẫn đầu bởi Google đã cho thấy những bước tiến nổi bật khi áp dụng vào tổng hợp tiếng nói, chất lượng đã đạt đến độ rất cao và khó có thể phân biệt là người hay máy nói.

Các phương pháp tổng hợp tiếng nói

Hiện nay có hai hướng tiếp cận chính về tổng hợp lời nói : Hướng tiếp cận cổ xưa, một mạng lưới hệ thống tổng hợp lời nói sẽ được phân ra làm hai phần chính gồm có phần giải quyết và xử lý ngôn từ tự nhiên và phần giải quyết và xử lý tổng hợp lời nói Hình 1. Hướng đi thứ hai là tổng hợp End to End, tức là hàng loạt quy trình từ đào tạo và giảng dạy hay tổng hợp chỉ cần chuẩn bị sẵn sàng tài liệu gồm có những tệp âm thanh và văn bản tương ứng, ngoài những không cần nhiều kỹ năng và kiến thức về ngôn ngữ học để thiết kế xây dựng mạng lưới hệ thống .

Hình 1: Kiến trúc chung của các hệ thống tổng hợp tiếng nói theo hướng cổ điển.

Tổng hợp mô phỏng hệ thống phát âm

Tổng hợp mô phỏng mạng lưới hệ thống phát âm là những kỹ tổng hợp giọng nói dựa trên quy mô máy tính để mô phỏng những mạng lưới hệ thống phát âm của con người và mô phỏng quy trình tạo ra lời nói trên mạng lưới hệ thống đó. Tổng hợp dựa trên mô phỏng mạng lưới hệ thống phát âm hầu hết chỉ dành cho nghiên cứu và điều tra. Lý do là vì tiềm năng của chiêu thức này là mô phỏng quy trình tạo lời nói sao cho càng giống chính sách của con người càng tốt, nên về kim chỉ nan hoàn toàn có thể xem đây là chiêu thức cơ bản nhất, nhưng cũng thế cho nên mà giải pháp này khó triển khai và chất lượng đầu ra thường không cao. Thời điểm lúc bấy giờ giải pháp này khó hoàn toàn có thể được ứng dụng tại Nước Ta .

Tổng hợp tần số Formant

Tổng hợp tần số Formant là tổng hợp không sử dụng mẫu giọng thật nào khi chạy, thay vào đó tín hiệu được tạo ra bởi một quy mô tuyến âm. Mô hình này mô phỏng hiện tượng kỳ lạ cộng hưởng của những cơ quan phát âm bằng một tập hợp những bộ lọc. Các bộ lọc này được gọi là những bộ lọc cộng hưởng Formant, chúng hoàn toàn có thể được tích hợp song song hoặc tiếp nối đuôi nhau hoặc cả hai. Hình hai trình diễn quy mô tổng hợp Formant tiếp nối đuôi nhau, trong đó đầu ra của bộ cộng hưởng này là nguồn vào của bộ cộng hưởng kia :

Hình 2: Hệ thống tổng hợp Formant nối tiếp.

Nhược điểm của giải pháp này là tạo ra giọng nói không tự nhiên, nghe rất “ máy ”. Ưu điểm nhỏ gọn và chạy nhanh .

Tổng hợp ghép nối

Tổng hợp ghép nối là chiêu thức dựa trên việc ghép nối những đoạn tín hiệu lời nói đã được ghi âm từ trước, xem diễn đạt cách hoạt động giải trí trên Hình 3. Đơn vị âm phổ biến là âm vị âm tiết, bán âm tiết, âm đôi, âm ba, từ cụm tư. Do đặc tính tự nhiên của lời nói được ghi âm và tàng trữ trong những đơn vị chức năng âm, nên tổng hợp ghép nối là giải pháp có năng lực tổng hợp lời nói với mức độ dễ hiểu và tự nhiên cao. Tuy nhiên, do giọng nói tự nhiên được ghi âm thay đổi từ lần phát âm này sang lần phát âm khác, và công nghệ tiên tiến tự động hóa việc ghép nối những đoạn của tín hiệu đôi lúc tạo những tiếng cọ sát không tự nhiên ở đoạn ghép .

Hình 3: Quá trình tổng hợp ghép nối

Có ba kiểu tổng hợp ghép nối chính :

  • Tổng hợp chọn đơn vị (Unit selection)
  • Tổng hợp âm kép (Diphone)
  • Tổng hợp chuyên biệt (Domain-specific)

Tổng hợp chọn đơn vị dùng một cơ sở dữ liệu lớn các giọng nói ghi âm. Trong đó, mỗi câu được tách thành các đơn vị khác nhau như: các tiếng đơn lẻ, âm tiết, từ, nhóm từ hoặc câu văn. Một bảng tra các đơn vị được lập ra dựa trên các phần đã táchvà các thông số âm học như tần số cơ bản, thời lượng, vị trí của âm tiết và các tiếng gần nó. Khi chạy các câu nói được tạo ra bằng cách xác định chuỗi đơn vị phù hợp nhất từ cơ sở dữ liệu. Quá trình này được gọi là chọn đơn vị và thường cần dùng đến cây quyết định được thực hiện. Thực tế, các hệ thống chọn đơn vị có thể tạo ra được giọng nói rất giống với người thật, tuy nhiên để đạt độ tự nhiên cao thường cần một cơ sở dữ liệu lớn chứa các đơn vị để lựa chọn.
Tổng hợp âm kép là dùng một cơ sở dữ liệu chứa tất cả các âm kép trong ngôn ngữ đang xét. Số lượng âm kép phụ thuộc vào đặc tính ghép âm học của ngôn ngữ. Trong tổng hợp âm kép chỉ có một mẫu của âm kép được chứa trong cơ sở dữ liệu, khi chạy thì lời văn được chồng lên các đơn vị này bằng kỹ thuật xử lý tín hiệu số nhờ mã tuyên đoán tuyến tính hay PSOLA. Chất lượng âm thanh tổng hợp theo cách này thường không cao bằng phương pháp chọn đơn vị nhưng tự nhiên hơn cộng hưởng tần số và ưu điểm của nó là có kích thước dữ liệu nhỏ.
Tổng hợp chuyên biệt (Domain-specific) là phương pháp ghép nối từ các đoạn văn bản đã được ghi âm để tạo ra lời nói. Phương pháp này thường được dùng cho các ứng dụng có văn bản chuyên biệt, cho một chuyên nghành, sử dụng từ vựng hạn chế như các thông báo chuyến bay hay dự báo thời tiết. Công nghệ này rất đơn giản và đã được thương mại hóa từ lâu. Mức độ tự nhiên của hệ thống này có thể rất cao vì số lượng các câu nói không nhiều và khớp với lời văn, âm điệu của giọng nói ghi âm. Tuy nhiên hệ thống kiểu này bị hạn chế bởi cơ sở dữ liệu chuyên biệt không áp dụng được cho miền dữ liệu mở.

Tổng hợp dùng tham số thống kê

Tiếp theo đây chúng ta sẽ xem xét về phương pháp tổng hợp tiếng nói đang được sử dụng rộng rãi, đó là tổng hợp dựa trên tham số thống kê. Trước đây tổng hợp thống kê thường dựa trên các mô hình Markov ẩn (HMMs), ngày nay mô hình này được thay thế bằng các mạng nơ ron học sâu để ước lượng các tham số đặc trưng âm học từ đầu vào là tham số đặc trưng ngôn ngữ học.

Hình 4: Tổng hợp tham số thống kê
Hình 4 miêu tả kiến trúc đại trà phổ thông của một mạng lưới hệ thống tổng hợp tham số thống kê. Trong đó văn bản nguồn vào sẽ được trích chọn thành những đặc trưng ngôn ngữ học bởi bộ Trích chọn đặc trưng ngôn từ ( Linguistic Features Extraction ). Sau đó những đặc trưng ngôn từ này đi qua bộ Parameter Generation và bộ này sẽ ước đạt được đặc trưng âm học ở đầu ra. Cuối cùng Vocoder tổng hợp tín hiệu lời nói từ những đặc trưng âm học này, Ngoài việc sử dụng riêng rẽ những giải pháp tổng hợp, thì trên quốc tế cũng có những nghiên cứu và điều tra về tổng hợp lai ghép ví dụ như lai ghép giữa tổng hợp thống kê và tổng hợp ghép nối để tận dụng những hưu điểm của hai giải pháp này .

Tổng hợp End to End

Tổng hợp End to end là chiêu thức mới được tăng trưởng trong những năm gần đây. Mục tiêu của giải pháp này là tạo ra mạng lưới hệ thống tổng hợp có chất lượng cao nhất mà không cần dùng đến những kỹ năng và kiến thức chuyên viên dựa trên những mạng nơ ron học sâu. Một kiến trúc điển hình nổi bật của chiêu thức này hoàn toàn có thể kể đến Tacotron2 của Google hay FastSpeech của Microsoft. Kiến trúc chung hay được sử dụng của một mạng lưới hệ thống End to End gồm có hai phần chính là : Phần tạo Mel spectrogram từ chuỗi ký tự nguồn vào và phần chuyển hóa Mel spectrogram thành tín hiệu lời nói. Hình 5 miêu tả kiến trúc một mạng lưới hệ thống tổng hợp End to End, trong đó phần tạo Mel spectrogram gồm hai mô đun là Embedder để chuyển hóa chuỗi ký tự thành chuỗi những véc tơ màn biểu diễn, sau đó mô đun Sequence to Sequence sẽ ước đạt Mel spectrogram từ chuỗi véc tơ này. Cuối cùng từ Mel spectrogram được chuyển hóa thành tín hiệu lời nói nhờ Neural Vocoder .

Source: https://thomaygiat.com
Category : Nghe Nhìn

Tổng hợp tiếng nói ⚡ Text To Speach Ai Viettel

Bài viết liên quan
Hotline 24/7: O984.666.352
Alternate Text Gọi ngay