Một mô hình ngữ âm là một file chứa các đặc trưng thống kê của mỗi âm tiết riêng biệt, mà chúng tạo thành một từ; Tức là, một từ sẽ có một mô hình ngữ âm của riêng nó. Mỗi một đặc trưng thống kê được gán một nhãn được gọi là âm vị hay phoneme. Tiếng Việt có khoảng 43 âm vị khác nhau được sử dụng trong nhận dạng tiếng nói tiếng Việt.

Một mô hình ngữ âm được tạo ra bằng việc thu thập một nguồn dữ liệu tiếng nói (được gọi là ngữ liệu tiếng nói) và sử dụng các thuật toán huấn luyện để tạo ra các đặc trưng thống kê cho mỗi âm vị trong một ngôn ngữ. Các đặc trưng thống kê này được gọi là mô hình Markov ẩn (“HMM”s). Mỗi âm vị có một HMM của riêng nó hay hiểu rằng một mô hình ngôn ngữ thì có nhiều mô hình markov ẩn, phụ thuộc vào số lượng âm vị của âm tiết.

Ví dụ, nếu một hệ thống được xây dựng một một ngữ pháp đơn giản được sử dụng để nhận dạng từ “VŨ” (có các âm vị là: “V 2 UH”), sau đây là các bước cơ bản mà một công cụ nhận dạng tiếng nói phải có:

1. Bộ giải mã tiếng nói thu nhận âm thanh từ người nói và thực hiện so khớp HMM trong mô hình ngữ âm. Trong ví dụ tôi đưa ra, mỗi một âm vị trong từ VŨ có tương ứng HMM riêng của nó.

   • V
   • 2
   • UH

2. Khi nó tìm được một HMM khớp trong mô hình ngữ âm, bộ giải mã đánh dấu lại âm vị tìm được. Bộ giải mã tiếp tục so khớp để tìm được các âm vị khác cho đến hết.

3. Khi quá trình so khớp kết thúc, bộ giải mà tìm xem chuỗi âm vị phân tích được (tức là “V 2 UH”) trong từ điển phiên âm để xác định xem từ nào được nói. Trong ví dụ này, ta có bộ từ điển phiên âm có phát âm là VŨ:

 • VŨ                  [VŨ]                      V 2 UH
 • VŨ_CÔNG    [VŨ_CÔNG]        V 2 UH K AW NG
 • VŨ_ĐIỆU      [VŨ_ĐIỆU]          V 2 UH D 5 IY W
 • VŨ_SƯ          [VŨ_SƯ]               V 2 UH SH ΩW

4. Cuối cùng bộ giải mã tìm trong file ngữ pháp so khớp từ hoặc cụm từ. Khi đó ngữ pháp của ta trong ví dụ này chỉ chứa 1 từ (“VŨ”), nó trả về từ “VŨ” 😀

Sẽ phức tạp hơn nếu như bạn sử dụng các mô hình ngôn ngữ (mô hình chứa xác suất của một lượng lớn các chuỗi từ khác nhau), nhưng cách tiếp cận cơ bản là giống nhau.

 

About The Author