Các thông số và đặc trưng của tiếng Việt

Như: số từ, số âm tiết, thông tin uni-gram, bi-gram, ..

  1. Số từ : lấy từ Vietnam Lexicography Center (Vietlex) gồm 40181 từ. (Những từ được sử dụng nhiều và rộng rãi nhất)
  2. Số âm tiết : 7729 âm tiết. (Cùng nguồn trên)
  3. 81.55% các âm tiết đồng thời là các từ đơn.(vietlex)
  4. 70.72% các từ ghép có 2 âm tiết. (vietlex)
  5. 13.59% các từ ghép có 3,4 âm tiết. (vietlex)
  6. 1.04% các từ ghép có từ 5 âm tiết trở lên. (vietlex)


Phương pháp sắp xếp tiếng Việt và thuật toán.

1. Các mục từ (đơn vị từ vựng) trong từ điển được xếp theo thứ tự các chữ cái:

a ă â b c d đ e ê f g h i j k l m n o ô ơ p q r s t u ư v w x y z

2. Theo các dấu giọng: không dấu, huyền, hỏi, ngã, sắc, nặng. Có thể cụ thể hoá hai quy tắc trên bằng trật tự như sau:

a à ả ã á ạ ă ằ ẳ ẵ ắ ặ â ầ ẩ ẫ ấ ậ b c d đ e è ẻ ẽ é ẹ ê ề ể ễ ế ệ
f g h i ì ỉ ĩ í ị j k l m n o ò ỏ õ ó ọ ô ồ ổ ỗ ố ộ ơ ờ ở ỡ ớ ợ
p q r s t u ù ủ ũ ú ụ ư ừ ử ữ ứ ự v w x y ỳ ỷ ỹ ý ỵ z

3. Đơn vị căn cứ để xếp là từng khối viết liền (tổ hợp các con chữ), đơn tiết hoặc đa tiết, tính từ trái sang phải, khối chữ viết thường xếp trước khối chữ viết hoa, khối chữ nào có ít con chữ hơn (thường là âm tiết) luôn xếp trước khối chữ (có phần trùng với khối chữ có ít con chữ) có nhiều chữ hơn. Ví dụ a (đơn vị đo diện tích) xếp trước A (kí hiệu viết tắt của Ampere); cha xếp trước chan.

4. Ưu tiên trật tự chữ cái trước, sau mới đến thanh điệu trong khi sắp xếp

4.1. Đối với từ đơn tiết, nếu âm tiết[1] (phân biệt bằng khoảng trống – space) nào có dấu hiệu khu biệt về khối chữ thì dựa vào trật tự của khối chữ để sắp xếp, bất luận mang thanh điệu gì. Ví dụ:

ang xếp trước anh trong mọi trường hợp, bất luận chúng mang thanh điệu gì, vì ở ang có g xếp trước h ở anh; ác xếp trước ách vì ac+zero[2] xếp trước ac+h, bất luận chúng mang thanh điệu gì; apatit xếp trước apxe vì apa- xếp trước apx-; v.v.

4.2. Đối với từ đơn tiết, nếu âm tiết nào không có dấu hiệu khu biệt về khối chữ thì căn cứ vào thanh điệu để sắp xếp. Ví dụ: ba, bà, bả; hai, hài, hại, v.v.

4.3. Đối với từ đa tiết, căn cứ vào thứ tự của từng âm tiết từ trái sang phải để sắp xếp, sau mới căn cứ vào thanh điệu (kết hợp cả hai cách 4.1 và 4.2). Ví dụ:

ba bể xếp trước ba gác vì bể xếp trước gác; ba bể, ba gác, ba que… xếp trước bà cô vì ba ở các mục từ trên xếp trước bà ở bà cô. Như vậy, bất cứ âm tiết nào kết hợp với ba (ba đứng đầu) để tạo nên đơn vị từ vựng mới (đa âm tiết) cũng luôn luôn xếp trước bất cứ đơn vị từ vựng nào có mặt âm tiết bà (bà đứng đầu).

 Lưu ý: 

1) Đối với những hình thức ghi cách phát âm phổ biến của mục từ vay mượn tiếng nước ngoài kiểu như cu-lông, a-xpi-rin…, thì dấu gạch ngang xem như zero, và xếp bình thường như một từ đa tiết khác. Ví dụ: a-xpi-rin xếp sau a tòng vì a+zero+x xếp sau a+zero+t; và a-xpi-rin xếp trên à, à ơi vì a (không dấu) xếp trước à (dấu huyền), v.v.

2) Các kí hiệu (symbol) và kí số (number) thì xếp trước kí tự (character). Ví dụ: !, #, $, %, &, @…, 0, 1, 2, 3, …9 luôn luôn đứng trước a, b, c; B1 xếp trước B40 và ba, v.v.

3) Với việc dùng dấu gạch ngang (-) trong khi phiên âm các đơn vị từ vựng nước ngoài, về nguyên tắc chúng ta quy ước nó như là kí hiệu khoảng trắng, nhưng theo luận lí thì nó vẫn phải xếp sau đơn vị từ vựng có cùng khối chữ nhưng cách nhau bằng khoảng trắng thực sự. Ví dụ:

a lô
a-lô

4) Tương tự, các kí hiệu như dấu nháy kép hoặc ngoặc đơn cũng phải được xử lí như trường hợp nêu trên. Tức là tuy ta coi nó là vị trí zero ở đầu và cuối một đơn vị từ vựng, nhưng vẫn phải ưu tiên xếp từ vựng có vị trí zero thực sự lên trên. Các từ vựng giống nhau về khối chữ, nhưng khác nhau về kí hiệu quy ước zero sẽ xếp theo trật tự của các kí hiệu phụ này. Cụ thể là: a xít xếp trước “a-xít”. Về dấu () thì có từ điển thu thập kiểu: ba chìm bảy nổi (chín lênh đênh), hiểu là có 2 đơn vị có nội dung ý nghĩa như nhau: ba chìm bảy nổi hoặc ba chìm bảy nổi chín lênh đênh, và ba chìm bảy nổi được dùng nhiều hơn là ba chìm bảy nổi chín lênh đênh. Với từ điển dạng sách, chỉ cần để một kiểu ba chìm bảy nổi (chín lênh đênh) thì đã chứa đựng cái ý nêu trên, còn với người dùng từ điển điện tử thì hình thức trên không chỉ ra rõ ràng cách hiểu như trong từ điển dạng sách. Vì lí do đó người ta phải thêm một mục “ba chìm bảy nổi chín lênh đênh” vào từ điển điện tử. Mục này nếu theo cách lập luận ở trên thì phải xếp trước mục ba chìm bảy nổi (chín lênh đênh). Điều này nghe ra là trái với tri thức vè nhận diện đơn vị từ vựng. Vì cái khối ở trong ngoặc (chín lênh đênh) vừa là phần chú thích thêm cho ba chìm bảy nổi, đồng thời lại vừa biểu thị là tổ hợp đi sau của đơn vị hoàn chỉnh ba chìm bảy nổi chín lênh đênh. Đây là hiện tượng cùng một hình thức biểu hiện nhưng có nhiều hơn một ý nghĩa diễn đạt. Để khắc phục tình trạng này chúng tôi đề nghị nên thu thập riêng thành hai đơn vị là ba chìm bảy nổi và ba chìm bảy nổi chín lênh đênh.

5) Tương tự, các kiểu sau đây cũng phải được xếp theo thứ tự:

ăn vóc học hay
ăn vóc, học hay
đâu… đó (đâu còn có đó)
…đâu …đó (bạ đâu nằm đó)
đi lại
…đi …lại (nhắc đi nhắc lại)

Kết luận: Nguyên tắc là ưu tiên khối chữ (tính toàn vẹn của khối chữ) trước, sau đến các kí hiệu nằm ngoài khối chữ (trước và sau khối chữ), sau nữa mới đến nội bộ khối chữ (tức các dấu gạch ngang, dấu phẩy, dấu ba chấm…).

___________________
[1] Đối với từ vay mượn tiếng nước ngoài, là những ngôn ngữ đa tiết tính, nên khái niệm âm tiết ở đây sẽ không chính xác. Nhưng để tiện làm việc, chúng tôi coi các khối chữ phân biệt với nhau bằng khoảng trống là một âm tiết, đồng nhất với âm tiết tiếng Việt.

[2] Khoảng trống ở sau một khối chữ (âm tiết) chúng tôi gọi là zero, nó được quy ước xếp trên chữ cái a,A trong mọi trường hợp.

Nguồn: Vietlex.com
Tác giả: Lưu Tuấn Anh

About The Author