Nói chung giải thuật thì không khó, cái quan trọng duy nhất là từ điển, để có được một bộ từ điển được phân loại ra danh từ, tính từ... như của Google cần đến một nguồn nhân lực rất khủng. Còn để dịch tốt mọi truyện như QT thì cần có từ điển với lượng từ còn khiếp hơn nữa, bởi mỗi người viết có cách dùng từ rất khác nhau.
ý tưởng xây dựng các bộ dữ liệu danh từ, động từ, tính từ... khá hay nhưng rất khó thực hiện, lý do bác tummo đã nêu ở trên. Mặt khác tiếng trung là ngôn ngữ quái đản, việc phân tích ngữ pháp của Google hay Baidu sau gần hai chục năm vẫn chưa đâu với đâu. đây là hắn bắn ta {đích} súng = đây là súng hắn bắn ta chính là hắn phá ta {đích} súng = chính là hắn phá súng của ta ta không {hội} bắn súng, ... = ta ko biết bắn súng {mi nhờ người khác đê} = ta sẽ ko bắn súng {nếu mi chịu abcxyz} = ta chắc chắn ko bắn súng {mông mi là đứa khác bắn} ta [tại] huấn luyện phòng = ta ở phòng huấn luyện ta [tại] huấn luyện newbie = ta đang huấn luyện newbie P/s: vế trái là tiếng trung nhá, ta viết tv cho các đậu hũ dễ hiểu.
giải pháp hiện thời là 1 pm sd bộ dữ liệu giống QT để người dùng dọn sang ngay lập tức, có chức năng add nhanh danh từ, tính từ, động từ vào các file danhtu.txt, tinhtu.txt, dongtu.txt. Sau khi dữ liệu đạt mức ok (khoảng 2-3 năm) thì tiến hành cấu trúc, tính toán lại mức độ ưu tiên Vietphrase.txt chứa câu trọn vẹn/ko trọn vẹn, thành ngữ, số, đại từ nhân xưng (ta, ngươi, nàng, ngài...) Vietphrase2.txt chứa bổ từ, trạng từ... nói chung là từ/cụm từ ko thuộc danh-động-tính, ko cần luật nhân. Names.txt chứa tên. ... Luật nhân chia thành nhiều bộ gom trong một thư mục. * Cấu hình Vietphrase = {0} Danh từ + Names = {1} Tính từ = {2} Động từ = {3} * Ví dụ Luatnhan.txt: {2}{1}={2} {1} Luatnhan2.txt: [tại] {3}=đang {3} Danhtu.txt: huấn luyện phòng=phòng huấn luyện => Ta [tại] huấn luyện phòng = ???
Cho ta xin cái link download phần convert với. Rỗi ngồi làm thử vài chương coi sao. Download cả đống mà sao toàn là add-in kiểm tra chính tả!