↑ ↓

 Tummo Spell 2016 - Công cụ xử lý nội dung đa chức năng

Thảo luận trong 'Tin học - Công cụ' bắt đầu bởi tummospell, 29/9/15.

  1. tummospell

    tummospell Thành viên kích hoạt

    Được thích:
    36
    Nói chung giải thuật thì không khó, cái quan trọng duy nhất là từ điển, để có được một bộ từ điển được phân loại ra danh từ, tính từ... như của Google cần đến một nguồn nhân lực rất khủng. Còn để dịch tốt mọi truyện như QT thì cần có từ điển với lượng từ còn khiếp hơn nữa, bởi mỗi người viết có cách dùng từ rất khác nhau.
     
  2. Decepticon

    Decepticon Moderator Moderator

    Được thích:
    222
    ý tưởng xây dựng các bộ dữ liệu danh từ, động từ, tính từ... khá hay nhưng rất khó thực hiện, lý do bác tummo đã nêu ở trên. Mặt khác tiếng trung là ngôn ngữ quái đản, việc phân tích ngữ pháp của Google hay Baidu sau gần hai chục năm vẫn chưa đâu với đâu.


    đây là hắn bắn ta {đích} súng = đây là súng hắn bắn ta
    chính là hắn phá ta {đích} súng = chính là hắn phá súng của ta

    ta không {hội} bắn súng, ...
    = ta ko biết bắn súng {mi nhờ người khác đê}
    = ta sẽ ko bắn súng {nếu mi chịu abcxyz}
    = ta chắc chắn ko bắn súng {mông mi là đứa khác bắn}

    ta [tại] huấn luyện phòng = ta ở phòng huấn luyện
    ta [tại] huấn luyện newbie = ta đang huấn luyện newbie

    P/s: vế trái là tiếng trung nhá, ta viết tv cho các đậu hũ dễ hiểu.
     
    Chỉnh sửa cuối: 3/10/15
    tummospell and chanhvan1987 like this.
  3. Decepticon

    Decepticon Moderator Moderator

    Được thích:
    222
    giải pháp hiện thời là 1 pm sd bộ dữ liệu giống QT để người dùng dọn sang ngay lập tức, có chức năng add nhanh danh từ, tính từ, động từ vào các file danhtu.txt, tinhtu.txt, dongtu.txt.
    Sau khi dữ liệu đạt mức ok (khoảng 2-3 năm) thì tiến hành cấu trúc, tính toán lại mức độ ưu tiên

    Vietphrase.txt chứa câu trọn vẹn/ko trọn vẹn, thành ngữ, số, đại từ nhân xưng (ta, ngươi, nàng, ngài...)
    Vietphrase2.txt chứa bổ từ, trạng từ... nói chung là từ/cụm từ ko thuộc danh-động-tính, ko cần luật nhân.
    Names.txt chứa tên.
    ...
    Luật nhân chia thành nhiều bộ gom trong một thư mục.
    * Cấu hình
    Vietphrase = {0}
    Danh từ + Names = {1}
    Tính từ = {2}
    Động từ = {3}

    * Ví dụ
    Luatnhan.txt: {2}{1}={2} {1}
    Luatnhan2.txt: [tại] {3}=đang {3}
    Danhtu.txt: huấn luyện phòng=phòng huấn luyện

    => Ta [tại] huấn luyện phòng = ???
     
    Chỉnh sửa cuối: 4/10/15
    tummospell thích bài này.
  4. tummospell

    tummospell Thành viên kích hoạt

    Được thích:
    36
    vâng! mình sẽ chú ý
     
  5. cuonghv

    cuonghv Thành viên kích hoạt

    Được thích:
    23,441
    Cho ta xin cái link download phần convert với. Rỗi ngồi làm thử vài chương coi sao. Download cả đống mà sao toàn là add-in kiểm tra chính tả!
     

Thành viên đang xem bài viết (Users: 0, Guests: 0)