居戎氏
居戎氏
_From @ShikiSuen on November 27, 2015 4:57_ 该讨论串专门搜集 Rime 暂时不相容的一些国语正音。 **理想状况是输入两岸任一边的发音都能找到对应的字。** _Copied from original issue: rime/squirrel#81_
Rime 詞典(我傾向於改日規範一下術語,叫他「韻書」)通常包含上萬字條、詞條,文件的篇幅較長,這導致兩處不便: 瀏覽、查找單字較爲費時,一些編輯器會卡頓; GitHub 無法在網站上直接顯示文件內容,因此也無法使用在線編輯功能。 設想制定一種或幾種可選的分類方法(好比圖書管理員的工作),把大文件拆分爲若干篇幅較小的文件。從而方便瀏覽和編輯。(但移動條目和全局排序、去重等操作比單個文件複雜) 現有的碼表引用機制可以利用。 或者,加一個編譯步驟,把源文件合併成單個用來部署的詞典文件(那還不勝直接編譯成二進制文件)。 (待議?)爲方便用腳本工具處理碼表,提議碼表文件用純粹的 TSV,省略 YAML 語法的文件頭。Rime 詞典文件則只包含 YAML 部分。
爲特殊候選添加註釋的辦法
由 Issue 92 的討論想到的,在形碼中處理部首的設想: 部首單列一個詞典,用 `comment_format:` 給這些候選添加【部首】註釋,以區別於同碼的字。 相關功能: 拼音裏面,錯音單列一個詞典,用來「反查」正確讀音。也許並不用反查機制實現,而把正確讀音寫爲編碼的一部分,作拼寫運算。
Thanks for the pull request. This works for the purpose, almost, except for two issues: 1. other states (like trad/simp. Chinese option) maybe inconsistent between clients; 2. app_options may reset...
Rough ideas: * `themes` that is an alias to the backward compatible name `preset_color_schemes` * unified themes that work for multiple frontends; frontends selectively implement *features* defined in unified theme;...
改寫輸入串的機制
設定一組拼寫運算規則,對輸入串變形。 可以用於實現一些跨音節的特性,以及開放的輸入碼空間: - 一些語言的轉寫方案 - 兒化韻展開 - 改寫已輸入的聲調(或音節的其他部分) 需要考慮約束規則的適用條件。(特定 segment?) 是否可以把並擊的拼寫運算規則統一進來?
詞典共享計劃
## 問題 「八股文」詞典及各部韻書缺少常用詞彙,尤其是 - 最近幾年產生並廣泛使用的新詞 - 極其高頻的詞組及固定搭配 用家持續使用輸入法,會在用戶詞典記下衆多新詞、缺詞,並按使用習慣調整詞頻,從而逐漸提升輸入體驗。然而這些屬於隱私數據,無法用於改善「八股文」及各部韻書,也無法安全地分享給其他用家。 共享計劃,以衆包的模式改進詞典,其關鍵是設計一套嚴密保護隱私數據、彙總、發現新詞、人工審查彙總結果的機制,並實現相關工具。 ## 構想 這套工具鏈的第一環節是用家通過 GitHub 帳號訂閱一期詞典共享計劃。 分期的目的是每期之間可以更新流程及工具,變更分享內容,並使用不同的加密密鑰。 使用不同輸入語言(編碼方案)的用家可加入不同的共享計劃,或只參加八股文詞典共享。 將來這一概念可以擴展到共享專業\行業詞典,等等。 訂閱要求用家的用於參加分享用戶詞典積累了達到一定量的數據。訂閱後先由工具分析詞典內容,抽樣產生一份報表(可能包含新詞及詞頻相對於預設值有顯著更新的詞),呈用戶審閱(可手動刪除部份不願共享的內容,或重新抽樣)後,做雙層不對稱加密,將密文提交到該期共享計劃的資料庫。 第二環節,由執鍵人完成彙總。 在收集到大量用家提交的報表後,由當值執鍵人在安全操作環境中,持外層密鑰的私鑰對報表解除一層加密。執鍵人不持有內層密鑰。 這將使每條記錄的用戶識別碼(並非個人身份信息)、詞頻等字段可讀,而詞條內容(加鹽)仍受第二層加密保護。執行腳本彙總所有用家提交的資料,濾去使用人數、累計詞頻折算權重不足設定閾值的記錄,結果再次加密後,寫入另一資料庫。 第三環節,審覈團隊人工處理彙總結果。 審覈團隊必須排除當值執鍵人,並獨立設計本期共享計劃的記錄格式、加鹽算法,配製用於內層加密的密鑰。審覈團隊不持有外層加密的私鑰,因此只能解密查看彙總後的資料。 審覈團隊須排除惡意提交的記錄,分析、討論詞條及編碼的正確性,並確定有效記錄的歸屬。 例如,一份方言輸入方案的新詞記錄,除連帶編碼匯入所屬韻書外,屬於通用語的詞彙,另可去除編碼匯入「八股文」詞典。然而該方言特有的詞彙只應進入方言詞典。對詩詞、歇後語、專業術語、常用的固定搭配等也應考慮收集到專門的詞典。 第四環節,審覈後確定的更新內容,加密後推送給本期計劃訂閱者。 訂閱者提交一定數量的報表後,用家可獲得解密密鑰,以訪問本期計劃資料庫中已共享的內容。 第五環節,該期共享計劃結束後,在相應代碼庫發出 pull request,將所有...
設計配方定義文件的格式
1. 「配方」用於定義一組配置及其他數據文件,指定其如何使用。 2. 配方定義文件的格式有以下選擇: - bash 腳本,可定義(實現)一組變量、函數 - 特定格式的 YAML 文件 無論哪種格式,都允許在代碼庫缺失配方定義文件的情況下,自動推導出默認的配方定義。 在 Windows 平臺 bash 不可用的情況下,只能忽略配方定義文件,做默認安裝。 3. 在配方裏定義安裝動作,有以下選擇: - 安裝腳本(bash) - 指定要複製的文件 + 打補靪 無論哪種形式,都支持在未定義安裝動作的情況下,執行默認的安裝動作。 目前已實現的默認安裝動作爲:複製代碼庫中的 `*.yaml, *.txt, opencc/*.{json,ocd,txt}`...
https://github.com/rime/plum/issues/4 完成後,將配方定義及用法形成文檔。 提供發佈配方的建議方法。 提供文件模板: - 新建配方 - README.md 提供必要工具協助發佈者準備所需文件、完成發佈。
驗證無誤後推送。