rime-essay icon indicating copy to clipboard operation
rime-essay copied to clipboard

調整簡化漢字、日本漢字詞頻

Open groverlynn opened this issue 2 years ago • 6 comments

groverlynn avatar Feb 19 '23 20:02 groverlynn

全都調到0,他們之間的相對字頻就沒了,這不好吧? 有的字也不是簡化字,如与、无,古籍常見。我覺得除非某個簡化字的字頻過高了,否則沒有必要調到0。

LEOYoon-Tsaw avatar Feb 19 '23 20:02 LEOYoon-Tsaw

絕大部分的簡化字字頻就是0,個別沒調成0的他們的相對字頻才有問題

groverlynn avatar Feb 19 '23 23:02 groverlynn

我恢復了異體字的字頻,但是個人認爲好幾個異體字(尤其是借作日本漢字的)字頻顯著偏高

groverlynn avatar Feb 19 '23 23:02 groverlynn

那些單位用字沒必要調到0吧,還有調到0的話會和僻字不分,降頻的話調到1就行了 實際使用中有哪些地方發現字序有問題呢?這份文件是所有方案都依賴的,謹慎一點,還是從實際使用出發,只改必要的吧。

LEOYoon-Tsaw avatar Feb 20 '23 00:02 LEOYoon-Tsaw

那么,为什么要调呢?

经过不少次编辑,但大多仍保持从繁体语料统计出来的字频。简化字、日本汉字语料中有可能出现,如果不形成太大的干扰,我觉得按统计值排序要比人为设置权重合理。

lotem avatar Feb 21 '23 14:02 lotem

那么,为什么要调呢?

经过不少次编辑,但大多仍保持从繁体语料统计出来的字频。简化字、日本汉字语料中有可能出现,如果不形成太大的干扰,我觉得按统计值排序要比人为设置权重合理。

拼音類輸入法會出現某些簡化字排序高於低頻繁體字的情況,在候選詞不多的情況下尤其明顯。特別是一旦錯選過一次,甚至會出現簡化字排第一(未開啓繁轉簡,即希望輸入繁體的情況下)

groverlynn avatar Sep 02 '23 04:09 groverlynn