discussion
discussion copied to clipboard
繁體轉換時, "只" 與 "隻" 的轉換策略。
這是個常見的轉換問題。
想法
在簡體中的 只
如果是量詞,那麼它應該被轉換為 隻
,其他狀況皆為 只
。
如此應能解決絕大部分的 只
、 隻
轉換問題。
實驗:結巴 0.33
<?php
// composer require fukuball/jieba-php:dev-master
ini_set('memory_limit', '1024M');
require_once __DIR__ . '/vendor/autoload.php';
use Fukuball\Jieba\Finalseg;
use Fukuball\Jieba\Jieba;
use Fukuball\Jieba\Posseg;
Jieba::init(['mode' => 'default', 'dict' => 'big', 'cjk' => 'all']);
Finalseg::init();
Posseg::init();
$sentences = [
'那只会一成不变', // "只会" 是一個詞。
'那只会飞的蟑螂', // "只会" 不是一個詞,"只" 是量詞。
'那只开始发狂的狗', // "只" 是量詞。
];
foreach ($sentences as $sentence) {
$segs = Jieba::cut($sentence); // 分詞
$tags = Posseg::cut($sentence); // 詞性標註
var_dump($segs, $tags);
}
結巴
分詞似乎總是把 只会
當成是一個詞。
而 只
的詞性始終被標註為 d
,無法區別是否為量詞。
相關議題
- https://github.com/BYVoid/OpenCC/issues/257