discussion icon indicating copy to clipboard operation
discussion copied to clipboard

繁體轉換時, "只" 與 "隻" 的轉換策略。

Open n6333373 opened this issue 7 years ago • 4 comments

這是個常見的轉換問題。

想法

在簡體中的 如果是量詞,那麼它應該被轉換為 ,其他狀況皆為 。 如此應能解決絕大部分的 轉換問題。

實驗:結巴 0.33

<?php

// composer require fukuball/jieba-php:dev-master

ini_set('memory_limit', '1024M');

require_once __DIR__ . '/vendor/autoload.php';

use Fukuball\Jieba\Finalseg;
use Fukuball\Jieba\Jieba;
use Fukuball\Jieba\Posseg;

Jieba::init(['mode' => 'default', 'dict' => 'big', 'cjk' => 'all']);
Finalseg::init();
Posseg::init();

$sentences = [
    '那只会一成不变', // "只会" 是一個詞。
    '那只会飞的蟑螂', // "只会" 不是一個詞,"只" 是量詞。
    '那只开始发狂的狗', // "只" 是量詞。
];

foreach ($sentences as $sentence) {
    $segs = Jieba::cut($sentence); // 分詞
    $tags = Posseg::cut($sentence); // 詞性標註
    var_dump($segs, $tags);
}

結巴 分詞似乎總是把 只会 當成是一個詞。 而 的詞性始終被標註為 d ,無法區別是否為量詞。

相關議題

  • https://github.com/BYVoid/OpenCC/issues/257

n6333373 avatar Aug 22 '17 11:08 n6333373