menthas
menthas copied to clipboard
`Intl.Segmenter` に移行する
https://developer.mozilla.org/ja/docs/Web/JavaScript/Reference/Global_Objects/Intl/Segmenter
https://github.com/ytanaka-/menthas/blob/master/src/backend/crawler/contents-client.js#L24
ここを移行できそう
実験してみたが、
const str = 'Menthasはニュースキュレーションサイトです';
const segmenter = new Intl.Segmenter('jp', {
granularity: 'word',
});
const segments = segmenter.segment(str);
for (const seg of segments) {
console.log(seg.segment)
}
でやると
> "Menthas"
> "は"
> "ニュー"
> "スキ"
> "ュ"
> "レ"
> "ー"
> "ション"
> "サイト"
> "です"
みたいになってしまい実用的ではなさそう... 精度を高めるには何か設定があるのだろうか?