Chinese_segment_augment
Chinese_segment_augment copied to clipboard

Published 20 hours ago •

→

Metadata

python3实现互信息和左右熵的新词发现

Reame
Issues

Results 9 Chinese_segment_augment issues

Sort by recently updated

想了解一下算法的复杂度是多少？是否还有提升的空间

23

comment

文本变长以后非常耗时

node.child存储数据结构由list改成dict

1

comment

主要修改了model.py文件，把原来child的list改成dict结构，提高计算效率。

计算出的左右熵几乎全部为零

2

comment

您好，请问为什么运行出来发现左右熵基本都为零呢？

这块有点矛盾吗？

![image](https://user-images.githubusercontent.com/4702353/88126030-3be43080-cc03-11ea-9cdc-dad192a127e8.png) @zhanzecheng 谢谢！！

model.py的参数疑问

1

comment

PMI = math.log(max(ch.count, 1), 2) - math.log(total, 2) - math.log(one_dict[child.char], 2) - math.log(one_dict[ch.char], 2) 为什么和log2( P(X,Y) / (P(X) * P(Y))感觉不一样？

这一步的意义是什么，为什么这样计算

5

comment

==>result[key] = (values[0] + min(left[d], right[d])) * values[1] 这一步理解不了是在干什么，我的理解是只要取左右熵中的最小值作为这一步需要赋值的值就可以了 def find_word(self, N): # 通过搜索得到互信息 # 例如: dict{ "a_b": (PMI, 出现概率), .. } bi = self.search_bi() # 通过搜索得到左右熵 left...

yiyepiaoling0715

为什么需要一个外部词频表？

1

comment

互信息和左右熵通过语料不是就可以计算了吗？为什么需要一个外部词表呢？

计算左右熵算法问题

1

comment

假设有两个词串分别是[a,b,c]和[b,c,a]，[a,b,c]在计算左熵的时候会转换成b->c->a存储到树中,[b,c,a]在顺序存储的时候也会转换成b->c->a存储到树中，那么这个时候计算bc的左熵的时候会有问题把，额外把a的次数多加了一。

发现了其中一个疑点

请您看一下这里应该是这样的吗？

About

python3实现互信息和左右熵的新词发现

577

Stars

167

Forks

Watchers

Owner

← Metadata

577

Stars

167

Forks

Watchers

Owner

Metadata

python3实现互信息和左右熵的新词发现