HarvestText issues

能支持模型训练吗

1

**自动分段模型训练** 用了自己的数据中英文结合的，发现分段效果不太好。请问能支持特定数据的模型训练吗？

ran337287

一定要安装mysql吗

2

我已经仔细查看过本库的README和之前的Issues，没有发现解决方案。 **问题描述** **如何复现** 操作系统： python版本： HarvestText版本：

wr1215

mysql_config not found

2

我已经仔细查看过本库的README和之前的Issues，没有发现解决方案。 **问题描述** 在安装的时候，不管是从源码编译requirements.txt，还是pip install HarvestText. 都会出现 mysql_config not found **如何复现** 操作系统：MacOs python版本：3.6 HarvestText版本：最新版

doudouaili

下面自动分段的代码运行时, 报错了, IndexError: list index out of range from harvesttext import HarvestText ht0 = HarvestText() text = """冠心病不是遗传性疾病。遗传性疾病的发生，是因为从父母得到的遗传物质出了问题，例如染色体、基因发生了改变。目前，医学界还没有发现有遗传物质改变会明确导致冠心病。因此，严格来说，冠心病并不属于遗传性疾病，本身并不会遗传。但是冠心病具有一定的家族聚集性，这是因为，与冠心病发生相关的一些危险因素有可能在家族中集中发生，例如高脂血症可能遗传，家人可能共同具有吸烟、高盐饮食、少运动等不良生活方式。同时，相关的研究也表明，遗传因素确实对早发冠心病有影响，一般来说，男性小于 55 岁、女性小于 65 岁明确诊断冠心病被认为是早发。因此，如果家人中有冠心病患者，特别是有早发冠心病家族史，即一级亲属（父母、子女、兄弟姐妹）中有男性小于 55 岁、女性小于 65 岁明确诊断冠心病，自己还是要警惕。""" predicted_paras...

Tangzy7

安装出现很多问题

4

这个安装的时候很多报错啊，比如 No module named 'community' 很奇怪，有这个模块？

AAAKgold

TopicRank 实现

3

**描述你想要的功能** 能够提供具体例子更好 TextRank 得到的是摘要性的句子而非短语，TopicRank 可以实现这一点，这算一个新功能。而且从 paper 的对比试验来看，短语抽取是比 TextRank 会更高些(作者对比可英文和法语)。 **是否有自己想过的可能解决方案？** 其实有解决方案了，见 pke，但是这个包实在是太多 bug 了 1. 基本上是依赖包各种问题(nltk)，要么就是一些浮动值计算的bug，如`ZeroDivisionError: float division by zero`，这里`gap`不做极端例子的处理， `self.graph[i][j]['weight'] += 1.0 / gap`。 2. 整个包我看了，不支持中文，只支持英文和其他几种外语，如果要强用中文，需要自己手动分词等按照英文的方式去套用模型，这个在中文文本数据处理有点违背初衷了。 3. 我有一些准备，基本上...

JiaxiangBU

enhancement

语料处理增加对数学中符号的转化

1

a³转化为a的三次幂，能够讲右上角阿拉伯数字转中文数字，还有计量单位也可以增加一下，电流，毫安，这些，能增加符号温度℃这些更完美了电流 | 安（培) | A 平面角1°=60ˊ

WongHunter

新词发现大规模预料处理速度好像比较慢？

2

配置 8G内存，跑5W条预料（简历招聘文本），用了大概2小时。还有请问新词发现列出的新词是按指标排序好的么？是什么指标排序的？词频或者聚合度还是其他指标？

QI-charles

英文文本效果如何？

1

a nlp beginner，最近在看无（弱）监督的情感分析，想知道这个项目对英文文本效果如何？

SinclairCoder

三元组抽取是报错了，不知道你有没有遇到？网上没有找到解决方法

3

Traceback (most recent call last): File "/root/PycharmProjects/entity_extract/test.py", line 82, in SVOs += ht2.triple_extraction(sent.strip()) File "/root/anaconda3/envs/tensorflow/lib/python3.6/site-packages/harvesttext-0.5.4-py3.6.egg/harvesttext/harvesttext.py", line 577, in triple_extraction arcs = self.dependency_parse(sent, standard_name, stopwords) File "/root/anaconda3/envs/tensorflow/lib/python3.6/site-packages/harvesttext-0.5.4-py3.6.egg/harvesttext/harvesttext.py", line 550, in dependency_parse...

jxz542189

HarvestText
HarvestText copied to clipboard

Metadata

能支持模型训练吗

一定要安装mysql吗

mysql_config not found

自动分段bug

安装出现很多问题

TopicRank 实现

语料处理增加对数学中符号的转化

新词发现大规模预料处理速度好像比较慢？

英文文本效果如何？

三元组抽取是报错了，不知道你有没有遇到？网上没有找到解决方法

← Metadata

Owner

Metadata

HarvestText HarvestText copied to clipboard

Metadata

← Metadata

Owner

Metadata

HarvestText
HarvestText copied to clipboard