HarvestText icon indicating copy to clipboard operation
HarvestText copied to clipboard

文本挖掘和预处理工具(文本清洗、新词发现、情感分析、实体识别链接、关键词抽取、知识抽取、句法分析等),无监督或弱监督方法

Results 16 HarvestText issues
Sort by recently updated
recently updated
newest added

**自动分段模型训练** 用了自己的数据中英文结合的,发现分段效果不太好。请问能支持特定数据的模型训练吗?

我已经仔细查看过本库的README和之前的Issues,没有发现解决方案。 **问题描述** **如何复现** 操作系统: python版本: HarvestText版本:

我已经仔细查看过本库的README和之前的Issues,没有发现解决方案。 **问题描述** 在安装的时候,不管是从源码编译requirements.txt,还是pip install HarvestText. 都会出现 mysql_config not found **如何复现** 操作系统:MacOs python版本:3.6 HarvestText版本:最新版

下面自动分段的代码运行时, 报错了, IndexError: list index out of range from harvesttext import HarvestText ht0 = HarvestText() text = """冠心病不是遗传性疾病。 遗传性疾病的发生,是因为从父母得到的遗传物质出了问题,例如染色体、基因发生了改变。目前,医学界还没有发现有遗传物质改变会明确导致冠心病。因此,严格来说,冠心病并不属于遗传性疾病,本身并不会遗传。 但是冠心病具有一定的家族聚集性,这是因为,与冠心病发生相关的一些危险因素有可能在家族中集中发生,例如高脂血症可能遗传,家人可能共同具有吸烟、高盐饮食、少运动等不良生活方式。同时,相关的研究也表明,遗传因素确实对早发冠心病有影响,一般来说,男性小于 55 岁、女性小于 65 岁明确诊断冠心病被认为是早发。 因此,如果家人中有冠心病患者,特别是有早发冠心病家族史,即一级亲属(父母、子女、兄弟姐妹)中有男性小于 55 岁、女性小于 65 岁明确诊断冠心病,自己还是要警惕。""" predicted_paras...

这个安装的时候很多报错啊,比如 No module named 'community' 很奇怪,有这个模块?

**描述你想要的功能** 能够提供具体例子更好 TextRank 得到的是摘要性的句子而非短语,TopicRank 可以实现这一点,这算一个新功能。 而且从 paper 的对比试验来看,短语抽取是比 TextRank 会更高些(作者对比可英文和法语)。 **是否有自己想过的可能解决方案?** 其实有解决方案了,见 pke,但是这个包实在是太多 bug 了 1. 基本上是依赖包各种问题(nltk),要么就是一些浮动值计算的bug,如`ZeroDivisionError: float division by zero`,这里`gap`不做极端例子的处理, `self.graph[i][j]['weight'] += 1.0 / gap`。 2. 整个包我看了,不支持中文,只支持英文和其他几种外语,如果要强用中文,需要自己手动分词等按照英文的方式去套用模型,这个在中文文本数据处理有点违背初衷了。 3. 我有一些准备,基本上...

enhancement

a³转化为a的三次幂,能够讲右上角阿拉伯数字转中文数字,还有计量单位也可以增加一下,电流,毫安,这些,能增加符号温度℃这些更完美了 电流 | 安(培) | A 平面角1°=60ˊ

配置 8G内存,跑5W条预料(简历招聘文本),用了大概2小时。 还有请问新词发现列出的新词是按指标排序好的么?是什么指标排序的?词频或者聚合度还是其他指标?

a nlp beginner, 最近在看无(弱)监督的情感分析,想知道这个项目对英文文本效果如何?

Traceback (most recent call last): File "/root/PycharmProjects/entity_extract/test.py", line 82, in SVOs += ht2.triple_extraction(sent.strip()) File "/root/anaconda3/envs/tensorflow/lib/python3.6/site-packages/harvesttext-0.5.4-py3.6.egg/harvesttext/harvesttext.py", line 577, in triple_extraction arcs = self.dependency_parse(sent, standard_name, stopwords) File "/root/anaconda3/envs/tensorflow/lib/python3.6/site-packages/harvesttext-0.5.4-py3.6.egg/harvesttext/harvesttext.py", line 550, in dependency_parse...