Zhiling Zhang comments

Results 19 comments of


                                            Zhiling Zhang

community

community不是networkx的自带功能，而是一个叫python-louvain的库提供的。试试`pip install python-louvain`以后再运行

how to use this repo for clustering some short text?

You can refer to [https://github.com/blmoistawinde/gsdmm/blob/master/README.md](https://github.com/blmoistawinde/gsdmm/blob/master/README.md), where I've given a more detailed `readme` according to my use experience.

命名实体识别可以增加新词嘛

你的问题是针对于ht.posseg提的(或者ht.entity_linking，二者本质相同)，还是ht.named_entity_recognition提的？如果是前者的话，可以通过 ``` ht.add_new_entity(entity0, mention0=None, type0="添加词") ``` 分别指定实体标准名，实体别名和类别（可选），来添加新词。后者则不支持添加。

语料处理增加对数学中符号的转化

感谢你的建议！感觉这可以做成一个挺有用的新特性，并且可以通过类似添加新实体一类的方法来比较方便地融入到这个库里来。可以的话，我还希望你能够提供一些更详细的描述，这样我可以在设计的时候把这个功能做得更加通用、实用。 1. 你希望处理的文本数据大概是来源于哪里呢？看你的描述，感觉很像是教材或者学术文章一类的文本，一般社交网络里应该都很难打出三次方来吧（或者用a^3）。给我提供一些明确的来源的话，我可以去看看大概有哪些符号是需要处理的。 2. 转化后希望用于什么下游任务里呢？比如希望统一符号表示，便于使用统一的模式进行信息抽取？比如从`30A`里，利用`(.*)安培`的模式抽取出`30`？或者，甚至是进行单位换算、符号运算？明确了这些任务的话，我可以看看是不是有一些其他功能也适合加入这个库里。希望得到回复，谢谢！

能支持模型训练吗

本库实现的自动分段算法texttile不是一个基于机器学习的方法，所以不能支持训练，但是有一些参数可以手动调整，你可以尝试一些调整，看怎么样效果会好些。这个函数的文档： https://harvesttext.readthedocs.io/en/latest/harvesttext.html?highlight=cut_paragraph#harvesttext.parsing.ParsingMixin.cut_paragraphs ![image](https://user-images.githubusercontent.com/32953014/140704516-4b1f3136-2b2a-4198-b93b-6968d448526f.png)

一定要安装mysql吗

是本库的一个依赖库[pattern](https://github.com/clips/pattern)的问题，它需要mysql_config作为依赖。实际上我们大部分的任务不需要用到这个库，所以目前暂时把这个依赖去掉了，可以再安装下试试看。目前本库只有在做英文的textrank时会需要pattern来做一下lemma，不做也可以运行，但是可能表现会稍差一点，需要用到这个功能的可以稍微留心一下。

TopicRank 实现

获得关键词或者短语确实可以是一个很实用的新功能。特别对于HarvestText来说： - 若已有实体别名信息，就可以借用现有的实体消歧的框架合并实体的不同指称，期望或许能够提升一些精度或者减少一些冗余。 - 若没有已知实体，也可以作为NER、新词发现外的挖掘关键实体的一种手段。不过目前我本人可能还不能抽出太多时间去实现这个功能，可以作为一个enhancement留到以后做。如果你有空的话，也欢迎贡献力量。考虑实现的方案是提供一个通用的关键词抽取的函数，比如叫`ht.extract_keywords`，其中除了`topicrank`，也可以支持更简单的`tfidf`(从提供的语料统计或使用jieba的统计), `textrank`(关键词部分)，便于对比挑选，可以在[CSL](https://github.com/CLUEbenchmark/CLUE#6-csl-%E8%AE%BA%E6%96%87%E5%85%B3%E9%94%AE%E8%AF%8D%E8%AF%86%E5%88%AB-keyword-recognition)之类的关键词抽取数据集上评测一下效果。

TopicRank 实现

新版初步实现了这个接口，并评测了算法表现，目前仅提供tfidf和textrank ## REAMDE中相关的说明目前提供包括`textrank`和HarvestText封装jieba并配置好参数和停用词的`jieba_tfidf`（默认）两种算法。示例(完整见[example](./examples/basics.py))： ```python3 # text为林俊杰《关键词》歌词 print("《关键词》里的关键词") kwds = ht.extract_keywords(text, 5, method="jieba_tfidf") print("jieba_tfidf", kwds) kwds = ht.extract_keywords(text, 5, method="textrank") print("textrank", kwds) ``` ``` 《关键词》里的关键词 jieba_tfidf ['自私', '慷慨', '落叶',...

安装出现很多问题

`community`这个模块对应的是`python-louvain`，它已经包括在[requirements.txt](https://github.com/blmoistawinde/HarvestText/blob/master/requirements.txt)里面，所以如果正常安装的话应该会包括这个模块。你说在安装的时候报错，那就是还没装好就遇到了这个问题？那能否尝试一下，clone本仓库，或者把上面的requirements.txt下载下来，然后在同一路径下运行`pip install -r requirements.txt`？如果还有问题的话，你可以说明一下你的python版本和操作系统，让我检查一下问题。

安装出现很多问题

> 我安装也遇到很多问题， > MacOS Python3.9 这个问题主要是其中一个依赖库jpype和python 3.9的兼容性问题，可以尝试使用较低版本的python，比如python 3.6。