liyanfu520
liyanfu520
请问LTP是基于哪个语料库训练的呢,语料库是否开源?
我执行你的脚本后,输出这个,好像是说服务器出错了,我这是啥原因呢? {'text': '服务器遇到错误!', 'nes': [], 'words': [{'id': 0, 'length': 3, 'offset': 0, 'text': '服务器', 'pos': 'n', 'parent': 1, 'relation': 'SBV', 'roles': [], 'parents': [{'parent': 1, 'relate': 'EXP'}]}, {'id': 1, 'length':...
如果是写成这种的 import sys,os,time sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..')) from ltp import LTP root_path=os.path.abspath(os.path.dirname(__file__) + '/' + '..') ltp = LTP(path = "base") url = "tests/zrbzdz.txt" t1 = time.time() contents =...
感谢回答,这种方法有尝试过,我之前没有限制列表的长度,把5万多条数据都丢进列表,结果执行后电脑卡死,看来列表里面一次性不能放太多元素 我想知道第二种方法,就是把读取的所有数据作为一个字符串来输入,这样列表就只有一个元素了,但是字符串会被切割掉,而且回车符‘\n’也并没有留下,这种方法在jieba里面是可以实现的,不知道这里面如何实现,还是只能用上面的方法 jieba脚本 import time import sys sys.path.append("../") import jieba jieba.initialize() # 输入需要分词的文件路径 url = "test/data/zrbzdz.txt" content = open(url,"r",encoding='utf-8-sig').read() t1 = time.time() words = "/ ".join(jieba.cut(content)) t2 = time.time()-t1 #...
好的,谢谢
之前好像是有的,为什么把它去掉了呢?如果需要,又该怎么实现呢?