Ninzore
Ninzore
当时做的时候是想的这样处理记录 从: | someone A | someone B | | :-: | :-: | | 你说1| | ||我说2| |你说3|| ||我说4| 变成 | someone A | someone B | | :-:...
你要跑完第二个preprocess.py,之后会有个corpus_paris,那个才是我说的那个样子。 再试试?
貌似sentence丢了,你能把你的prepreprocess发出来看下吗,名字那些信息打码 正确的prepreprocess.csv应该是这样 |date|time|name|uid|sentence| |:-:|:-:|:-:|:-:|:-:| |yyyy-mm-dd|hh:mm:ss|昵称|QQ号|blabla|
草,你原始聊天记录第一句对话开始前所有的字全删了要不然有bug,readme写了的
啊这,可能是我问题或者QQ日志改版了?? 我明天看下
我试了一下,跑出来了没有问题啊.... 我的原始记录是这样  然后跑完chat_log后是这样  目前看到的bug 1. 我的文件后缀名有误,用的\t作为分隔符但是扩展名是.csv不是.tsv,用excel打开可能有问题 2. data = [] 打错成 date了 试试改了data之后会不会继续有问题 如果还是有,那我表示迷惑 如果没有,使用以下步骤运行preprocess (源文件中注释掉了) ``` index2voc, voc2index = wordCount() saveWordToIndexLog(index2voc, voc2index) save(index2voc, voc2index) pairsGen(preprocess_path, corpus_paris_path) ```...
咦为什么你的记录没有QQ号?是这个地方出的问题吗
并不会我的聊天记录都10年了,你试试用比较新的组导出一下记录看会不会有QQ号 如果没有,试着改一下chat_log里面的正则应该会有效果
QQ的左下角那个, 然后选消息管理,选到群聊,右键一个群然后导出,选择格式为txt
那你导出全部就行了,在我的群聊那里右键  我记得这个出来每个群中间会有一串字符隔开,你做个正则给过滤一下就行