Flat-Lattice-Transformer icon indicating copy to clipboard operation
Flat-Lattice-Transformer copied to clipboard

关于lattice-lstm

Open STHSF opened this issue 4 years ago • 12 comments

文章给出的lattcie-lstm的结构与我看到的Chinese NER Using Lattice LSTM有点不一样, 有个问题想要请教一下, 按照Chinese NER Using Lattice LSTM中的构建方法, 重庆人和药店应该会提取出[重庆, 重庆人, 人和药店, 药店]四个词, 请问是如何剔除重庆人人这个词的. 文章中只提到“Some words in lattice may be important for NER. ”, 能给出如果筛选这些重要的词的么?

STHSF avatar Sep 08 '20 08:09 STHSF

请问您是指lattice的结构不同嘛?我论文中的“重庆人和药店”这个例子,只是为了做一个说明,具体构建出的lattice是会根据词典产生变化的,就我们用的yj这个词典而言,lattice lstm那篇的”南京市长江大桥“中有一个”长江大桥“节点,我之前好像也在那个词典找过,没有”长江大桥“这个词。总的来说,论文里的图只是为了更好地说明我们的motivation,以及为了画图方便,我们加的词结点就比较少。

LeeSureman avatar Sep 11 '20 03:09 LeeSureman

是的, lattice的结构对构建position encoding还是比较重要的, 就比如lattice lstm那篇文章一样, 为啥词表中没有江大桥呢? 我的意思是如果词表中出现了这些词汇, 那这些词汇都要加进去么?还是说有一些方法可以过滤这些词汇?

STHSF avatar Sep 14 '20 06:09 STHSF

要加进去的。目前为止包括lattice lstm,FLAT,LR-CNN等工作好像都没考虑过你说的“过滤词汇”这个问题

LeeSureman avatar Sep 14 '20 11:09 LeeSureman

嗯呢, 谢谢, 如果自定义词表中添加了更多的信息, 比如把“重庆人”这些词汇也加进去, 那么对结果也是有一些影响的吧, 像这种不同的词表, 你有做过相关的实验么?

STHSF avatar Sep 14 '20 12:09 STHSF

可以看看论文里的表2,有试过另一个词典资源ls,相比yj,在四个数据集上有上升也有下降。

LeeSureman avatar Sep 14 '20 12:09 LeeSureman

哦哦, 谢谢, 论文看的不是很仔细

STHSF avatar Sep 14 '20 12:09 STHSF

请问在复现代码的时候出现的这个问题是什么情况呢? Traceback (most recent call last): File "E:/代码/Flat-Lattice-Transformer/Flat-Lattice-Transformer-master/V0/flat_main.py", line 306, in only_train_min_freq=args.only_train_min_freq) File "D:\anaconda3\envs\tor1.2\lib\site-packages\fastNLP\core\utils.py", line 367, in wrapper with open(cache_filepath, 'wb') as f: OSError: [Errno 22] Invalid argument: 'cache\resume_lattice_only_train:False_trainClip:True_norm_num:0char_min_freq1bigram_min_freq1word_min_freq1only_train_min_freqTruenumber_norm0lexicon_yjload_dataset_seed100'

ZR5932 avatar Nov 21 '20 08:11 ZR5932

with open(cache_filepath, 'wb') as f:

这两行注释掉就好了

Lishumuzixin avatar Aug 05 '21 13:08 Lishumuzixin

要加进去的。目前为止包括lattice lstm,FLAT,LR-CNN等工作好像都没考虑过你说的“过滤词汇”这个问题

过滤词的问题,WC-LSTM中考虑了,通过某种策略在所有候选词中只选择一个。但是它的目的是为了并行化LSTM。

lvjiujin avatar Sep 29 '21 13:09 lvjiujin

要加进去的。目前为止包括lattice lstm,FLAT,LR-CNN等工作好像都没考虑过你说的“过滤词汇”这个问题

过滤词的问题,WC-LSTM中考虑了,通过某种策略在所有候选词中只选择一个。但是它的目的是为了并行化LSTM。

这种过滤指的是每一个字可能匹配多个词,但是通过某种策略,只筛选出一个。

lvjiujin avatar Sep 29 '21 13:09 lvjiujin

请问数据集和数据集的处理怎么获取呀,有哪位大佬有的话发我邮箱一下,十分感谢!!! 邮箱:[email protected]

ZhangYH321 avatar Nov 12 '21 09:11 ZhangYH321