oppo-text-match issues

segment_ids 是否需要区分text1，text2？

1

bert 模型有3输入： input_ids: cls text1_id sep text2_id sep token_types_ids:[0]*(len(text1_ids)+2)+[1]*(len(text2_ids)+1) attention_mask:[1]*len(input_ids) 看到源码里的sample_convert 函数里对于segment_ids 的定义没有区分句子1和句子2，请问区分一下是不是更好一些？

husheng-liu

想请教下predict问什么要取 5:7

1

y_pred = model.predict(x_true)[:, 0, 5:7] 这里输出，[:,0]是第一个字cls的向量，想问下5和6列是什么含义，能取其他吗，谢谢

Jackwanguestc

为什么要跑一百个epoch？

6

你好，请问一下跑十几个epoch时候loss已经不去下降了，那跑100个epoch和10个地区别你有对比过吗？

BlackHorseQ

请问下词频信息是从哪里获取的呢？

1. 词频应该是用预训练语料数据统计得到的吧，这份数据应该特别庞大？作者是从哪里获取的呢？ 2. 不同bert版本用的语料不同，词频信息应该差别很大吧？个人理解，想请作者确认下

wa008

model fit是预训练还是预训练+ft？

2

你好，看到代码里build_transformer_model 设置了with_mlm, 理解这里是需要做预训练。后面代码里只有一个fit，这里模型训练的时候是会同时进行finetune吗？

stellaHSR

关于weights转ckpt模型

2

你好，我在用build_transformer_model初始化后，再load_weights，使用了save_weights_as_checkpoint方法想要进行权重转换，但是会报错Model object has no attribute save_weights_as_checkpoint，请问怎么才能实现转成ckpt权重文件呢

guowhite

内存占满被kill，怎么办？

1

苏神好，您的baseline我运行起来就占用了31G内存，跑大概3个或5个epoch就占满内存了，进程就被杀死了，问一下有什么方法优化一下，让占用的内存变小么？

xqrshine

oppo-text-match
oppo-text-match copied to clipboard

Metadata

segment_ids 是否需要区分text1，text2？

想请教下predict问什么要取 5:7

为什么要跑一百个epoch？

请问下词频信息是从哪里获取的呢？

model fit是预训练还是预训练+ft？

关于weights转ckpt模型

内存占满被kill，怎么办？

← Metadata

Owner

Metadata

oppo-text-match oppo-text-match copied to clipboard

Metadata

segment_ids 是否需要区分text1，text2？

想请教下predict问什么要取 5:7

为什么要跑一百个epoch？

请问下词频信息是从哪里获取的呢？

model fit是预训练还是预训练+ft？

关于weights转ckpt模型

内存占满被kill，怎么办？

← Metadata

Owner

Metadata

oppo-text-match
oppo-text-match copied to clipboard