Baketbek Jantoro

Results 18 issues of Baketbek Jantoro

请问通过运行preprocess.py 发现 tokenizer 用的是bert 这个是对的嘛?

大佬请教一下,1. 按照你的思路,相当于更新所有层参数对吗? 2. 中文词表没有扩充,这部分有影响吗?有的话 大概什么影响?

states, hidden = self.encoder(embeddings.permute([1, 0, 2]))#[75,64,50],[seq_len, batch, embed_dim] encoding = torch.cat([states[0], states[-1]], dim=1)#张量拼接[32,512] 对这一段没看懂 能方便加您vx,仔细请教吗 愿意付费

![image](https://user-images.githubusercontent.com/63491920/231094253-767a8008-e789-40ef-b775-684fe2c8b677.png)

用自己的中文数据的话,preprocess中需要把数据格式调整成什么形式即可?这部分相关说明有吗?目标是想做llama的增量预训练