Jane

Results 10 comments of Jane

> 好啊 > > 我在model card那邊有寫一個簡單示例,每一個模型結果都稍稍不一樣,模型越大,預測結果也越好 > > 由於 albert_chinese_base 模型沒有用 sentencepiece > 用AlbertTokenizer會載不進詞表,因此需要改用BertTokenizer !!! > 我們可以跑MaskedLM預測來驗證這個做法是否正確 > > ## Justify (驗證有效性) > 如果模型是正確的話,直接用來預測mask的字應該會有合理的結果。 > > [colab trial](https://colab.research.google.com/drive/1Wjz48Uws6-VuSHv_-DcWLilv77-AaYgj) > >...

四角号码,汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。(从左到右)第五位是“附号”,用于更加细化的划分。 我在代码里有注释,可以看一下这个链接:https://zhidao.baidu.com/question/1667714057688997667.html 。希望能帮助到你 > _No description provided._

@CK-IMUT-501 笔误,写错了,肯定是各自用各自的wq,wk,wv,谢谢提醒

@jexterliangsufe 您指的哪部分数据?如果是应用的话,直接使用您自己的数据,我也是用于自己的项目中的,所以只提供了一个测试样例,在test下面。如果是指其他的数据文件(四角编码、笔画数等)已经在代码里有了

@jexterliangsufe 在网上找的哈哈~源地址不记得了,应该也能搜到很多版本

haha ... can you help to finish it?

> > > 模型更新了 > > > > > > > 按照chatglm-6b的方式ptuning微调 报错了 ChatGLMModel' object has no attribute 'prefix_encoder' > > > > > > > > > > >...

> preprocess_function_train 改preprocess_function_train就行 ` """ 为了适配ChatGLM1 context_length = input_ids.index(tokenizer.bos_token_id) mask_position = context_length - 1 labels = [-100] * context_length + input_ids[mask_position+1:] """ 为了适配ChatGLM2,讲上面的代码改为下面的: context_length = len(input_ids) - len(b_ids) mask_position =...

> > > preprocess_function_train > > > > > > 改preprocess_function_train就行 ` """ 为了适配ChatGLM1 context_length = input_ids.index(tokenizer.bos_token_id) mask_position = context_length - 1 labels = [-100] * context_length + input_ids[mask_position+1:] """...