Jianing Wang

Results 15 comments of Jianing Wang

I have tested this framework, I found that when training for more than 1.5M examples with 'padding' strategies, it should cost more than 6 hours to load data. It's cost...

> 应该是提交到 https://github.com/Oneflow-Inc/models 这个仓库 已经重新提交

您好,欢迎提出PR

## 您好,数据格式样例如下: ``` { 'entity': 'KTorrent', 'category': ['KDE Extragear', '使用Qt的软体'], 'url': 'https://zh.wikipedia.org/wiki/KTorrent', 'time': '1606017460.8569758', 'structure_know': {'开发者': 'JorisGuisson,IvanVasić', '稳定版本': '5.2.0(2020年6月6日,\u200b5个月前\u200b(2020-06-06))'}, 'corrseponding_know': [{'KDE': [{'软体集': ['KDE 1', 'KDE 2', 'KDE SC 4', 'KDE...

感谢您的提醒! np.load部分加上一个参数allow_pickle=True即可,其余错误会不断纠正

爬取无关的url是因为每个wiki的页面都会包含一些其他无关的链接,而筛选也是通过关键词筛选,可能关键词不够导致的。您可以尝试继续编辑增加filter_words.py。 dont_filter参数是scrapy自带的,其目标是筛选掉重复的URL,如果某个URL之前被爬取过,则下一次不再爬取,其并不起到过滤包含关键字的URL。所以请修改filter_words.py中的部分。

您好,请检查一下您的机器以及相应版本问题,单独在这个项目的目录中执行。

您好,感谢您的支持与关注。 此次材料中重点是将“机器学习、深度学习、NLP基础&进阶、大模型训练优化推理等”干货进行了汇总分解,深入学习复习该部分知识有助于面试期间八股文的回答。 您比较关心的面经部分属于附赠品,对于这部分内容目前主要包括: - 附赠1:大厂算法与面经 - - 常考算法题(大约越50系列,200多常考leetcode题,附带部分博主亲自解题和注释) - - 互联网大厂一览:目前的主要互联网大厂(以沪杭为主) - - 面试官常问算法题:罗列算法题面 - - HR面试:如何应对HR面试 **备注:对于面试常问的八股文系列,已经分解到前面十几章节的部分了,博主列出的都是常考必考必备知识点,包括机器学习、深度学习基础与进阶、NLP基础与进阶、预训练语言模型基础与进阶、大模型基础、进阶与应用等;** - 附赠2:工具踩坑系列 - - Docker:包括安装、配置、实例化等,附带PPT; - - Github:包括基本的操作,CI工具等,附带PPT; - - Linux:一些基本的操作和报错; 以上材料会不定时更新,如果订阅成功后,后期材料如若更新后会免费邮件发送。

这部分操作是在模型的forward中实现。详见这里:https://github.com/HugAILab/HugNLP/blob/main/models/language_modeling/causal_lm.py 的122行 ```python # Shift so that tokens < n predict n shift_logits = lm_logits[..., :-1, :].contiguous() shift_labels = labels[..., 1:].contiguous() # print("shift_labels=", shift_labels) # Flatten the tokens loss_fct =...

您好,这部分逻辑没有实现,如果需要的话,可以自行对数据分段后,label相应的调整start和end。对于超过512限制的PLM/LLM不受影响。