Chi Han

Results 8 comments of Chi Han

Thank you I will give it a try ^_^

大家好,我是这个领域的新手。我来提供一下我得到的结果。我最近跑了一下里面的代码,并以我的理解排除了一些 bug。 我发现 slot coherence 随训练 epoch 先增后减,最优在 130 epoch 左右(而不是代码里默认的80)。最好的结果大约在 0.141(相比较于论文中的 0.18)。 ![image](https://user-images.githubusercontent.com/29673775/118473616-c242a380-b73c-11eb-86f6-96a48738c2a6.png) 我把这些放在我的 fork 里:https://github.com/Glaciohound/ACL2019-ODEE 。如果有问题欢迎指出……

Emmm... I am using java 8, and the original scripts on CoreNLP 3.9.1 run just fine on my machine. Wondering why >_

Hi chenlidar. Thanks for your interest! The codes you are looking at seem to come from an [older version of our code](https://github.com/Glaciohound/LM-Infinite/blob/2769ecff4652b4ae2ce44b445ea2641d9ba2f13a/models/llama.py). Note in this session, `kv_seq_len` is only associated...

你好!😄 很高兴你对我们的工作感兴趣。在 https://github.com/Glaciohound/LM-Infinite/issues/7 中我们更新了代码以适配最新的transformer,目前我测试在 4.39.2 下可以跑通。你看下更新transformer版本是否可以解决问题?或者说你是不是已经debug成功了?如果还有进一步的问题,请通知我。

Hello Saberlve, Thanks for your interest and the question! The LM-Steer defines a dimension with no natural meanings tied to "positive" or "negative" directions. So the discrepancy falls to whether...

你好! 应该是可以的,可惜我不熟悉VLLM的attention实现,所以还没有引入这部分。[email protected] `也问过我这个问题。如果你感兴趣实现这部分的话,可以看下 `models/lambda_attention.py` 和 `models/llama.py`,以及vllm的attention接口, 我很有兴趣帮忙分析下LM-Infinite代码如何适配。

理论上应该是可以的,LM-Infinite 只和模型架构有关,和具体参数无关。peft微调过的模型,只要是有合理的LM功能,LM-Infinite应该就可以在上面实现长度延展的效果。有人和我们说,在speech Transformer上,LM-Infinite也可以工作,这应该也印证了它的通用性。如果有后续的问题请告诉我!