Add Sticker/meme Feature
Hi, thanks for your wonderful project. Recently I am using this pipeline to do some scientific research. I'd like to contribute to this project by adding a new feature for stickers. This feature would allow users to train custom stickers within the application. I've already get some preliminary results regatding that and it show better result when stickers included. The general plan is to add an emoticon processing solution in weclone cli, and generate corresponding emoticon emotion labels and tokens for dialogue to participate in training. This can improve user engagement and adds a layer of fun to the application and allow users to express themselves more vividly.
I’d love to get feedback on this idea and any additional suggestions before I start working on it. Let me know if this aligns with the project’s goals.
Thanks!
当然可以,我们讨论一下细节:
- 是从聊天记录中提取表情包吗
- 提取的是聊天双方的表情包吗
- 仅仅是增加了更多的上下文信息吗,还是微调后大模型也可以回答表情包
前两个问题的回答为是。 我已经改了的版本中使用聊天记录双方的表情包转换为token直接输入模型微调,微调后大模型是可以回答表情包的,不止增加更多的上下文信息。但是问题是少量表情包效果不佳,应该是没有加上语义的缘故。 接下来计划是转换的token加上表情包语义,这样可以实现最佳效果。我会做改动的地方是make-dataset和推理。
-
语义这块怎么处理,用图生文模型吗
-
推理需要改动什么,将token转为表情包吗。因为现在推理基本上使用的llamafactory的功能,直接改的话改动可能比较大。推理不做改动,返回token后我们在机器人环节做toekn->表情包转换你觉得怎么样
理论上,微信有自带的表情包标签,使用标签肯定是最合适的。如果没办法通过csv里面的url反向追溯到标签,应该会考虑图生文或者再想想别的办法。
推理确实是一个问题,现在用的llamafactory的webdemo没法改,我觉得在openai的api回复的内容上做修改是合适的,机器人上改也是合适的。具体可以先迭代一下试试。
(emoji2847是困倦)
Telegram的表情包是自带标签的是用emjoy表示的,可以参考一下。 感谢您的工作,有进展我们及时沟通
https://mp.weixin.qq.com/s/SBmdDgjEqB1LN3j2kGiXKw
这好像是个表情包数据集