auto-friend icon indicating copy to clipboard operation
auto-friend copied to clipboard

从数据科学角度来改进这个已经非常完美的程序

Open Wiger123 opened this issue 2 years ago • 4 comments

看完了整个思路并试着跑了一下,首先是很钦佩作者的思路和执行力的,这里提几个可以优化的点,我也正在试着去优化。

数据获取

  1. Twitter 真实粉丝数据: 一些成熟的工具已经给出了真实粉丝的占比, 这个可以快速筛选过滤一些人为制作的账号;
  2. 关注者列表权重: 一般来说一个账户的粉丝中, 如果出现了 10k - 1M 粉丝量的大 KOL, 又或者存在特定领域的名人, 可以爬虫获取并增加权重;
  3. 交互数据: 常见的数据包含平均推文的互动数, 发推文的频率;
  4. 跨链金额/链上资产: 这个非常有趣, 我试着跑了一下, 将所有单次跨到 base 链上资产超过 1eth, 且 base 总资产 >= 5eth 的用户过滤后, 收益会有极显著的提升, 可以理解为这些人一般都会去购买自己的 share;
  5. mempool 数据: MEV 模式的套利模型需要从交易池中稳定获取数据

处理方式

  1. 统计学: 直接手动设置参数, 很有效, 至少我目前就是这么做的;
  2. light gbm 模型: 对于 twitter 号质量的基础分类器在 GitHub 上有很多, 账号的权重很容易求得;
  3. white list: 其实我看到代码里已经有一部分这方面的内容, 不过还有一种思路是, 将关联用户也添加到 white list 中, 比如 A 和 B 都属于高权重用户, 二者在 twitter 上互关, 那么 white list 更新就可以将更多人一次性加入, 类似于聚类

暂时就想到这些, 还是要感谢一下作者!

Wiger123 avatar Sep 16 '23 16:09 Wiger123

你的思路非常棒,目前有一些受限的因素,如果你能提供一些帮助那就太好了

  1. 关于粉丝质量占比的工具,能否推荐一下
  2. 在没有购买推特 API 的情况下,推特对于某个账户的关注者列表访问是有限制的
  3. 交互数据可以作为一个参考项,今天加入了推文数量的配置,也可以加入近期推文互动量的权重,但是这个会比较影响速度,并且需要用到推特账号的 Guest Token
  4. 跨链金额这个确实是一个非常好的思路,我会在明天抽空增加相关配置
  5. 这一块我目前的了解还很粗浅,有没有比较好的资料可以分享一下

感谢你提供的非常棒的思路~

zmzimpl avatar Sep 16 '23 17:09 zmzimpl

非常棒的作者

  1. 粉丝占比: 类似 twitteraudit 这种平台
  2. Twitter 目前的接口限频, 需要借助第三方
  3. 跨链金额这一部分我用 web3.js / web3.py 实现了, 根据 address 可以立刻导出参数, 需要的话我可以把我的代码下午 merge 进来

早上看到你在推上说有 mev 狙击并且未显示在 friend 里, 其实我空余时间正在看这一块, 挺有意思的 也许下一阶段的内卷就是从 mempool 里抢跑并隐藏记录

Wiger123 avatar Sep 17 '23 04:09 Wiger123

非常棒的作者

  1. 粉丝占比: 类似 twitteraudit 这种平台
  2. Twitter 目前的接口限频, 需要借助第三方
  3. 跨链金额这一部分我用 web3.js / web3.py 实现了, 根据 address 可以立刻导出参数, 需要的话我可以把我的代码下午 merge 进来

早上看到你在推上说有 mev 狙击并且未显示在 friend 里, 其实我空余时间正在看这一块, 挺有意思的 也许下一阶段的内卷就是从 mempool 里抢跑并隐藏记录

twitteraudit 等第三方平台都是收费的,并且对于推特索要的权限很高,暂时不考虑 你说的跨链金额是指账户第一笔转入的金额对吧,我正在升级策略,你如果有比较好的实现可以提一个 merge, 我在新分支抄一下😊

zmzimpl avatar Sep 17 '23 06:09 zmzimpl

https://github.com/daog1/twint 这个可以替代收费的 twitter audit

Wiger123 avatar Sep 17 '23 07:09 Wiger123