取自 OpenAI 的 tiktoken 存储库,我添加了一个 visualize_tokens() 函数来可视化 BPE 代币,我制作了visualize_tokens来处理 tokenizer.encode() 函数的输出,因为当前支持的嵌入基于 BERT,并且不使用与 GPT-4 相同的标记化。