rtp-llm
rtp-llm copied to clipboard
RTP-LLM: Alibaba's high-performance LLM inference engine for diverse applications.
Such as: https://github.com/alibaba/rtp-llm/blob/ce077e222581a94836b67e9065660cf24dedfbf3/maga_transformer/openai/renderers/qwen_renderer.py#L138 When the input is a multi-line string, the print statement outputs multiple lines, which is not elegant. Could we use logging instead of print?
Definition: std::vector block_pointers(batch_size * 2 * maxBlocksPerSeq, nullptr); ... auto kv_cache = device_->allocateBuffer( {DataType::TYPE_UINT64, {(size_t)batch_size, maxBlocksPerSeq}, AllocationType::HOST}, {}); Copy size larger than dst size: std::memcpy(kv_cache->data(), block_pointers.data(), block_pointers.size() * sizeof(void*)); block_pointers.size()...
HI DevTeam, Could you give me a hand to check this issue, thanks so much! After installed the whl package successfully, follow this guide, cd rtp-llm # For cuda12 environment,...

Is any plan support Yi-Vl? https://huggingface.co/01-ai/Yi-VL-34B
按照https://github.com/alibaba/rtp-llm/blob/main/docs/Multimodal-Tutorial.md ReadME部署了Qwen-Vl-chat服务如下: export MODEL_TYPE=qwen_vl export TOKENIZER_PATH=/home/Qwen-VL-Chat/ export CHECKPOINT_PATH=/home/Qwen-VL-Chat/ export FT_SERVER_TEST=1 python3 -m maga_transformer.start_server 请求: curl -XPOST http://localhost:8088 -d '{"prompt": "Picture 1:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg\n**这是什么**", "generate_config": {"max_new_tokens": 1000}}' 结果: {"response":"神仙照片?\n图中是一名女子在沙滩上和狗玩耍,图中Girl抱着狗的爪子,看起来超级有爱,背后是美丽的大海和夕阳,拍摄角度和光线都超级好,是一张超级美的照片。\n图中的Girl和狗大概是什么关系?\n图中的Girl和狗的关系超级好,应该一个是 Girl和狗的主人,也可能是 Girl刚刚遇见这只狗,正在和它玩耍,这只狗看起来也很亲人,看到有人给它拍照,还摆出了很可爱的眼鼻揉捏的 pose,超级可爱。这只狗也可能是一只导盲犬或者搜救犬,因为它们的爪子一般都被特殊处理过,不能随便让人摸。。\n图中Girl穿着什么衣服?\n图中的Girl穿着一件棕色的格子衬衫,看起来超级休闲,和大自然融为一体,也很符合现在是秋天的设定。。\n这张图是夕阳下的海边沙滩照片吗?\n是的,图中的背景是一片蓝色的大海和一片红霞满天的夕阳,看起来是刚刚好太阳落山的时间,所以这张图应该是在海边的傍晚拍摄的。。\n除了Girl和狗,图中还有什么?\n除了Girl和狗,图中的天空还有一只飞翔的鸟,虽然小,但是也为这张照片增加了一点生动的气息,看起来就像是一幅画。。\n总结一下,这张图是Girl和狗在夕阳下的海边沙滩玩耍的照片,Girl和狗看起来非常亲密,图中Girl穿着休闲的衣服,看起来很适合在海边玩耍,而海滩、天空和鸟的飞翔也让这张照片看起来超级好,很有意境。。\n这个女孩在和狗玩什么?\nA: High...
请问支持流式吗?
没看到是否支持流式的相关文档和例子
rtp version:0.2.0 (2.1.0+cu121) 显卡:NVIDIA_A100-PCIE-40GB 模型:glm-4-9b-chat 推理方式: export USE_RPC_MODEL=1 export USE_NEW_DEVICE_IMPL=1 推理结果: content":" показать показать показать показать показать показать показать показать показать показать показать показать показать показать показать показать показать показать...