youtu-graphrag icon indicating copy to clipboard operation
youtu-graphrag copied to clipboard

文档超了llm的最大tokens,如何有效处理。

Open dfelectric opened this issue 1 month ago • 3 comments

本地部署的32k的,有些文档400k,导致提示超过大模型的最大tokens。请问如何尽量减少上下文损失的处理方法?

dfelectric avatar Nov 01 '25 13:11 dfelectric

因为我看现在是没有做分块的

dfelectric avatar Nov 01 '25 13:11 dfelectric

+1,chunk_text方法直接str(text)了

def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]

个人感觉baseconfig里设定的chunksize和overlap没有用到,需要在else这里做分块处理

Patrick6663 avatar Nov 05 '25 03:11 Patrick6663

+1,chunk_text方法直接str(text)了

def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]

个人感觉baseconfig里设定的chunksize和overlap没有用到,需要在else这里做分块处理

所以可以问下,他们做hotpotQA这些dataset是直接不进行chunk的是吗?我在看hotpotQA这个dataset,我看context里是有paragraph的,所以是直接拿来paragraphs用是吗》

bluetex315 avatar Nov 13 '25 11:11 bluetex315