youtu-graphrag 文档超了llm的最大tokens，如何有效处理。

本地部署的32k的，有些文档400k，导致提示超过大模型的最大tokens。请问如何尽量减少上下文损失的处理方法？

Nov 01 '25 13:11 dfelectric

因为我看现在是没有做分块的

Nov 01 '25 13:11 dfelectric

+1，chunk_text方法直接str(text)了

def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]

个人感觉baseconfig里设定的chunksize和overlap没有用到，需要在else这里做分块处理

Nov 05 '25 03:11 Patrick6663

+1，chunk_text方法直接str(text)了

def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]

个人感觉baseconfig里设定的chunksize和overlap没有用到，需要在else这里做分块处理

所以可以问下，他们做hotpotQA这些dataset是直接不进行chunk的是吗？我在看hotpotQA这个dataset，我看context里是有paragraph的，所以是直接拿来paragraphs用是吗》

Nov 13 '25 11:11 bluetex315