文档超了llm的最大tokens,如何有效处理。
本地部署的32k的,有些文档400k,导致提示超过大模型的最大tokens。请问如何尽量减少上下文损失的处理方法?
因为我看现在是没有做分块的
+1,chunk_text方法直接str(text)了
def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]
个人感觉baseconfig里设定的chunksize和overlap没有用到,需要在else这里做分块处理
+1,chunk_text方法直接str(text)了
def chunk_text(self, text) -> Tuple[List[str], Dict[str, str]]: if self.dataset_name in self.datasets_no_chunk: chunks = [f"{text.get('title', '')} {text.get('text', '')}".strip() if isinstance(text, dict) else str(text)] else: chunks = [str(text)]个人感觉baseconfig里设定的chunksize和overlap没有用到,需要在else这里做分块处理
所以可以问下,他们做hotpotQA这些dataset是直接不进行chunk的是吗?我在看hotpotQA这个dataset,我看context里是有paragraph的,所以是直接拿来paragraphs用是吗》