iotdb icon indicating copy to clipboard operation
iotdb copied to clipboard

[Bug] 为什么我的压缩比很低,而且越来越低,现在差不多2.5

Open hzltbs opened this issue 1 year ago • 15 comments

Search before asking

  • [X] I searched in the issues and found nothing similar.

Version

iotdb 1.2.0

Describe the bug and provide the minimal reproduce step

编码和压缩方式应该是没有问题,数据量大概目前大概在20亿 Uploading 微信截图_20240522102315.png… Uploading 微信截图_20240522102351.png…

What did you expect to see?

怎么降低压缩比呢

What did you see instead?

Anything else?

No response

Are you willing to submit a PR?

  • [ ] I'm willing to submit a PR!

hzltbs avatar May 22 '24 02:05 hzltbs

Hi, this is your first issue in IoTDB project. Thanks for your report. Welcome to join the community!

github-actions[bot] avatar May 22 '24 02:05 github-actions[bot]

微信截图_20240522102315 微信截图_20240522102351

hzltbs avatar May 22 '24 02:05 hzltbs

只有两个序列?

HTHou avatar May 22 '24 03:05 HTHou

不是,只是所有序列都是这两种类型。 应该有10万左右序列

hzltbs avatar May 24 '24 09:05 hzltbs

有10万左右的序列,所有序列的两个属性都是这两种类型

hzltbs avatar May 24 '24 09:05 hzltbs

截止到今天有40亿数据量了,压缩比现在只有2.5左右了,每天都在下降。 每天数据的增量在七千万左右

hzltbs avatar May 24 '24 09:05 hzltbs

只有两个序列?

有10万左右的序列,所有序列的两个属性都是这两种类型

hzltbs avatar May 27 '24 01:05 hzltbs

现在磁盘占用是多大? 顺便数一下文件个数? (之前的截图看不到,似乎上传失败了)

jixuan1989 avatar May 27 '24 02:05 jixuan1989

现在磁盘占用是多大? 顺便数一下文件个数? (之前的截图看不到,似乎上传失败了) image image image

hzltbs avatar May 28 '24 06:05 hzltbs

可以再提供一下 unsequence 目录下的文件数吗,另外部署的 iotdb 给 datanode 分配的内存大小是?

HTHou avatar May 28 '24 11:05 HTHou

可以再提供一下 unsequence 目录下的文件数吗,另外部署的 iotdb 给 datanode 分配的内存大小是?

image 内存设置应该是32g

hzltbs avatar May 30 '24 06:05 hzltbs

看了下sequence的文件数比上次少了 image 今天物理磁盘占用91g,总数据量到75亿了。压缩比还在下降 大概2.41了,降的比之前慢了。 image

hzltbs avatar May 30 '24 06:05 hzltbs

数据不敏感的话可以发一个 tsfile 文件,我们可以分析分析

HTHou avatar May 30 '24 10:05 HTHou

root.JH.zip

数据不敏感的话可以发一个 tsfile 文件,我们可以分析分析

hzltbs avatar May 31 '24 06:05 hzltbs

目前看起来建模方式有一些不合理

  1. 现在的建模里,假如 root.JH.JHGDS.DV_SYSOPSD81 作为一个device,一个 device下有 ts 和 v 两个measurements。建模可以优化为 root.JH.JHGDS 作为一个 device,DV_SYSOPSD81 作为其中的一个 measurement,ts 和 v 分别作为时间戳和值,不需要写成两个序列。序列 root.JH.JHGDS.DV_SYSOPSD81 可以作为一个 double 类型的序列。
  2. database 的个数有些过多了,推荐 1 个。

1 是导致压缩比不高的主要原因。按目前的建模,所有的时间戳都存储了3份。

HTHou avatar Jun 06 '24 10:06 HTHou

目前看起来建模方式有一些不合理

  1. 现在的建模里,假如 root.JH.JHGDS.DV_SYSOPSD81 作为一个device,一个 device下有 ts 和 v 两个measurements。建模可以优化为 root.JH.JHGDS 作为一个 device,DV_SYSOPSD81 作为其中的一个 measurement,ts 和 v 分别作为时间戳和值,不需要写成两个序列。序列 root.JH.JHGDS.DV_SYSOPSD81 可以作为一个 double 类型的序列。
  2. database 的个数有些过多了,推荐 1 个。

1 是导致压缩比不高的主要原因。按目前的建模,所有的时间戳都存储了3份。

您好,我们在调整结构之后,重新进行了数据存储。压缩比一度上升到5-6左右,之后压缩比持续下降。目前一直保持在1.7左右,数据量大概800亿。如何解决

hzltbs avatar Nov 11 '24 09:11 hzltbs