ilcpm

Results 34 comments of


                                            ilcpm

转换为TIFF图片提示内存不足

> 好奇地问一下，为什么你要转成tiff? 从图像存储的角度而言，png以及完全够用了，毕竟你这个文件不需要什么真彩。如果是打算做电子存档，GB/T 18894-2016已经允许使用PNG格式了。 > > 8.3.3 以文本、位图文件形成的文书、科技、专业类电子文件应按以下要求归档： a）电子公文正本、定稿、公文处理单应以版式文件格式，其他电子文件、电子文件组件可以版式文件、RTF、WPS、DOCX、JPG、TIF、PNG等通用格式归档；这个文档里面的图形是SVG，但是文本层做了字体混淆复制出来全是乱码也没办法搜索，所以需要转换成普通图像然后进行OCR，对于这种纯黑白的页面，使用TIFF无损压缩存储纯黑白图像（每个像素只有0和1）是通常做法。这个文档我最后处理成900DPI的纯黑白TIFF，进行OCR并添加目录之后体积只有3.23M，审计PDF空间图像只有1.97M，甚至体积还缩小了不少。我对具体的图像格式里的压缩算法什么的没有深入了解过，我也不清楚png如果存储纯黑白图像在参数正确的情况下是不是能达到同样的效果。我知道的是这样做是一种“最佳实践”，如果我没记错的话，不管什么位深度的png或者jpg喂给ABBYY做OCR之后，输出的时候都会被重编码，导致图像被有损压缩损失而失真，尤其如果参数设错图片被存成了jpg格式，后果我就不说了，感兴趣的话可以自己去试试看…… 至于为什么要转换成图像再来OCR而不是直接对SVG的PDF进行OCR，时间久了我记不清了，我猜应该是ABBYY不支持SVG，识别之后只能变成几十M的低质量有损压缩图像（那破软件不能详细调整输出PDF的图像参数，很难伺候）。总之大方向上就是：如果喂给ABBYY做OCR，这种黑白的只有在TIFF的黑白模式下ABBYY才不会改动图像，保证输出文件的体积；否则的话要么损失质量变成jpg，体积几十M水平，要么保证质量变成png，体积几百M水平。如果我还是没记错的话，好像在某种参数下ABBYY会把图像处理成jp2格式，体积小质量也没有jpg那么差，但是jp2的解码太慢了，在很多PDF阅读器里面滚动速度极慢（虽然我这个900DPI的文档滚动起来也很慢……但那是为了视觉观感，如果是600DPI的话滚动就很流畅）。另外附上我处理完成的PDF供参考（有点邀功的意思了……）。 [[GBT 1.1-2020][标准化工作导则第1部分：标准化文件的结构和起草规则][OCR].pdf](https://github.com/wmjordan/PDFPatcher/files/13794197/GBT.1.1-2020.1.OCR.pdf)

docx writer: fully support for \mathop{}

in another word, `\mathop{\hat{xyz}}_{abc}` should works as `\hat{xyz}_{abc}` in inline mode, and works as `\underset{abc}{\hat{xyz}}` in display mode inline mode: $$\hat{xyz}_{abc}$$ display mode: $$\underset{abc}{\hat{xyz}}$$

docx writer: fully support for \mathop{}

now I am using `\operatorname*{\hat{xyz}}_{abc}` to get the correct result, so this problem is solved ![image](https://user-images.githubusercontent.com/36830343/175885956-1c189632-4862-4f86-a612-18278f5b96cd.png)

quicker界面偶尔会变得透明

不老不老，这就是正式版win10的最新版，win10没出23Hx的版本 ![image](https://github.com/cuiliang/Quicker/assets/36830343/57ed29e4-3964-4703-bc9b-b6ec221eadfa)

选择文件编码时，新增“UTF-8(BOM)”选项

另外GB2312应该不能用来代表中文的默认编码，根据我之前了解到的信息，2312所在的年代简体字标准都还没完全确定下来，比如“瞭望塔”的“瞭”字里面是没有收录的，那个时候写的是“了望”，下图是仿宋GB2312的所有“liao”的读音下的文字 ![image](https://github.com/cuiliang/Quicker/assets/36830343/37a12270-9f7f-4794-adc7-5bded2e550a2) 从维基百科看，微软的2312似乎是个GBK的子集？所以正常在Windows里“瞭”这个字还是能打出来 https://zh.wikipedia.org/zh-cn/GB_2312#%E4%B8%A4%E7%A7%8D%E4%B8%8D%E5%90%8C%E7%9A%84GB/T_2312%E5%AE%9E%E7%8E%B0 然后中文现在最全的编码应该是GB18030，至于Windows默认用的到底是GBK还是18030具体没去深究

quicker界面偶尔会变得透明

没有，我也毫无头绪😂群里还有人在quicker的安装界面出现这种问题的我感觉，只是感觉，可能和Chrome内核，webview相关的东西关系很大目前我用的是1.41.5，应该就是最近一两个月才出现的这个问题，触发的频率也不是很高，基本不影响使用或许可以定位一下出现问题的最早版本？

选择文件编码时，新增“UTF-8(BOM)”选项

![image](https://github.com/cuiliang/Quicker/assets/36830343/191245e3-266d-41d7-a053-93986984fcb7) 这是按照上面维基百科的提示，在Python里用2312编码“瞭”字的结果，确实2312是没有这个字，由此可以判断Windows下的2312是被微软用GBK扩增过的在chcp 936的环境下是可以打出“瞭”的 --- 补充，Windows下，在VSC中选择编码GB2312保存，得到的文件实际上是CP936，也就是ANSI 在记事本中保存默认编码也是ANSI对应CP936 二者都不是GB 2312，也就是说，Windows上似乎没有提供直接的方案来以严格的GB 2312存储文本？ **所以就算要代表默认的Windows平台中文编码，也应该使用CP936而不是GB 2312** 关于CP936，详见下文

quicker界面偶尔会变得透明

翻了半天总算翻出来了 ![image](https://github.com/cuiliang/Quicker/assets/36830343/4bff8763-d009-4050-8f1d-392525bea391) ![](https://github.com/cuiliang/Quicker/assets/36830343/8c7c33e9-1ba5-4eec-9546-932aa8b74b59)

选择文件编码时，新增“UTF-8(BOM)”选项

我查了一下，Windows的默认编码“CP936”既不是GB2312也不是GBK或者GB18030…… 只能说CP936≈GBK GBK中没有欧元符号“€”，Python里直接认为CP936=GBK，所以有了下面两个图（PowerShell 5、cmd、Python） ![image](https://github.com/cuiliang/Quicker/assets/36830343/f71bfa46-3862-4ab9-bc5f-f9118833cc36) ![image](https://github.com/cuiliang/Quicker/assets/36830343/b1ccb70f-bdc4-47f8-9ebd-0342773485e1) 至于18030，让GPT举个例子随便一试就报错 ![image](https://github.com/cuiliang/Quicker/assets/36830343/26f0081a-3328-4eb1-8ab8-ac90d4940c9e) ![image](https://github.com/cuiliang/Quicker/assets/36830343/e5ce6e70-d786-4e34-a8a8-9e92bb85b0fa)

选择文件编码时，新增“UTF-8(BOM)”选项

我的意思是说，装了PowerShell 7之后，虽然换成utf8就解决问题了但是把动作分享给别人，或者安装别人的动作的时候，如果里面有PowerShell脚本，那就还是可能出现乱码，因为你没办法预知对方电脑的PowerShell版本…… PowerShell 5，默认把ps1当做ANSI看待，PowerShell 7默认当做UTF8对待所以最好的方案就是对PowerShell脚本使用UTF8(BOM)编码，这样两个版本的PowerShell都不会有问题对应的我认为quicker的改进方案就是增加UTF8(BOM)做为文件编码