zzk@2020

Results 38 comments of zzk@2020

我改成了流式,暂时还没大问题

> @zzk2021 你修改的流式是用Vad对会话进行检测后直接输入识别,还是按照字节流循环输入模型的呢? 没用vad,就是经常会出现奇怪的表情符号

> > 我改成了流式,暂时还没大问题 > > 可以参考以下你的代码吗 离职了,没做这个了

> I have tested gemma2 and llama3 with success. The only thing that does not work locally is the embeddings. There need to be a fix to accept the style...

> can you also try it using http://localhost:8000 `/docs` and try to parse the pdf/doc/ppt using the endpoints over there > > let me know if the error persists ![image](https://github.com/adithya-s-k/omniparse/assets/73774678/1cee07ac-9cdb-415b-95a7-45d2990f73f9)...

这个似乎是字体的问题,我猜[text_renderer]读取的是字体设置的长宽来计算文字区域,我自己写的程序也是这样做的。我还以为[text_renderer]解决了这个问题呢。。。

同样也有这样的问题,但是想不出好办法

这是ocr的问题,ocr里压根就没这个1/2的词,可以交给公式识别MFD,如果公式识别检测不出是公式,那就没办法了,也可以标注数据微调,不过我没试过,比较麻烦。

BN要计算滑动平均和滑动方差,读论文就知道了