Color_OCR_image_generator 请问下，项目中生成数据时该如何做数据类别平衡？

请问下，项目中生成数据时该如何做数据类别平衡？

Jul 28 '20 03:07 cjt222

请问下，项目中生成数据时该如何做数据类别平衡？

我没有把做类别的具体可调参数写到参数解析里面，具体的参数写在每个功能模块中，如果你想修改类别比例，可以定位到该模块，去模块中修改一下参数就行。比如你想生成横排和竖排，你可以选择在这个地方选择修改你生成的比例。https://github.com/zcswdt/Color_OCR_image_generator/blob/e9c62c1a8f887fe4342c6c2c3ce5ab2f8b545f00/OCR_image_generator.py#L722 如果你想生成带有高斯模糊的图片，你可以到https://github.com/zcswdt/Color_OCR_image_generator/blob/e9c62c1a8f887fe4342c6c2c3ce5ab2f8b545f00/OCR_image_generator.py#L569中修改参数。

Jul 28 '20 04:07 zcswdt

我指的是字的类别比例，比如一共5990类，语料中每个字的出现的频率是不一样的，直接随机生成应该会生成更多的高频率的字吧

Jul 31 '20 03:07 cjt222

我指的是字的类别比例，比如一共5990类，语料中每个字的出现的频率是不一样的，直接随机生成应该会生成更多的高频率的字吧

你说的这个按照频率的生成方法，不会涉及到语料的选取，是直接从这个字典5990中按照字符在特定场景下出现的频率随机选择拼凑到图片上，与此同时这样也就失去了语义信息。
我这个是选择语料来生成图片，因为语料是文章，小说或者是新闻，它本身已经包含了频率信息，常见的字符出现的频率肯定是最高的。然后在随机截取文字长度，生成到图片上，这样也很好的保留了语义信息。

Jul 31 '20 04:07 zcswdt