TzeSing issues

Results 3 issues of


                                            TzeSing

关于工业级生产tfrecord的疑问，希望作者帮我解惑

一般做法是用spark生成tfrecord再拉到本地GPU跑，但是如果CTR数据集如果小的话（2000W条以下，50个特征以下），能读进内存里，发现用tf.data.TFRecordDataset反而很慢。本人用pandas读进内存再用tf.keras.utils.sequence构造数据生成器，大概只需要20ms/step 但用tf.data.TFRecordDataset就上升到了2s/step 总共21个step每个epoch 不知道作者是否有些建议给我，指点迷津。例如生成tfrecord的内部格式是如何的，我现在是一个record有n个特征（key）等等的建议，谢谢作者

如果我不只是想提取人名机构地名，还要提取其他的话，能不能自己添加

如果我不只是想提取人名机构地名，还要提取其他的话，能不能自己添加其他，例如我想提取合同的甲乙方，能单独训练吗？在哪里改呢？谢谢啊

TzeSing

关于工业级生产tfrecord的疑问，希望作者帮我解惑

如果我不只是想提取人名机构地名，还要提取其他的话，能不能自己添加

语料库是英文的，能否给出中文的knn bayes svm的分析