tokenizers icon indicating copy to clipboard operation
tokenizers copied to clipboard

Progress bar doesn't show in log file.

Open amssljc opened this issue 1 year ago • 5 comments

If not redirect it to my log file, it's all OK.

root@5b325f584bab:/data/project/# python -u ./src/tokenizing.py --vocab_size 20000
Processing:   2%|███▏                                                                                                                                                          | 458702/22828272 [00:31<25:29, 14628.06examples/s]
Training BPE:   0%|                                                                                                                                                                                       | 0/459 [00:00<?, ?it/s]
Training BPE: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 459/459 [00:38<00:00, 11.97it/s]
[00:00:41] Pre-processing sequences       ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 22828272 / 22828272
[00:03:46] Tokenize words                 ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:00:16] Count pairs                    ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:11:52] Compute merges                 ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 2        /    20000

But if i want to run script at backend, and print it to log file, some progress bar disappear!

nohup python -u ./src/tokenizing.py --vocab_size 20000 > ./log/log.tokenizing &

The output is as following:


Processing:   0%|          | 0/22828272 [00:00<?, ?examples/s][A

Processing:   0%|          | 1/22828272 [00:00<4290:40:29,  1.48examples/s][A

Processing:   0%|          | 3000/22828272 [00:00<1:13:41, 5162.61examples/s][A

Processing:   0%|          | 7551/22828272 [00:00<28:58, 13124.60examples/s] [A
Processing:   0%|          | 9999/22828272 [00:00<36:39, 10376.33examples/s]0:00<00:06,  1.36it/s]
Training BPE:  50%|█████     | 5/10 [00:00<00:00,  7.65it/s]
Training BPE:  90%|█████████ | 9/10 [00:00<00:00, 13.73it/s]
Training BPE: 100%|██████████| 10/10 [00:00<00:00, 10.34it/s]

The real thing i want to do is to estimate the run time of BPE algorithm on my dataset (~100G). If i cant see the progress bar, i don't know when to wait for.

amssljc avatar Jun 20 '24 14:06 amssljc

Hey! Do you mean that the number are updated but not the bar ? 😓

ArthurZucker avatar Jun 21 '24 08:06 ArthurZucker

@ArthurZucker Sorry for causing misunderstanding, i mean these lines disapper:

[00:00:41] Pre-processing sequences       ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 22828272 / 22828272
[00:03:46] Tokenize words                 ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:00:16] Count pairs                    ████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ 458702   /   458702
[00:11:52] Compute merges                 ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 2        /    20000

maybe i think the reason is that the computing part is coding by Rust?

amssljc avatar Jun 21 '24 13:06 amssljc

This issue is stale because it has been open 30 days with no activity. Remove stale label or comment or this will be closed in 5 days.

github-actions[bot] avatar Jul 22 '24 01:07 github-actions[bot]

I think they are just overwritten + bad symbols !

ArthurZucker avatar Jul 26 '24 10:07 ArthurZucker

This issue is stale because it has been open 30 days with no activity. Remove stale label or comment or this will be closed in 5 days.

github-actions[bot] avatar Aug 26 '24 01:08 github-actions[bot]