Using Vatex dataset to train my own chinese data

I want to use the Vatex dataset to train my own chinese data. I count the len of chinese word according by the unicode format. I also use json parser to check each line of format, but it appear is correct. it's successed to complete one epoch, but I got an error at second epochs.

self.image_keys[img_idx]:  datasets/VATE2/raw_videos/val_all/A19_2.mp4
    train(args, train_dataloader, val_dataloader, vl_transformer, tokenizer, training_saver, optimizer, scheduler)
  File "src/tasks/run_caption_VidSwinBert.py", line 146, in train
    for iteration, (img_keys, batch, meta_data) in enumerate(train_dataloader):
  File "/opt/conda/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 517, in __next__
    data = self._next_data()
  File "/opt/conda/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 1179, in _next_data
    return self._process_data(data)
  File "/opt/conda/lib/python3.8/site-packages/torch/utils/data/dataloader.py", line 1225, in _process_data
    data.reraise()
  File "/opt/conda/lib/python3.8/site-packages/torch/_utils.py", line 429, in reraise
    raise self.exc_type(msg)
TypeError: __init__() missing 2 required positional arguments: 'doc' and 'pos'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Using Vatex dataset to train my own chinese data #43

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Using Vatex dataset to train my own chinese data #43

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions