Agent training 방식에 shared와 seperated가 있다. Seperated가 agent마다 train을 하는것 같다. Train 함수에서 어떻게 동작이 이루어지는지, replay buffer에 shared_obs를 사용하는지 확인해볼것 + data generation 방식에 대해