List view
- **Question:** 행동 복제($Behavioral$ $Cloning$) 초기화가 표본 효율성($Sample$ $Efficiency$)에 미치는 정량적 영향 - **Description:** 복잡한 탐색 공간을 가진 $SDG$ 환경에서 $IL$ 기반 가중치 초기화가 순수 강화학습($Vanilla$ $RL$) 대비 수렴 속도 및 정책 안정성($Policy$ $Stability$)을 얼마나 향상시키는가? - **Hypothesis:** 마피아 게임처럼 탐색 공간이 넓고 보상이 희소한 환경에서, 무작위 초기화($Random$ $Init$)된 강화학습은 수렴에 막대한 시간이 걸리거나 국소 최적점($Local$ $Optima$)에 빠지기 쉽다. 반면 $IL$ 초기화는 학습 초기에 유의미한 탐색 방향을 제시하여 수렴 속도를 비약적으로 높일 것이다. - **Method:** - **비교 실험**: - **Group A**: $Vanilla$ $PPO$ (무작위 가중치 초기화). - **Group B**: $IL$-$initialized$ $PPO$ (LLM 데이터로 초기화). - **환경 통제**: 동일한 신경망 구조와 하이퍼파라미터(학습률, 배치 크기 등)를 유지합니다. - **Research metrics:** - **수렴 단계($Steps$ $to$ $Convergence$)**: 목표 승률(예: $RBA$ 상대 $70\%$)에 도달하기까지 필요한 총 학습 스텝 수. - **학습 곡선의 AUC($Area$ $Under$ $the$ $Curve$)**: 학습 전체 과정에서의 누적 성능 합계를 비교. - 정책 안정성: 학습 과정에서 보상 곡선의 표준 편차를 측정하여 급격한 성능 하락($Policy$ $Collapse$) 발생 여부 확인.
No due date- **Question:** 언어 모델($LLM$) 지식을 활용한 모방 학습($IL$)의 성능 상한($Upper$ $Bound$) 극복 - **Description:** 사회적 지식($Social$ $Commonsense$)을 보유한 $LLM$ 에이전트의 데이터를 모방 학습($IL$)의 초기치로 사용할 때, 사후 강화학습($Post$-$RL$)이 전문가($LLM$)의 성능 한계를 얼마나 초과 달성($Outperform$)할 수 있는가? - **Hypothesis:** $LLM$은 마피아 게임의 규칙과 사회적 추론에 대한 강력한 사전 지식을 제공하지만, 특정 게임 환경의 수치적 최적화에는 한계가 있다. 사후 강화학습($Post-RL$)은 $LLM$의 행동 패턴을 기점으로 삼아 환경에 특화된 최적 정책을 찾아냄으로써 $LLM$ 전문가의 승률을 상회할 것이다. - **Method:** - **Step:** 1. **Expert Data 생성**: $LLM$ 에이전트들끼리 게임을 수행하게 하여 고품질의 트래젝토리($Trajectory$) 데이터를 수집합니다. 2. **IL 초기화**: 수집된 데이터로 $PPO$ 모델을 행동 복제($Behavioral$ $Cloning$) 방식으로 사전 학습합니다. 3. **RL 미세 조정**: 초기화된 모델을 바탕으로 환경($MafiaEnv$)에서 추가 학습을 진행합니다. - **Control group:** $LLM$ 에이전트(원본), $IL$만 수행한 에이전트, $IL+RL$을 수행한 에이전트. - **Research metrics:** - **상대적 승률($Relative$ $Win$ $Rate$)**: $IL+RL$ 모델이 원본 $LLM$ 에이전트와 대결했을 때의 승률. - **정책 편차($Policy$ $Deviation$)**: $IL$ 단계의 정책과 $RL$ 후 정책 사이의 $KL$ $Divergence$를 측정하여 얼마나 새로운 전략을 찾았는지 분석. - **자원 효율성:** 동일 승률 도달을 위해 $LLM$ API 호출 대비 $RL$ 연산 자원의 효용성 비교.
No due date- **Question:** 비대칭 정보 환경에서의 보상 설계($Reward$ $Shaping$)와 기만 전략의 상관관계 - **Description:** 마피아 게임과 같은 비대칭 정보 환경에서 중간 보상($Dense$ $Reward$)의 비중이 에이전트의 기만적 행동($Deceptive$ $Behavior$) 발현과 정책 수렴에 어떠한 영향을 미치는가? - **Hypothesis:** 중간 보상($Dense$ $Reward$)의 비중이 높을수록 에이전트는 단기적인 수치 최적화에 매몰되어 보상 해킹($Reward$ $Hacking$)에 빠지기 쉬우며, 반대로 최종 승리 보상($Sparse$ $Reward$)의 비중이 높을수록 보다 고도화된 장기 기만 전략이 발현될 것이다. - **Method:** - **독립 변수($\lambda$)**: 보상 함수를 $R = \lambda R_{intermediate} + (1-\lambda) R_{win}$으로 정의하고, $\lambda$ 값을 $0.1, 0.3, 0.5, 0.7, 0.9$ 등으로 변화시키며 학습을 진행 - **대조군**: 중간 보상 없이 승패 보상만 있는 모델($\lambda = 0$). - **실험군**: 다양한 $\lambda$ 값을 가진 모델들. - **Research metrics:** 1. **기만 성공률($Deception$ $Success$ $Rate$)**: 마피아가 경찰을 사칭($Claim$ $Police$)했을 때 실제 시민이 처형되는 비율. 2. **전략적 안정성**: 에피소드 진행에 따른 마피아의 승률 변동 폭($Variance$). 3. 평균 게임 일수($Avg.$ $Game$ $Days$): 기만 전략이 고도화될수록 게임이 길어지는 경향을 측정.
No due date•5/7 issues closed