์ธ๊ฐ์ ํผ๋๋ฐฑ์ ๋ฐ์ํ๋ ๊ฐํํ์ต(Reinforcement Learning from Human Feedback, RLHF)์ ์ ์ฉํ์ฌ ์ต์ ์ ํ๋กฌํฌํธ๋ฅผ ํ์ํ๊ณ ์ ํ์ต๋๋ค.
์ ์ ์ DB๋ฅผ ์ด์ฉํ์ฌ ์ ์ ์๊ฒ ์ต์ ํ๋ ํ๋กฌํฌํธ๋ฅผ ์์ฑํ์ฌ ์ค์๊ฐ ๋ง์ถคํ ์ผ๊ธฐ ์๋น์ค๋ฅผ ์ ๊ณตํ๊ณ ์ ์๋ํ์ต๋๋ค.
- ๋ฌธ์ ์ํฉ
- ๋ ๋์ ์ผ๊ธฐ ์๋น์ค๋ฅผ ์ค์๊ฐ์ผ๋ก ์ ๊ณตํ๊ธฐ ์ํด GPT API์ ์ฑ๋ฅ์ ํ์ธต ๋ ์ด๋์ด๋ผ ๋ฐฉ์์ด ํ์ํ์ต๋๋ค.
- ๋ฌธ์ ์ ์
- GPT API๋ฅผ ํ์ฉํ ๊ฒฝ์ฐ, ๋ชจ๋ธ ์์ฒด๋ฅผ ์๋ฒ์์ ์ค์๊ฐ์ผ๋ก ํ์ตํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
- ์ด์ ๋ฐ๋ผ, ๋ชจ๋ธ ํ์ต์ด ์๋ **'ํ๋กฌํฌํธ(Prompt)๋ฅผ ๊ฐ์ '**ํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฌธ์ ๋ฅผ ์ฌ์ ์ํ์ต๋๋ค.
- ํ๋ณด ํ๋กฌํฌํธ A, B, C, D๋ฅผ ์ค์ ํ๊ณ , ์ด ์ค ๊ฐ์ฅ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ๋กฌํฌํธ๋ฅผ ์ฐพ๋ ๋ฌธ์ ๊ตฌ์กฐ๋ก ์ค๊ณํ์ต๋๋ค.
- ์ ๊ทผ ๋ฐฉ์
- ์ด ๋ฌธ์ ๋ฅผ ๊ฐํํ์ต(Reinforcement Learning)์ **๋ค์ค ์ ํ ๋ฌธ์ (Multi-Armed Bandit, MAB)**๋ก ์ ์ํ์ฌ ์ ๊ทผํ์ต๋๋ค. ๊ฐ ํ๋กฌํฌํธ(A, B, C, D)๋ฅผ ์ฌ๋กฏ๋จธ์ ์ 'Arm'์ผ๋ก ๊ฐ์ฃผํ๊ณ , ์ธ๊ฐ์ ํผ๋๋ฐฑ์ '๋ณด์(Reward)'์ผ๋ก ์ฌ์ฉํ์ฌ ์ต์ ์ ํ๋กฌํฌํธ(Arm)๋ฅผ ์ฐพ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ต๋๋ค.
- ์คํ ์ค๊ณ
- ์ผ๊ธฐ ์์ฑ์ ํ์ง์ ๋ค๋ฅด๊ฒ ์ ๋ํ๋ 4๊ฐ์ ํ๋ณด ํ๋กฌํฌํธ(A, B, C, D)๋ฅผ ์ ์ํ์ต๋๋ค.
- ํ์ ๊ณผ์
- MAB ์๊ณ ๋ฆฌ์ฆ(์: Epsilon-greedy, UCB ๋ฑ)์ ๊ธฐ๋ฐ์ผ๋ก ํ๋กฌํฌํธ๋ฅผ ์ ํํ์ฌ ์ฌ์ฉ์์๊ฒ ์ผ๊ธฐ ๊ฒฐ๊ณผ๋ฌผ์ ์ ์ํฉ๋๋ค.
- ์ฌ์ฉ์์ ํผ๋๋ฐฑ(์: "์ข์์", "๋ค์ ์์ฑ")์ ๋ณด์ ์ ํธ๋ก ๋ณํํ์ฌ ๊ฐ ํ๋กฌํฌํธ์ ๊ฐ์น๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค.
- ์ด ๊ณผ์ ์ ๋ฐ๋ณตํ์ฌ ๋์ ๋ณด์์ ์ต๋ํํ๋, ์ฆ ๊ฐ์ฅ ๋์ ์ฌ์ฉ์ ๊ฒฝํ์ ์ ๊ณตํ๋ ํ๋กฌํฌํธ๋ฅผ ํ์ํฉ๋๋ค.
-
์คํ ์ค๊ณ:
- ์ด์ ์ ์ฐ๋ฆฌ๊ฐ ์ต์ ์ด๋ผ๊ณ ์๊ฐํ๊ณ ์์ฑํ ํ๋กฌํฌํธ๋ฅผ "A"๋ก ์ง์ ํฉ๋๋ค.
- ํ๋กฌํฌํธ A๋ฅผ ์ด์ฉํ์ฌ GPT API๊ฐ ์ผ๊ธฐ(text)๋ฅผ ์์ฑํฉ๋๋ค.
- GPT API๊ฐ ์์ฑํ text๋ค์ ๋ํด -1(๋งค์ฐ ๋์จ), -0.5(๋์จ), 0(๋ณดํต), +0.5(์ฝ๊ฐ ์ข์), +1(๋งค์ฐ ์ข์)์ผ๋ก ์ฌ๋์ด ์ง์ ํ๊ฐ(rate)๋ฅผ ์งํํฉ๋๋ค. (์ฌ๋์ ํผ๋๋ฐฑ ๋ฐ์)
- ์ฌ๋์ ํผ๋๋ฐฑ์ด ๋ฐ์๋ (text, rate) ์์ผ๋ก ๊ตฌ์ฑ๋ ๋ฐ์ดํฐ๋ค์ ์ด์ฉํ์ฌ, text๊ฐ ์ ๋ ฅ๋์์ ๋ -1~+1 ๊ฐ์ผ๋ก ์ผ๊ธฐ๋ฅผ ํ๊ฐํ์ฌ reward๋ฅผ ๋ถ์ฌํ๋ **๋ณด์ ๋ชจ๋ธ(Reward Model)**์ ํ์ต์ํต๋๋ค.
- 1~+1์ ํด๋นํ๋ text๋ค์ ์ฐธ๊ณ ํ์ฌ GPT๊ฐ ๊ธฐ์กด์ ํ๋กฌํฌํธ A๋ฅผ ๊ฐ์ ์ํจ ์๋ก์ด ํ๋กฌํฌํธ B, C, D๋ฅผ ์์ฑํฉ๋๋ค.
- ํ๋กฌํฌํธ A, B, C, D์ ํ์ต๋ ๋ณด์ ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๋ค์ค ์ ํ ๋ฌธ์ (MAB)๋ฅผ ์ํํฉ๋๋ค.
- ์ต์ ์ ํ๋กฌํฌํธ๋ฅผ ์ฑํํฉ๋๋ค.
-
๋ฌธ์ ์ํคํ ์ฒ ์๊ฐํ:
-
๋ฐ์ดํฐ ์์ฑ:
- ๋ณด์ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ์ด 500๊ฐ์ ์ผ๊ธฐ ๋ด์ฉ์ GPT API๋ก ์์ฑํฉ๋๋ค.
- ์์ฑ ๋ฐฉ๋ฒ: 100์ฅ์ ์ด๋ฏธ์ง์ ๋๋คํ ์ฅ์, ์ธ๋ฌผ, ๊ธฐ๋ถ์ ์ํ๋งํ์ฌ ์กฐํฉํ ๋ฌธ๋งฅ์ ์์ฑํ์ฌ GPT API์ ์ ๋ ฅ ๊ฐ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
-
๋ฐ์ดํฐ ํ๊ฐ (Human Feedback):
-
์์ฑ๋ 500๊ฐ์ ์ผ๊ธฐ ๋ฐ์ดํฐ์ ๋ํด ์ฌ๋์ด ์ง์ ํ๊ฐ๋ฅผ ๋ฐ์ํฉ๋๋ค.
-
ํ๊ฐ ๊ธฐ์ค:
+1 : ํํ์ด ํ๋ถํ๊ณ , ๋ฌธ์ฅ์ด ์์ฐ์ค๋ฝ๊ณ ์ด์ํ์ง ์์ผ๋ฉฐ, ๊ธธ์ด๊ฐ ํ๋ถํ ์ผ๊ธฐ. 0.5 : ํํ์ด ๋ถ์กฑํ์ง ์๊ณ , ๋ฌธ์ฅ์ด ์ด์ํ์ง ์์ผ๋ฉฐ, ์ ๋นํ ๊ธธ์ด์ ์ผ๊ธฐ. 0 : ๋ฌธ๋ฒ์ ๋ฌธ์ ์๊ณ , ๋ฌด๋ํ์ง๋ง ํน๋ณํ ํ๋ถํ์ง๋ ์์ ์ผ๊ธฐ. -0.5 : ๋ฌธ๋งฅ์ด ์ด์ํ๊ฑฐ๋ ๋ฌธ๋ฒ์ ์ฝ๊ฐ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ, ๊ธธ์ด๊ฐ ์งง์ ์ผ๊ธฐ. -1 : ์ผ๊ธฐ ํ์์์ ๋ฒ์ด๋๊ฑฐ๋ ์์ ํ ๋ถ๋ถ์ด ๋ง์ ์ผ๊ธฐ. ๋๋ฌด ์งง์ ์ผ๊ธฐ.
-
์ ๊ธฐ์ค์ ๋ฐ๋ผ 500๊ฐ ์ผ๊ธฐ์ ๋ํ ํ๊ฐ๋ฅผ ์งํํฉ๋๋ค.
-
-
๋ฐ์ดํฐ ๋ถ๋ฆฌ:
- 500๊ฐ์ (์ผ๊ธฐ, ํ๊ฐ) ๋ฐ์ดํฐ๋ฅผ ๋๋คํ๊ฒ ์์ ํ, Train data 450๊ฐ์ Test data 50๊ฐ๋ก ๋ถ๋ฆฌํฉ๋๋ค.
-
๋ฐ์ดํฐ ๋ถ์:
- Train data์ ๋ถํฌ๋ฅผ ์๊ฐํํฉ๋๋ค.
- ๋ถ์ ๊ฒฐ๊ณผ:
- ์ฌ์ ์ ์ต์ ์ด๋ผ๊ณ ํ๋จ๋ ํ๋กฌํฌํธ(A)๋ฅผ ์ฌ์ฉํ์ฌ ์ผ๊ธฐ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์, ๋๋ถ๋ถ์ ๋ฐ์ดํฐ๊ฐ 0์ ์ด์์ ๋ฐ์์ต๋๋ค.
- ๊ฐํน ๋ฐ์ํ๋ ๋ฌธ๋ฒ ์ค๋ฅ๋ ํ๋ฅ ์ ์ผ๋ก ์์ฑ๋ ์๋ฑํ ์ผ๊ธฐ์ ๋ํด -0.5, -1์ ์ด ๋ถ์ฌ๋์ด ์์ ํ๊ฐ(rate)์ ๋น์จ์ด ๋งค์ฐ ์ ์ต๋๋ค.
- ๊ฒฐ๋ก ์ ์ผ๋ก, **๋ฐ์ดํฐ๊ฐ ๊ธ์ ์ ์ธ ํ๊ฐ์ ํธํฅ(biased)**๋์ด ์์ต๋๋ค.
- ํด๊ฒฐ ๋ฐฉ์ (Oversampling):
- ๋ชจ๋ธ ํ์ต ์ ๋ฐ์ดํฐ ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ์ํํ๊ธฐ ์ํด Oversampling ๊ธฐ๋ฒ์ ๋์ ํ์ต๋๋ค.
- ๋ฐ์ดํฐ ์๊ฐ ์ ์ rate์ ๋ฐ์ดํฐ๋ค์ **๋จ์ ๋ณต์ (duplication)**ํ๋ ๊ธฐ๋ฒ์ ์ ์ฉํ์ต๋๋ค.
- (์ด์ : ๋ถ์กฑํ rate์ ๋ํด ๋ฐ์ดํฐ ๋ณ์ด(augmentation)๋ฅผ ์ผ์ผ์ผ ์ฆ์ํ๋ ๊ธฐ๋ฒ์ ์๋ณธ์ ๋ฌธ๋งฅ์ด ํ๊ดด๋ ๊ฐ๋ฅ์ฑ์ด ์๋ค๊ณ ํ๋จํ์ฌ ๋จ์ ๋ณต์ ๋ฐฉ์์ ์ ํํ์ต๋๋ค.)
๋ณด์ ๋ชจ๋ธ์ GPT API๊ฐ ์์ฑํ ์ผ๊ธฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ -1~+1 ์ฌ์ด์ ์ ์๋ฅผ ์ถ๋ ฅํ๋ ํ๊ท(Regression) ๋ฌธ์ ๋ก ์ค์ ๋์์ต๋๋ค.
- ์๋ฒ ๋ฉ: ์ผ๊ธฐ๋ ํ๊ตญ์ด๋ฅผ ์ง์ํ๋ ์๋ฒ ๋ฉ ๋ชจ๋ธ(
distiluse-base-multilingual-cased-v2)์ ์ด์ฉํ์ฌ ์๋ฒ ๋ฉํ์ต๋๋ค. ์ด ์๋ฒ ๋ฉ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์freeze์์ผฐ์ต๋๋ค. - ๋ชจ๋ธ ์ ์ : ํ์ต ๋ฐ์ดํฐ๊ฐ 450๊ฐ๋ก ์ ๊ธฐ ๋๋ฌธ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง ๋ชปํ์ต๋๋ค. ๋์ ๋ค์ํ ๋จธ์ ๋ฌ๋(ML) ๋ชจ๋ธ์ ์ ์ฉํ์ฌ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค.
- ํ์ต: ๋ฐ์ดํฐ ํธํฅ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด 2-2์์ ์ธ๊ธํ ์ค๋ฒ์ํ๋ง(Oversampling)๋ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ฌ์ฉํ์ต๋๋ค.
- ๋ค์ํ ML ๋ชจ๋ธ์ ๋น๊ตํ ๊ฒฐ๊ณผ, RandomForestRegressor๊ฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
- RandomForestRegressor๋ Valid dataset์ ๋ํด MSE=0.2288, MAE=0.4002์ ์ค์ฐจ๋ฅผ ๊ธฐ๋กํ์ต๋๋ค.
- (๊ตฌ์กฐ: ์ผ๊ธฐ ํ ์คํธ โ ์๋ฒ ๋ฉ โ Layer โ RandomForestRegressor)
- Valid dataset ์์ธก ์๊ฐํ:
- Test dataset ์ฑ๋ฅ:
- Test dataset์ ๋ํด MSE=0.2711, MAE=0.4126์ ๊ธฐ๋กํ์ต๋๋ค.
- Test dataset ์์ธก ์๊ฐํ:
- ML ๋ชจ๋ธ์ ํ๊ณ:
- Test MSE 0.2711, MAE 0.4126์ -1~+1 ์ฌ์ด์ ์ ์๋ฅผ ์์ธกํ๋ ๋ฌธ์ ์์ ์ฑ๋ฅ์ด ๋งค์ฐ ์ ์กฐํจ์ ์๋ฏธํฉ๋๋ค.
- ๋ชจ๋ธ์ด ์๋ฒ ๋ฉ๋ ๋ฌธ์ฅ์ ์ ๋ ฅ๋ฐ์์ ๋, ์ค์ ํ๊ฐ ๊ธฐ์ค(ํํ์ ํ๋ถํจ, ๋ฌธ๋งฅ ๋ฑ)์ ๋ฐ์ํด ์ ์๋ฅผ ๋งค๊ธฐ๋์ง ํด์ํ๊ฑฐ๋ ์ ๋ขฐํ๊ธฐ ์ด๋ ค์ ์ต๋๋ค.
- ์ด๋ ๋จ์ํ ์ ๋ ฅ๊ฐ์ ๋ฐ๋ผ ์ ํด์ง ์ถ๋ ฅ๊ฐ์ ๋ฑ์ด๋ด๋ ์์ค์ **"์ค๊ตญ์ด ๋ฐฉ ๋ฌธ์ (Chinese Room Problem)"**์ ๊ฐ์ ํ๊ณ๋ฅผ ๋ณด์์ต๋๋ค.
- ๊ฒฐ์ : ์ ๊ฒฝ๋ง ๋ฐ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ ๋ณด์ ๋ชจ๋ธ ๊ตฌ์ถ์ ํฌ๊ธฐํ๊ณ , GPT API ์์ฒด๋ฅผ ๋ณด์ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ์ต๋๋ค.
-
์คํ ์ค๊ณ:
- GPT API๋ฅผ ๋ณด์ ๋ชจ๋ธ๋ก ์ฌ์ฉํ์ฌ ์ผ๊ธฐ ํ๊ฐ๋ฅผ ์ํํ์ต๋๋ค.
- Prompting: ํ๊ฐ ๊ธฐ์ค์ ํ๋กฌํํธ์ ๋ช ์ํ๊ณ , Few-shot ๋ฐฉ์์ผ๋ก ๊ฐ ๊ธฐ์ค(Rate)์ ๋ถํฉํ๋ ์ผ๊ธฐ ์์๋ฅผ ํจ๊ป ์ ๊ณตํ์ต๋๋ค.
- ์ถ๋ ฅ ์ค์ : ์ถ๋ ฅ๊ฐ์
1, -0.5, 0, +0.5, +1์ **์ด์ฐ ๊ฐ(Discrete values)**์ผ๋ก ์ค์ ํ์ต๋๋ค. (์ด๊ธฐ์ ์ฐ์์ ์ธ ์ค์ ๊ฐ์ ์ถ๋ ฅํ๋๋ก ์๋ํ์ผ๋, ์คํ๋ ค ์ฑ๋ฅ์ด ์ ํ๋์ด ์ด์ฐ ๊ฐ ๋ฐฉ์์ผ๋ก ํ๊ท ๋ฌธ์ ๋ฅผ ์ค์ ํ์ต๋๋ค.)
-
์ฑ๋ฅ:
- ์ด ๋ฐฉ์์ผ๋ก ํ๊ฐํ GPT API์ Test dataset์ ๋ํ ์ค์ฐจ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- MSE=0.2650, MAE=0.3500์ ๊ธฐ๋กํ์ต๋๋ค.
- Test dataset ์์ธก ์๊ฐํ:
-
๊ฒฐ๋ก :
- ML ๋ชจ๋ธ(RandomForest)๋ณด๋ค MSE๊ฐ ์ํญ ๊ฐ์ํ์ง๋ง, ์ฌ์ ํ ์ฑ๋ฅ์ด ์ถฉ๋ถํ ํ๋ณด๋์ง๋ ์์์ต๋๋ค. (์ด ๋ถ๋ถ์ "ํ๊ณ ๋ถ์" ์น์ ์์ ์์ธํ ๋ค๋ฃน๋๋ค.)
- ์ฐ์ , ์ต์ข ์ ์ผ๋ก ์ผ๊ธฐ๋ฅผ ํ๊ฐํ๋ GPT API๋ฅผ ๋ณด์ ๋ชจ๋ธ๋ก ์ฑํํ์์ต๋๋ค.
-
Arms (ํ๋กฌํํธ):
- ํ๋กฌํํธ A: ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋ฒ ์ด์ค๋ผ์ธ ํ๋กฌํํธ
- ํ๋กฌํํธ B, C, D: ๊ธฐ์กด ์ผ๊ธฐ์ ํ๊ฐ ์ ์(Reward)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, GPT๊ฐ '๋ ๋์ ์ผ๊ธฐ'๋ฅผ ์์ฑํ๋๋ก ๊ฐ์ ํ์ฌ ์์ฑํ ์ ๊ท ํ๋กฌํํธ๋ค
-
์๊ณ ๋ฆฌ์ฆ:
- 4๊ฐ์ ํ๋กฌํํธ(A, B, C, D) ์ค ์ด๋ค ๊ฒ์ด ๋ณด์ ๋ชจ๋ธ(GPT API)๋ก๋ถํฐ ํ๊ท ์ ์ผ๋ก ๊ฐ์ฅ ๋์ ์ ์(Reward)๋ฅผ ๋ฐ๋์ง ํ์ธํ๊ธฐ ์ํด **MAB(๋ค์ค ์ ํ ๋ฌธ์ )**๋ฅผ ์ํํ์ต๋๋ค.
- ํ์(Exploration)๊ณผ ํ์ฉ(Exploitation)์ ๊ท ํ์ ๋ง์ถ๊ธฐ ์ํด UCB(Upper Confidence Bound) ์๊ณ ๋ฆฌ์ฆ์ ์ ์ฉํ์ต๋๋ค.
-
์คํ ๋ฐ ๊ฒฐ๊ณผ:
Iteration = 200์ผ๋ก ์ค์ ํ MAB๋ฅผ ์ํํ ์ต์ข ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ์ต๋๋ค.
- ๊ฐ ํ๋กฌํํธ์ Reward ๋ถํฌ ์๊ฐํ:
- ๋ณด์ ๋ชจ๋ธ ์ฑ๋ฅ ๋น๊ต:
- RandomForest ๊ธฐ๋ฐ ๋ณด์ ๋ชจ๋ธ (Test): MSE=0.2711, MAE=0.4126
- GPT API ๊ธฐ๋ฐ ๋ณด์ ๋ชจ๋ธ (Test): MSE=0.2650, MAE=0.3500
- ์ต์ ํ๋กฌํํธ:
- MAB ์ํ ๊ฒฐ๊ณผ(Iteration 200), ํ๋กฌํํธ C๊ฐ ํ๊ท ๋ณด์ 0.81์ ํ๋ํ์ฌ ์ต์ ์ ํ๋กฌํฌํธ๋ก ๊ฒฐ์ ๋์์ต๋๋ค.
- ๊ฒฐ๊ณผ ํด์:
- ์์น์์ผ๋ก๋ ํ๋กฌํํธ C๊ฐ ๊ฐ์ฅ ์ฐ์ํ์ผ๋, ๋ณด์ ๋ชจ๋ธ ์์ฒด์ ์ฑ๋ฅ(MSE 0.2650)์ ํ๊ณ๊ฐ ๋ช ํํ์ต๋๋ค. ๋ฐ๋ผ์ ์ด ํ๋กฌํํธ๊ฐ ์ ๋ง๋ก ์ต์ ์ ํ๋กฌํฌํธ์ธ์ง์ ๋ํด์๋ ์ ๋ขฐํ๊ธฐ ์ด๋ ต์ต๋๋ค.
- ๋ชจ๋ธ์ ํ๊ณ (๋ณด์ ๋ชจ๋ธ)
- ๋ณด์ ๋ชจ๋ธ์ ์ธ๊ฐ์ ํผ๋๋ฐฑ(๋ฌธ๋งฅ, ๋ฌธ๋ฒ, ํํ์ ํ๋ถํจ)์ ๋ฐ์ํด ํ๊ฐ๋ฅผ ๋ด๋ ค์ผ ํ์ง๋ง, ์ค์ ๋ก๋ ๋ณต์กํ ๋งฅ๋ฝ์ ์ถฉ๋ถํ ๊ณ ๋ คํ์ง ๋ชปํ๊ณ ๋จ์ํ ์ ๋ ฅ(Input)์ ๋ํด ์ซ์ ๊ฐ(Output)์ ๋ฑ๋ ์์ค์ ๊ทธ์ณค์ต๋๋ค.
- ์ธ๊ฐ์ ํ๊ฐ๋ ๊ธฐ๊ณ์ฒ๋ผ ์ผ๊ด๋์ง ์์ต๋๋ค. ํ๊ฐ ๊ธฐ์ค์ด ์กด์ฌํ๋๋ผ๋, ๋๋ก๋ ์ง๊ด์ด๋ ๊ฐ๊ฐ์ ๋ฐ๋ผ ํ๊ฐ๊ฐ ๋ฌ๋ผ์ง ์ ์์ต๋๋ค. ๋ณด์ ๋ชจ๋ธ์ ์ด๋ฌํ **์ธ๊ฐ์ ๋ณ์น์ฑ(inconsistency)**๊น์ง๋ ํ์ตํ์ง ๋ชปํ์ต๋๋ค.
- ๊ฒฐ๋ก ์ ์ผ๋ก, ์ผ๊ธฐ ํ๊ฐ์ ๋ฐ์๋์ด์ผ ํ ๋ณต์กํ ๋งฅ๋ฝ, ๋ฏธ๋ฌํ ๋ฌธ๋ฒ ์ค๋ฅ, ๊ทธ๋ฆฌ๊ณ ์ธ๊ฐ์ ์ง๊ด์ ํ์ตํ๊ธฐ์ ํ ๋ฐฉ์์ ๋๋ฌด ๋จ์ํ์ต๋๋ค.
- ๋ฐ์ดํฐ ์์ง ๋ฐ ๋น์ฉ ํ๊ณ
- ๋ฐ์ดํฐ ์์ฑ ๋น์ฉ: ๋ณด์ ๋ชจ๋ธ ํ์ต์ ์ํ ์ด๊ธฐ ์ผ๊ธฐ 500๊ฐ ์์ฑ์ GPT API ์ฌ์ฉ์ผ๋ก ์ธํด 1~2๋ฌ๋ฌ์ ๋น์ฉ์ด ๋ฐ์ํ์ต๋๋ค.
- ์ธ๊ฐ ํผ๋๋ฐฑ ๋น์ฉ (Labor cost): 500๊ฐ์ ์ผ๊ธฐ ํ๋ํ๋์ ์๋์ผ๋ก rate๋ฅผ ๋ถ์ฌํ๋ ๊ณผ์ ์ ๋ง์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ๋๋ ์์ ์ด์์ต๋๋ค.
- MAB ์ํ ๋น์ฉ: MAB ๊ณผ์ ์์ ๊ฐ ํ๋กฌํฌํธ๋ฅผ ํ๊ฐํ๋ ๋ณด์ ๋ชจ๋ธ๋ก GPT API๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์, Iteration์ด ์ฆ๊ฐํ ์๋ก API ํธ์ถ ๋น์ฉ์ด ์ง์์ ์ผ๋ก ๋ฐ์ํ์ต๋๋ค.
- ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ฉด ๋ณด์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์๊ฒ ์ง๋ง, ์์ ๊ฐ์ ์๊ฐ์ , ๊ธ์ ์ ๋ฌธ์ ๋ก ์ธํด ๋ฐ์ดํฐ ํ์ฅ์ ํ๊ณ๊ฐ ์์์ต๋๋ค.
๋ฐ์ดํฐ ์์ง ๋ฐ ํผ๋๋ฐฑ ๊ณผ์ ์ ์๋ํํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ์ ์ ๊ณ ๋ คํ๊ณ ์์ต๋๋ค.
- ๋ฐ์ดํฐ ์์ง ์๋ํ:
- GPT API๊ฐ ์์ฑํ ์ด๊ธฐ ์ผ๊ธฐ(Draft)์ ์ ์ ๊ฐ ์ต์ข ์ ์ผ๋ก ์์ ํ ๋ค ์ ์ฅํ ์ผ๊ธฐ(Final) ๊ฐ์ ์ ์ฌ๋๋ฅผ ๋ถ์ํฉ๋๋ค.
- ์๋ ํผ๋๋ฐฑ(Rate) ๋ถ์ฌ:
- ์ด ์ ์ฌ๋ ์ ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋์ ์ผ๋ก rate๋ฅผ ๋ถ์ฌํ๋ ๋ก์ง์ ๊ฐ๋ฐํฉ๋๋ค. (์: ์ ์ฌ๋ 90% ์ด์ = +1, ์ ์ฌ๋ 50% ๋ฏธ๋ง = -0.5)
- ์ด (text, auto-rate) ์์ ์ง์์ ์ผ๋ก DB์ ์ ์ฅํ์ฌ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํฉ๋๋ค.
- ์ฌ์๋:
- ์์ ๊ฐ์ ์๋ํ ํ์ดํ๋ผ์ธ์ ํตํด ์ ์ฒ ๊ฐ ์ด์์ ๋ฐ์ดํฐ๊ฐ ํ๋ณด๋๋ค๋ฉด, ๋ ๋ณต์กํ๊ณ ์ ๊ตํ ๋ณด์ ๋ชจ๋ธ(์: API๊ฐ ์๋ LLM ๋ชจ๋ธ)์ ํ์ต์์ผ ์ด ํ๋ก์ ํธ๋ฅผ ๋ค์ ์๋ํด๋ณผ ์ ์์ต๋๋ค.