[AI 오목] 3.5 강화 학습(Actor Critic) + 오목

Notice

Recent Posts

Recent Comments

Link

GitHub Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Silinu's AI Study

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목 본문

Project/AI Gomoku

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목

Silinu 2023. 11. 28. 00:02

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경

1. 지난 글 요약 및 현황

지난 글 이후로 NaN 값이 나올 수 있는 것을 방지하면서 게임을 이길 수 있는 방법을 모색하는 실험을 진행했다.

우선 그 이후로 실험할 때 NaN 값은 안 나왔으며, 게임은 4할의 비율로 이기고 있다.

그러나 학습하는 데 있어 또 다른 문제점이 발생하였다. 바로 시간과 학습 안됨이었다.

1.1 시간 문제

현재 세워진 모델로 한번의 착수를 하는데 0.07초가 걸린다. 이때 한 번의 대국에서 착수 횟수가 대략 110 ~ 190회 이므로 대강 12초 정도의 시간이 걸린다는 점이다. 이전까지는 적어도 10000번의 학습을 하였기 때문에 이번 모델도 그렇게 진행하려 하였으나 대략 120,000초를 감당하기에는 컴퓨터가 문제가 발생하므로 더 적은 Episode 수에서 학습해야만 한다.

1.2 학습 안됨

학습 안된다고 생각한 이유는 다음과 같다. 학습이 진행되면 진행될 수록 점점 win의 수가 늘면서 주기가 짧아져야 한다고 생각한다. 그런데 100번을 확인했을 때도, 500번, 1000번을 확인했을 때도 착수 횟수도 전혀 줄어들지 않은 채로 40%의 확률로 이겼다. 이 의미는 대국 중 어쩌다가 우연한 기회로 오목이 된 것이라고 생각한다. 이를 해결하기 위해서는 학습해야 할 Episode 수를 늘려야 제대로 된 결과가 나올 것 같다고 생각한다.

여기서 시간 문제와 학습 안되는 문제가 서로 충돌함으로써 이도 저도 안되는 상황이 발생하였다. 따라서 Actor Critic 말고 새로운 방법을 모색해야 한다.

2. 실험할 내용

Policy Network와 Value Network를 그대로 사용하면서 수렴 속도가 높은 모델을 찾자.
- Asynchronous Advantage Actor Critic(A3C) 방식을 사용하여 학습해보자.
다른 오목 AI는 어떤 방식으로 하는지 찾아보자.
그 밖의 기타 사항을 생각해보자.
- 현재 선택해야 할 Action의 선택지가 너무 많아서 학습이 안되는 것은 아닌지?
- 일정 착수 횟수가 지나면 종료해버리는 선택지는?
- 현재 학습 성능이 수렴하지 않은 이유는?

저작자표시 비영리 (새창열림)

'Project > AI Gomoku' 카테고리의 다른 글

[AI 오목] 3.4 강화 학습(Actor Critic) + 오목 (4)	2023.11.24
[AI 오목] 3.3 강화 학습(Actor Critic) + 오목 (14)	2023.11.24
[AI 오목] 3.2 강화 학습(Actor Critic) + 오목 (0)	2023.11.22
[AI 오목] 3.1 강화 학습(Actor Critic) + 오목 (0)	2023.11.17
[AI 오목] 2.4 오목 프로그램 만들기 (1)	2023.11.14

'Project/AI Gomoku' Related Articles

Silinu's AI Study

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목 본문

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목

1. 지난 글 요약 및 현황

1.1 시간 문제

1.2 학습 안됨

2. 실험할 내용

'Project > AI Gomoku' 카테고리의 다른 글

티스토리툴바