'강화학습' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

GitHub Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록강화학습 (3)

Silinu's AI Study

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 1. 지난 글 요약 및 현황 지난 글 이후로 NaN 값이 나올 수 있는 것을 방지하면서 게임을 이길 수 있는 방법을 모색하는 실험을 진행했다. 우선 그 이후로 실험할 때 NaN 값은 안 나왔으며, 게임은 4할의 비율로 이기고 있다. 그러나 학습하는 데 있어 또 다른 문제점이 발생하였다. 바로 시간과 학습 안됨이었다. 1.1 시간 문제 현재 세워진 모델로 한번의 착수를 하는데 0.07초가 걸린다. 이때 한 번의 대국에서 착수 횟수가 대략 110 ~ 190회 이므로 대강 12초 정도의 시간이 걸린다는 점이다. 이전까지는 적어도 10000번의 학습을 하였기 때문에 이번 모델도 그렇게 진행하려..

Project/AI Gomoku 2023. 11. 28. 00:02

[AI 오목] 3.4 강화 학습(Actor Critic) + 오목

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 1. 지난 요약 지난 글에서 다뤘던 최대 문제점은 Agent가 이미 돌이 착수 된 곳에 두어 실험이 끝나는 경우가 99.96%였다. 따라서 다음과 같은 실험을 진행했다. Agent가 이미 돌이 착수된 곳의 Action 확률을 최소화 하여 그 자리를 뽑지 않게 한다. 하지만 위 실험에도 위와 비슷한 확률로 Agent가 이미 돌이 착수 된 곳에 두어 가설을 세웠다. Policy Network에서 예측한 Action 확률의 모든 값이 min 값일 것이다. 현재 진행하는 방식이 잘못되었을 것이다. 2. 가설 확인 Policy Network에서 예측한 Action 확률의 모든 값이 min 값일 ..

Project/AI Gomoku 2023. 11. 24. 11:23

[AI 오목] 3.3 강화 학습(Actor Critic) + 오목

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 현재 진행 중인 학습의 생각 정리를 해보자. 1. 시도 방식 목적: 각 오목 상황에 맞게 착수 둘 곳을 self-learning 방식으로 학습하자. 사용 모델: Actor Critic 방식 모델 사용 이유: AlphaGo와 비슷한 방식으로 Policy Network와 Value Network를 학습해보자. 차이점: 몬테카를로 트리 탐색을 사용하지 않음. 오목과 바둑의 룰이 다르므로 불필요하게 생각되는 space는 제거함. reward가 다름. 2. 문제점 및 시도 1. Epoch 10000번을 실행했을 때, 이미 돌이 착수 된 곳에 둬서 episode가 끝나는 경우가 9996번 정도이다..

Project/AI Gomoku 2023. 11. 24. 01:25

이전 Prev 1 Next 다음

목록강화학습 (3)

Silinu's AI Study

티스토리툴바