'Actor Critic' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

GitHub Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Actor Critic (2)

Silinu's AI Study

[AI 오목] 3.5 강화 학습(Actor Critic) + 오목

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 1. 지난 글 요약 및 현황 지난 글 이후로 NaN 값이 나올 수 있는 것을 방지하면서 게임을 이길 수 있는 방법을 모색하는 실험을 진행했다. 우선 그 이후로 실험할 때 NaN 값은 안 나왔으며, 게임은 4할의 비율로 이기고 있다. 그러나 학습하는 데 있어 또 다른 문제점이 발생하였다. 바로 시간과 학습 안됨이었다. 1.1 시간 문제 현재 세워진 모델로 한번의 착수를 하는데 0.07초가 걸린다. 이때 한 번의 대국에서 착수 횟수가 대략 110 ~ 190회 이므로 대강 12초 정도의 시간이 걸린다는 점이다. 이전까지는 적어도 10000번의 학습을 하였기 때문에 이번 모델도 그렇게 진행하려..

Project/AI Gomoku 2023. 11. 28. 00:02

[AI 오목] 3.1 강화 학습(Actor Critic) + 오목

환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 AlphaGo를 참고했을 때, 네트워크 구성으로 Policy network와 Value network로 이루어진 것을 확인했다. 이 글에서는 AlphaGo와 학습하는 방식은 조금 다르지만, 위 두 네트워크를 가진 Actor Critic 기법을 사용하여 self learning 하기로 했다. 간단하게 용어 정리하면 다음과 같다. Policy network: agent가 어떤 상황에 놓여져 있을 때 어떠한 행동을 할 확률을 출력 값으로 내보낸다. 이때 하나의 상황에서 여러 행동을 선택할 수 있다면, 각각의 행동을 할 확률이 출력 값이 된다. Value network: agent가 어떤 상황..

Project/AI Gomoku 2023. 11. 17. 02:13

이전 Prev 1 Next 다음

목록Actor Critic (2)

Silinu's AI Study

티스토리툴바