일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- yolov8
- cuDNN WARNING
- Image Cosine Similarity
- Jupyter Notebook
- 오목 AI
- nlp
- Actor Critic
- YOLO
- object detection
- CV
- tf.keras.layers.lambda
- 프로그래머스데브코스
- yolov8 커스텀 학습
- 강화 학습 적용
- yolo webcam
- pygame
- yolov8 load weights
- 코딩부트캠프
- cv2
- 바둑판 만들기
- PYTHON
- 강화학습
- Lambda Activation
- TensorFlow lambda
- 오목
- reinforcement learning
- will not use cuDNN kernels
- AI 오목
- SentenceBERT
- 국비지원교육
- Today
- Total
목록Actor Critic (2)
Silinu's AI Study
환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 1. 지난 글 요약 및 현황 지난 글 이후로 NaN 값이 나올 수 있는 것을 방지하면서 게임을 이길 수 있는 방법을 모색하는 실험을 진행했다. 우선 그 이후로 실험할 때 NaN 값은 안 나왔으며, 게임은 4할의 비율로 이기고 있다. 그러나 학습하는 데 있어 또 다른 문제점이 발생하였다. 바로 시간과 학습 안됨이었다. 1.1 시간 문제 현재 세워진 모델로 한번의 착수를 하는데 0.07초가 걸린다. 이때 한 번의 대국에서 착수 횟수가 대략 110 ~ 190회 이므로 대강 12초 정도의 시간이 걸린다는 점이다. 이전까지는 적어도 10000번의 학습을 하였기 때문에 이번 모델도 그렇게 진행하려..
환경 : Window, Python 3.9, Jupyter notebook(Anaconda 설치된 상태), GPU 환경 AlphaGo를 참고했을 때, 네트워크 구성으로 Policy network와 Value network로 이루어진 것을 확인했다. 이 글에서는 AlphaGo와 학습하는 방식은 조금 다르지만, 위 두 네트워크를 가진 Actor Critic 기법을 사용하여 self learning 하기로 했다. 간단하게 용어 정리하면 다음과 같다. Policy network: agent가 어떤 상황에 놓여져 있을 때 어떠한 행동을 할 확률을 출력 값으로 내보낸다. 이때 하나의 상황에서 여러 행동을 선택할 수 있다면, 각각의 행동을 할 확률이 출력 값이 된다. Value network: agent가 어떤 상황..