Add Skill Check project

HiddenBeginner · HiddenBeginner · commit ea2d15e0f168 · 2023-06-18T10:10:28.000+09:00
diff --git a/_config.yml b/_config.yml
@@ -32,6 +32,8 @@ urls:
       url: /about/
     - text: Publications
       url: /publications/
+    - text: Projects
+      url: /projects/
     - text: Donors
       url: /donors/
     - text: 심층강화학습 책
diff --git a/_data/projects.json b/_data/projects.json
@@ -1,18 +1,10 @@
 [
 	{
-		"slug": "cool-project",
-		"name": "Cool project 1",
-		"image": "placeholder.jpg",
+		"slug": "skill_check_env",
+		"name": "Skill Check",
 		"url": "https://www.google.com",
-		"date": "Jan 2014",
-		"tags": ["Angular JS","API"]
-	},
-	{
-		"slug": "cool-project",
-		"name": "Cool project 1",
 		"image": "placeholder.jpg",
-		"url": "https://www.google.com",
-		"date": "Jan 2014",
-		"tags": ["python"]
-	},
+		"date": "2023-06-18",
+		"tags": ["Reinforcement learning", "Environment", "DQN"]
+	}
 ]
diff --git a/_layouts/project.html b/_layouts/project.html
@@ -52,9 +52,6 @@ <h3 class="project-headlines">{{ i.name }}</h3>
             </div>
           </div>
           <div class="project-footer">
-            {% if i.url %}
-              <a href="{{ i.url }}" class="project-link" target="_blank"><i class="fa fa-globe"></i> View</a>
-            {% endif %}
             <span class="project-timeline">{{ i.date }}</span>
           </div>
         </div>
diff --git a/_layouts/project_single.html b/_layouts/project_single.html
@@ -25,4 +25,24 @@ <h1 class="post-title">{{ page.title }}</h1>
     <hr />
     {{ content }}
   </div>
+
+  <br>
+
+  <div style="text-align: center; margin-top: 30px">
+    <a href="https://www.buymeacoffee.com/hiddenbeginner"><img src="https://img.buymeacoffee.com/button-api/?text=Buy me a coffee&emoji=&slug=hiddenbeginner&button_colour=FFDD00&font_colour=000000&font_family=Cookie&outline_colour=000000&coffee_colour=ffffff" /></a>
+    <h5>불쌍한 대학원생에게 커피 한 잔 사주기</h5>
+  </div>
+  
+  <br>
+
+  <div>
+    <h2>댓글</h2>
+    <script src="https://utteranc.es/client.js"
+            repo="hiddenbeginner/hiddenbeginner.github.io"
+            issue-term="title"
+            theme="github-light"
+            crossorigin="anonymous"
+            async>
+    </script>
+  </div>
 </article>
diff --git a/_project/cool-project.md b/_project/cool-project.md
diff --git a/_project/skill_check_env.md b/_project/skill_check_env.md
@@ -0,0 +1,101 @@
+---
+layout: project_single
+title:  "데드 바이 데이라이트 스킬 체크"
+slug: "skill_check_env"
+use_math: true
+---
+
+# Skill Check 환경 및 DQN 에이전트
+
+- 제목: Skill Check 환경 및 DQN 에이전트
+- 기간: 1주일
+- 링크: [https://github.com/HiddenBeginner/skill_check_env](https://github.com/HiddenBeginner/skill_check_env)
+- 프로젝트 설명: 게임 Dead by Daylight의 quick time event (QTE) 요소 중 하나인 스킬 체크를 모방하여 환경을 만들고 DQN 에이전트로 환경 해결
+
+<br>
+
+---
+
+## 환경 설명
+
+Dead by Daylight에서 생존자가 발전기 수리나 회복 등을 수행할 때 낮은 확률로 quick time event인 스킬 체크가 발동한다.
+생존자가 스킬 체크를 성공하면 진척도 보너스를 받지만, 만약 실패하면 진척도 감소 뿐만 아니라 살인마에게 알림이 가게 되기 때문에 생존하기 위해서는 반드시 성공해야 하는 요소이다.
+
+<br>
+
+스킬 체크 발동시 생존자 화면 가운데에 12시 방향에 빨간 바늘이 놓여져 있는 원이 하나 생긴다. 
+빨간 바늘은 약 1.0초 동안 시계 방향으로 360도를 빠르게 회전하며, 생존자는 원 위의 임의의 위치에 생긴 성공 구간에 빨간 바늘이 들어오면 스페이스바를 눌러 스킬 체크를 해야 한다.
+성공 구간의 길이는 약 55도이며, 그 중 첫 10도에서 스킬 체크를 성공하면 스킬 체크 대성공으로 간주되어 진척도 보너스를 받게 된다. 
+나머지 45도 안에서 스킬 체크를 성공하면 일반 성공으로 간주되며 진척도 보너스는 없다. 
+만약, 성공 구간 이전에 스킬 체크를 하거나, 성공 구간을 지날 때까지 스킬 체크를 하지 못하게 되면 스킬 체크 실패로 간주되며 진척도 패널티를 받게 된다.
+
+<br>
+
+이에 영감을 받아 Skill Check 환경을 만들게 되었다. 한 에피소드를 한 번의 스킬 체크 상황으로 간주했다. 매 에피소드마다 길이 55도의 성공 구간이 90도 ~ 360도 사이에서 임의로 생성되며, 성공 구간의 첫 10도를 대성공 구간, 나머지 45도를 일반 성공 구간으로 구분하였다. 에피소드 시작시 빨간 바늘이 12시 방향을 가리키고 있으며, 120 FPS을 가정하여 360도 회전을 120 프레임으로 나누었으며 따라서 1 프레임이 지날 때마다 빨간 바늘이 3도씩 움직이게 된다. 
+
+<br>
+
+Observation space는 $\mathcal{S} \subseteq \mathbb{R}^{84 \times 84 \times 1}$이며, 현재 프레임의 이미지를 observation으로 받게 된다. 
+Atari 환경 등에서는 Markov property를 만족시키기 위하여 과거 $t$개의 프레임을 합쳐서 observation을 사용하지만, 
+이 환경의 경우 바늘의 회전 속도가 항상 동일하기 때문에 1장의 프레임만으로도 Markov property를 만족하게 되기 때문에 stacked 프레임을 사용하지 않았다.
+Action space는 $\mathcal{A}= \{ 0, 1\}$이며, 0은 아무 행동을 하지 않으며, 1은 스킬 체크를 하는 행동이다. 
+
+<br>
+
+0의 행동을 하면 0의 보상을 받으며 바늘이 3도 회전하게 된다.
+바늘이 대성공 구간에 위치했을 때 1의 행동을 하면, +10.0 보상을 받으며 에피소드가 종료된다. 
+성공 구간에 위치했을 때 1의 행동을 할경우 +1.0 보상을 받으며 에피소드가 종료된다.
+
+<br>
+
+성공 구간 이전에 1의 행동을 하면 -5.0의 보상을 받으며 에피소드가 종료된다. 
+다음 상태에서 바늘이 성공 구간을 넘어서면 -5.0의 보상을 받으며 에피소드가 종료된다.
+
+<br>
+
+---
+
+## DQN 에이전트
+
+위에서 만든 Skill Check 환경에 DQN 알고리즘을 직접 구현하여 적용해보았다. 
+처음에는 DQN 논문에 있는 네트워크 구조와 하이퍼파라미터를 그대로 따라서 실험을 했다. 
+환경이 쉬운 환경임에도 에이전트는 학습이 종료될 때까지 내내 -5.0 보상만 받았다.
+
+<br>
+
+### 학습 실패 원인 분석
+
+생각해볼 수 있는 원인 한 가지는 다음과 같다. 
+에이전트가 양수 보상 신호를 받기 위해서는 바늘이 성공 구간에 도달하기 전까지 반드시 0 행동을 해야 한다. 
+이를 프레임으로 환산해보면 최소 30 프레임까지는 0의 행동을 해야만 한다는 것이다. 
+완전 랜덤 행동을 하는 에이전트의 경우, 30 프레임 동안 0의 행동만 취할 확률은 $\frac{1}{2^{30}}$이 된다. 
+따라서 학습 초기에 완전 랜덤 탐색 동안에는 양수 보상을 받을 확률이 굉장히 낮다.
+하지만 다행히도 성공 구간 이전에 1의 행동을 할 경우 -5.0 보상을 받기 때문에, 
+에이전트는 성공 구간 이전에는 0의 행동을 하는 것이 더 좋다는 것을 학습하고 0의 행동만 수행하게 된다.
+
+<br>
+
+하지만 에이전트가 성공 구간 이전에 항상 0의 행동을 수행한다고 해도 $\epsilon$의 확률로 랜덤 탐색을 수행하며 여기서 1의 확률을 취할 확률이 $\frac{1}{2}$이다.
+즉, $\frac{\epsilon}{2}$의 확률로 1의 행동이 수행된다. 
+기존 DQN 논문에서는 $\epsilon=1$에서 시작하여 이후 1백만 steps 동안 $\epsilon=0.1$로 선형적으로 감소시킨다.
+$\epsilon=0.1$이라고 할 때 1의 행동을 취할 확률은 $0.05$가 된다. 
+30 프레임 동안 1의 행동을 한번이라도 할 확률은 1 빼기 30 프레임 동안 모두 0의 행동을 취할 확률이며, 이는 $1 - (0.95)^{30}=0.78$이다.
+따라서 기존의 $\epsilon$ 관련 하이퍼파라미터로는 성공 구간에 도달하기 조차 힘들다는 것을 확인했다.
+
+<br>
+
+### 문제 해결 결과
+
+문제 분석을 바탕으로, 초기 $\epsilon=0.1$로 설정하고 이후 1백만 steps 동안 $\epsilon=0.005$로 선형적으로 감소시키게 수정했더니 에이전트가 성공적으로 환경을 해결하는 것을 확인할 수 있었다. 환경과 상호작용 횟수에 따른 에이전트의 Return 곡선은 다음과 같다.
+
+![learning_curve](https://raw.githubusercontent.com/HiddenBeginner/skill_check_env/master/results/learning_curve.png)
+
+<br>
+
+학습이 종료된 후 10번의 에피소드에 대해서 테스트했을 때, 1번만 일반 성공을 한 것을 제외하고 9번은 대성공을 하였다. 
+애니메이션은 아래와 같다. 회전 속도가 많이 느려보이는데, 환경을 120 FPS로 만들다보니 프레임 수가 많아져서 그렇다.
+
+![animation](https://raw.githubusercontent.com/HiddenBeginner/skill_check_env/master/results/animation.gif)
+
+<br>
+
diff --git a/about.md b/about.md
@@ -76,6 +76,17 @@ use_math: true
 </summary>
 <div markdown="1">
 
+**2023년 3월 ~ 2023년 4월** 강화학습 논문 리뷰 스터디 10기
+- 발표: [SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning](https://github.com/utilForever/rl-paper-study/blob/main/10th/230306%20-%20SUNRISE%2C%20A%20Simple%20Unified%20Framework%20for%20Ensemble%20Learning%20in%20Deep%20Reinforcement%20Learning%2C%20K.%20Lee%20et%20al%2C%202020.pdf)
+
+<br>
+
+**2023년 2월 ~ 2023년 4월** 가짜연구소 6기 `나만의 딥러닝 프레임워크 만들기` 공동 빌더
+- 도서: 밑바닥부터 시작하는 딥러닝3
+- 정리: [링크](https://github.com/HiddenBeginner/dezero)
+
+<br>
+
 **2022년 9월 ~ 2022년 12월** 강화학습 논문 리뷰 스터디 9기
 - 발표: [Hindsight Credit Assignment](https://github.com/utilForever/rl-paper-study/blob/main/9th/221121%20-%20Hindsight%20Credit%20Assignment%2C%20A.%20Harutyunyan%20et%20al%2C%202019.pdf)
   
diff --git a/donors.md b/donors.md
@@ -7,13 +7,13 @@ use_math: true
 
 누추한 대학원생에게 후원을 해주신 귀하신 후원자님들의 명단입니다. 대단히 감사드립니다. 평생 갚으며 살아가겠습니다.
 
-- Seoxxxak Kim님 (2023년 03월 15일) 🫰💕
-- Hidden님 (2023년 03월 01일) 🫰💕
-- 허X우님(2022년 12월 29일) 🫰💕
-- 김X비님 (2022년 10월 10일) 스타벅스 돌체라떼 아이스 후원 🫰💕
-- 김X수님 (2021년 09월 12일) 🫰💕
-- Alex Choi님 (2021년 07월 11일) 🫰💕
-- 이X현님 (2021년 06월 30일) 🫰💕
-- 심X용님 (2021년 05월 21일) 🫰💕
-- 이X훈님 (2021년 05월 13일) 🫰💕
-- 그X님 (2021년 03월 12일) 🫰💕
+- Seoxxxak Kim님 (2023년 03월 15일)
+- Hidden님 (2023년 03월 01일)
+- 허X우님(2022년 12월 29일)
+- 김X비님 (2022년 10월 10일) 스타벅스 돌체라떼 아이스 후원
+- 김X수님 (2021년 09월 12일)
+- Alex Choi님 (2021년 07월 11일)
+- 이X현님 (2021년 06월 30일)
+- 심X용님 (2021년 05월 21일)
+- 이X훈님 (2021년 05월 13일)
+- 그X님 (2021년 03월 12일)
diff --git a/publications.md b/publications.md
@@ -5,4 +5,5 @@ permalink: /publications/
 use_math: true
 ---
 
-- D. Lee, C. Bresten, K. Youn, K. Seo, J.-H. Jung, Model discrepancy using topological data analysis and convolutional neural network analysis, *International Journal of Modern Physics C*, Vol. 31, No 08, 2050117, 2020. [DOI: 10.1142/S012918312050117X](https://doi.org/10.1142/S012918312050117X)
+- Mai Lan Tran, Dongjin Lee, Jae-Hun Jung, Machine composition of Korean music via topological data analysis and artificial neural network, *Journal of Mathematics and Music*, 2023.[DOI: 10.1080/17459737.2023.2197905](https://doi.org/10.1080/17459737.2023.2197905)
+- Dongjin Lee, Christopher Bresten, Kookhyoun Youm, Ki-Weon Seo, and Jae-Hun Jung, Model discrepancy using topological data analysis and convolutional neural network analysis, *International Journal of Modern Physics C*, Vol. 31, No 08, 2050117, 2020. [DOI: 10.1142/S012918312050117X](https://doi.org/10.1142/S012918312050117X)