Reinforcement Learning
강화 학습(Reinforcement Learning)은 기계 학습(Machine Learning) 방법 중에 하나이며, 주어진 상황에서 어떤 행동을 선택 할 지를 학습하는 방법입니다.
NHN AI에서 강화 학습의 시작은 알파고 였습니다.
2016년 알파고는 불가능하다고 여겼던 바둑 문제를 해결했고, 우리는 알파고를 보면서 이런 생각을 했습니다.
이런 복잡한 문제를 풀 수 있는 기술을 잘 이해할 수 있으면, 다른 많은 문제도 풀 수 있지 않을까?
그래서, 우리는 2016년부터 한돌을 만들기 시작했습니다.
한돌은 알파고와 같은 바둑 인공지능이고, 강화학습 기술을 사용해서 바둑을 스스로 학습 하였습니다.
개발된 한돌은 2017년 한게임 바둑에서 서비스를 시작 하였고, 한게임 유저분들이면 누구나 무료로 한돌과 대국을 할 수 있습니다.
한돌과 바둑 두는 것 외에도 한돌을 이용해서, 누구나 바둑을 즐길 수 있도록 다양한 한게임 바둑 한돌 서비스도 개발 하였습니다.
NHN AI에서는 바둑 외에도 다양한 게임이나 게임 외 분야에 강화 학습을 적용하고 있습니다.
장기, 고스톱, 오목, 퍼즐, 윷놀이 AI를 개발했고, 이 중 일부를 서비스 중입니다.
최근에는 조합 최적화(Combinatorial Optimization) 문제의 풀이에 강화 학습을 사용한 방법에 대한 연구도 진행하고 있습니다.