강화학습이란?
강화학습(Reinforcement Learning, RL) 은 에이전트가 환경과 상호작용하면서 “어떻게 행동해야 장기적으로 보상이 최대가 되는지”를 스스로 학습하는 방법입니다.
- 지도학습: 정답 라벨을 보고 배우는 방식
- 비지도학습: 정답 없이 패턴을 찾는 방식
- 강화학습: 정답 대신 “잘하면 보상, 못하면 벌점”을 받으면서 시도·실패를 통해 배우는 방식
게임에서 점수를 최대화하려고 플레이를 반복하거나, 로봇이 넘어지면서도 걷는 법을 배우는 상황을 떠올리면 됩니다.
강화학습의 기본 구성요소
강화학습은 보통 아래 네 가지로 정리됩니다.
- 에이전트(Agent): 학습하는 주체 (플레이어, 로봇, 추천 시스템 등)
- 환경(Environment): 에이전트가 행동을 취하는 세계 (게임, 물리 환경, 사용자 등)
- 상태(State): 현재 상황을 나타내는 정보 (바둑판 상태, 로봇의 위치와 속도 등)
- 행동(Action): 에이전트가 취할 수 있는 선택 (왼쪽/오른쪽 이동, 점프, 상품 추천 등)
- 보상(Reward): 행동 결과에 대해 환경이 주는 숫자 피드백
- 잘한 행동: 보상 +
- 나쁜 행동: 보상 − 또는 0
에이전트의 목표는 시간이 지나면서 받은 보상의 총합(또는 평균) 을 최대화하는 정책을 찾는 것입니다.
MDP 관점에서 보기
강화학습을 수학적으로는 마르코프 결정 과정(MDP, Markov Decision Process) 로 표현합니다.
- S: 상태 집합 (states)
- A: 행동 집합 (actions)
- P(s′ | s, a): 전이 확률
- 현재 상태s에서 행동a를 했을 때, 다음 상태s′로 이동할 확률 - R(s, a): 보상 함수
- 상태s에서 행동a를 했을 때의 기대 보상 - γ (gamma): 할인율(discount factor, 0 ~ 1)
- 미래 보상을 어느 정도 중요하게 볼지 결정하는 하이퍼파라미터
마르코프성 (Markov Property)
마르코프성이란, “다음 상태는 과거 전체가 아니라 현재 상태와 행동에만 의존한다”는 가정입니다.
즉, 지금 상태에만 필요한 정보가 모두 압축돼 있다고 보는 것입니다.
Return과 가치(Value)의 개념
강화학습에서 에이전트는 단발 보상 하나가 아니라, 장기적인 보상 합을 고려합니다.
Return Gt는 시점 t에서 시작했을 때 앞으로 받게 될 보상의 할인 합으로 정의됩니다.
Gt = rt+1 + γ rt+2 + γ2 rt+3 + ...
- γ (감가율)이 1에 가까울수록: 먼 미래의 보상까지 중요하게 봄
- γ가 0에 가까울수록: 당장 눈앞의 보상에 더 집중
가치 함수(Value Function)
- 상태 가치 Vπ(s)
정책π를 따를 때, 상태s에서 시작했을 때의 기대 Return을 의미합니다. - 상태-행동 가치 Qπ(s, a)
상태s에서 행동a를 하고, 그 이후에 정책π를 따를 때의 기대 Return을 의미합니다.
정책 π는 “주어진 상태에서 어떤 행동을 어느 정도 확률로 선택할지”를 정하는 규칙입니다. 강화학습의 핵심 목표는 좋은 정책 π*를 찾아서, 그에 따른 Vπ*, Qπ*를 최대화하는 것입니다.
탐험 vs 활용 (Exploration vs Exploitation)
강화학습의 고전적인 딜레마입니다.
- 탐험(Exploration):
- 아직 잘 모르는 행동을 시도해 봄
- 당장은 손해일 수 있지만, 미래에 더 큰 보상을 주는 행동을 발견할 기회
- 활용(Exploitation):
- 지금까지 배운 정보에 따라 가장 좋아 보이는 행동을 선택
- 즉각적인 보상을 최대화하는 선택
좋은 에이전트는 초반에는 탐험을 많이,점점 경험이 쌓일수록 활용 쪽으로 비중을 옮기는 전략을 씁니다.
대표적인 강화학습 알고리즘들
강화학습 알고리즘 한눈에 정리
- Dynamic Programming (DP)
- 환경 모델(전이 확률, 보상)을 모두 알고 있을 때 사용
- 벨만 방정식을 이용해 \(V, Q, π\)를 반복적으로 업데이트 - Monte Carlo (MC)
- 여러 에피소드를 끝까지 실행한 뒤, 실제 Return(총 보상) 평균으로 가치 함수를 추정
- 에피소드 전체 결과를 기반으로 업데이트 - Temporal Difference (TD) – 예: TD(0)
- 에피소드가 끝나기 전에 업데이트를 수행
- “다음 상태의 가치”를 이용해 현재 가치를 미리 업데이트
- 가치 반복의 실전 버전이라고 볼 수 있음 - Q-learning / SARSA
- \(Q(s, a)\)를 직접 학습하는 대표 온·오프폴리시 알고리즘
- 딥러닝과 결합한 DQN이 아타리 게임 등에서 큰 성과를 냄 - Policy Gradient / Actor-Critic
- 정책 πθ를 파라미터 \(θ\)로 직접 표현
- 기대 Return에 대한 경사(gradient)를 따라 정책을 개선
- 연속 행동, 복잡한 정책 구조 학습에 강함
강화학습이 잘 쓰이는 예시
- 게임 AI: 알파고(바둑), 아타리 게임 에이전트, 스타크래프트 봇 등
- 로보틱스: 걷기, 잡기, 균형 잡기, 팔 움직이기 등 물리적 제어
- 추천 시스템: 유저 반응(클릭·시청 시간)을 보상으로 두고 콘텐츠 추천
- 자율주행/제어: 속도 제어, 차선 변경, 에너지 최적화 등
[ 한 줄 정리 ]
강화학습은 “환경과 상호작용하면서 ‘보상’을 최대화하는 방향으로,정답 대신 경험을 통해 ‘어떤 행동이 좋은지’ 정책을 스스로 찾아가는 학습 방법”입니다.이해만 잡아두고, 나중에 각 알고리즘(QLearning, Policy Gradient, Actor-Critic 등)을 하나씩 코드로 구현해보면 개념이 훨씬 잘 잡힙니다.
'개념 정리실 > 강화학습' 카테고리의 다른 글
| Q-learning – 가장 유명한 가치 기반 강화학습 (0) | 2026.03.11 |
|---|---|
| Deep RL – 근사, 함수 근사, 신경망, 가치 기반·정책 기반 (0) | 2026.03.11 |
| TD Learning (Temporal Difference Learning) (0) | 2026.03.10 |
| 벨만 기대 방정식 (Bellman Expectation Equation) (0) | 2026.03.09 |
| 마르코프 결정 과정 (Markov Decision Process, MDP) (0) | 2026.03.05 |