1. AI Agent란?
AI Agent는 환경으로부터 정보를 지각(Perception) 하고,
주어진 목표를 달성하기 위해 의사결정(Decision Making) 을 거쳐
적절한 행동(Action) 을 수행하는 지능형 주체입니다.
단순히 입력에 반응하는 프로그램과 달리,
AI Agent는 데이터와 경험을 바탕으로 학습하며 상황에 맞게 적응할 수 있습니다.
이를 위해 여러 핵심 기술이 결합됩니다.
- 멀티모달 모델: 텍스트·이미지·음성 등을 동시에 이해
- RAG: 외부 지식을 검색해 활용하는 구조
- MCP: 다양한 도구와 시스템에 연결해 실행 능력을 확장하는 프로토콜
결국 AI Agent는 환경과 상호작용하며 목표를 수행하는 인공지능 시스템의 핵심 개념이라 할 수 있습니다.
2. 핵심 기술 – RAG와 MCP
2.1 RAG (Retrieval-Augmented Generation)
RAG는 생성형 AI가 외부 지식을 검색해 활용하는 방식입니다.
단순히 모델 파라미터에 저장된 정보만으로 답변하지 않고,
관련 문서를 검색(Retrieval) 한 뒤 이를 입력 맥락에 포함시켜
답변을 생성(Generation) 합니다.
이 방식의 장점은:
- 모델이 최신 정보나 도메인 특화 지식을 활용할 수 있고
- 환각(hallucination) 을 줄이고 신뢰도를 높일 수 있다는 점입니다.
예: 고객 지원, 법률 문서 검색, 논문 요약 등에서
내부 데이터베이스에서 필요한 정보를 불러온 후 답변을 생성하는 형태로 적용됩니다.
2.2 MCP (Model Context Protocol)
MCP는 AI 에이전트가 외부 도구, 서비스, 데이터베이스와
표준화된 방식으로 연결되도록 설계된 프로토콜입니다.
기존에는 각 도구와 개별적으로 API를 맞춰야 했다면,
MCP는 공통된 인터페이스를 제공해 에이전트가 다양한 리소스를 쉽게 호출하고
응답을 이해할 수 있게 합니다.
이를 통해:
- RAG나 LangGraph 같은 프레임워크와 결합할 때,
문서 검색·DB 질의·외부 애플리케이션 실행 등을 일관된 구조로 처리할 수 있고 - 에이전트 개발자가 복잡한 연동 코드를 직접 작성하지 않아도
확장성과 재사용성을 확보할 수 있습니다.
3. AI Agent 대표 사례
3.1 로봇청소기 (iRobot Roomba 등)
- 집 안 구조를 센서와 카메라로 인식(지각) → 이동 경로 계획(의사결정) → 청소 수행(행동)
- 단순한 반응형에서 이제는 집 구조를 학습해 점점 "똑똑해진" 에이전트
3.2 자율주행 자동차 (Tesla Autopilot, Waymo)
- 카메라·라이다 등 센서 데이터로 환경 인식 → 교통 상황에 맞는 주행 판단 → 가속·감속·조향 실행
- 복잡한 멀티모달 지각과 강화학습 기반 의사결정의 집약체
3.3 스마트 스피커 (Amazon Alexa, Google Assistant, Naver Clova)
- 음성 입력으로 사용자 요청 인식(지각) → 의도 분석(의사결정) → 음악 재생·날씨 안내·IoT 제어 등 실행(행동)
- 단순 질의응답을 넘어 외부 API와 연결되는 MCP 기반 Agent로 발전 중
3.4 금융 트레이딩 에이전트 (로보어드바이저)
- 시장 데이터를 실시간 분석(지각) → 투자 전략 수립(의사결정) → 매수·매도 주문 실행(행동)
- 예: 미국의 Wealthfront, 한국의 NH투자증권 "QV 로보어드바이저"
3.5 게임 AI (AlphaGo, OpenAI Five, StarCraft II AlphaStar)
- AlphaGo: 바둑판 상태 인식 → 수 선택 의사결정 → 착수 행동
- OpenAI Five: 도타2 같은 팀 기반 게임에서 인간과 협력/경쟁하며 전략 실행
- 사람을 뛰어넘는 성능으로 AI Agent의 강력함을 보여준 사례
4. AI Agent 대표 프레임워크
다양한 AI Agent 프레임워크가 존재하며, 각각의 특성에 따라 용도가 다릅니다.
아래 이미지는 주요 프레임워크들의 구조와 관계를 보여줍니다.
![]()
5. 워크플로우 (Workflow)
워크플로우는 어떤 작업을 달성하기 위해 따라야 하는 단계적 절차나 흐름을 뜻합니다.
AI 기술 분야에서는:
데이터를 입력받아 → 처리하고 → 결과를 내기까지의 과정이
여러 단계로 나뉘는데, 이 일련의 단계를 체계적으로 정의하고
자동화해 연결한 것이 워크플로우입니다.
쉽게 말해, 목표를 이루기 위해 "무엇을, 어떤 순서로, 어떤 도구를 통해 실행할지"를
시각적으로 표현한 설계도이자 실행 계획입니다.
5.1 n8n
n8n은 오픈소스 워크플로우 자동화 도구로, 프로그래밍 지식이 많지 않아도 블록(노드)을 이어 붙여
다양한 서비스와 AI 모델을 연결할 수 있게 해줍니다.
Zapier 같은 상용 툴과 유사하지만,
자체 서버에 설치해 보안과 커스터마이징에서 더 자유롭다는 장점이 있습니다.
활용 사례:
- 이메일, 데이터베이스, Slack 같은 협업 도구와 연동
- OpenAI·HuggingFace 같은 AI API와 쉽게 연결
- 데이터 수집 → 전처리 → AI 호출 → 결과 전달 같은 파이프라인 자동화
결국 n8n은 AI 워크플로우와 비즈니스 자동화를 빠르게 시각적으로 구성할 수 있는
레고 블록 같은 플랫폼이라고 할 수 있습니다.
5.2 RAG 워크플로우
RAG 워크플로우는 질문-답변의 흐름이 고정된 직선형 파이프라인입니다.
질문 입력
→ 쿼리를 벡터로 변환
→ 벡터DB에서 관련 문서 검색 (Retrieval)
→ 문서를 컨텍스트로 합쳐 LLM에 전달
→ 답변 생성 (Generation)
![]()
검색과 생성이 고정된 순서로 연결되어 있어 빠르고 단순하며,
FAQ나 사내 문서 QA처럼 명확한 질문-답변 작업에 적합합니다.
5.3 에이전틱 RAG 워크플로우
에이전틱 RAG 워크플로우는 기본 RAG 흐름 위에 에이전트의 자율성을 추가한 방식입니다.
기본 RAG와의 차이점:
- 질문을 분석해 필요할 때만 검색하거나
- 쿼리를 재작성해 여러 번 검색하며
- 검색 결과를 평가·반성 후 재시도하는 다단계·반복형 파이프라인
LLM이 언제 검색할지, 어떤 도구를 쓸지, 어떻게 답변을 다듬을지까지
스스로 결정하므로, 복잡한 리서치나 멀티홉 질의, 장기 과제에 더 강력합니다.
![]()
멀티홉 질의 (Multi-hop Query)
멀티홉 질의란, 단일 질문에 답하기 위해
여러 개의 정보 조각을 순차적으로 연결해 추론해야 하는 질문을 말합니다.
- 단일 홉(Single-hop): 질문 → 하나의 문서/사실만 찾아도 바로 답 가능
- 멀티 홉(Multi-hop): 여러 정보원을 찾아 순차적으로 이어야 답할 수 있음
에이전틱 RAG는 이런 복잡한 질의를 자율적으로 처리할 수 있다는 점에서 기본 RAG보다 훨씬 강력한 도구입니다.
[ 오늘의 정리 ] – AI Agent의 포인트
- AI Agent는 지각 → 의사결정 → 행동의 사이클을 반복하며 목표를 수행하는 지능형 시스템입니다.
- RAG는 외부 검색을 통해 LLM의 지식 한계를 극복하고 환각을 줄이는 핵심 기술이며,
MCP는 다양한 외부 도구와 표준화된 방식으로 연결하게 해주는 프로토콜입니다. - AI Agent는 로봇청소기·자율주행·스마트 스피커·금융·게임 등 다양한 분야에서 이미 실용화되어 있습니다.
- 워크플로우는 AI Agent가 목표를 수행하는 단계적 실행 계획으로,
단순한 RAG 파이프라인부터 자율적으로 판단하는 에이전틱 RAG까지 발전하고 있습니다.
'개념 정리실 > 강화학습' 카테고리의 다른 글
| PPO (Proximal Policy Optimization) – 안정적인 정책 업데이트로 CartPole 풀어보기 (0) | 2026.03.18 |
|---|---|
| ACER – 경험 재사용으로 Actor-Critic 강화학습 가속하기 (CartPole 구현 포함) (1) | 2026.03.17 |
| A3C – 여러 에이전트가 함께 학습하는 Actor-Critic (0) | 2026.03.16 |
| Actor-Critic로 CartPole 학습하기 – REINFORCE에서 한 걸음 더 (1) | 2026.03.16 |
| Policy Gradient & REINFORCE – 정책 기반 에이전트 (1) | 2026.03.12 |