📌딥 러닝 기획자를 꿈꾸는 취준생을 위한 학습 자료 – 2편) 실제 제품과 서비스
1편에서 딥 러닝의 기본 개념을 다뤘다면, 2편에서는 실제 제품과 서비스 에 딥 러닝이 어떻게 적용되는지 간략하게 정리해봅니다. 기획자(PM)라면 ‘어떤 문제를 AI로 풀 수 있을까?’ 라는 관점에서 반드시 알아야 할 7가지 분야입니다.
*어려운 용어는 대략의 설명을 적어둡니다. 더 깊이 알고자 하시는 분들께서는 별도로 검색해보시길 권합니다.
*1편을 못 보셨다면, 아래의 링크에서 1편을 먼저 읽어보시길 권합니다.

1. 컴퓨터 비전 (Computer Vision, CV)
딥러닝의 이미지와 영상 콘텐츠에 대한 이해를 담당하는 핵심 분야. CNN(합성곱 신경망)이 주역입니다.
| 기능 | 실제 적용 사례 | 핵심 기술 |
|---|---|---|
| 이미지·영상 인식 | 자율주행차 보행자·표지판 인식 | CNN + 실시간 추론 |
| 얼굴 인식 | 스마트폰 잠금 해제, 출입 보안 | FaceNet, ArcFace |
| 객체 검출·분할 | 의료 영상 종양 탐지, 공장 불량 검출 | YOLO v10, Segment Anything Model 2 |
*합성곱 신경망 (Convolution NN): 2차원 필터를 사용해 이미지·영상의 공간 패턴을 추출합니다. 의료 영상 진단에서 질병을 감지하고, 로고·패턴 인식에 이용됩니다.
*FaceNet: 얼굴 인식(face recognition) 시스템으로, Google 연구원들이 2015년에 개발한 딥 러닝 기반 기술입니다. 얼굴 이미지를 처리해 사람을 식별하거나 검증하는 데 특화되어 있으며, 스마트폰 잠금 해제나 보안 시스템에서 자주 쓰이는 기술의 기반이 됐습니다.
*ArcFace: 얼굴 인식(face recognition) 분야의 딥러닝 기반 손실 함수(loss function)로, 2018년에 Jiankang Deng 등 연구자들이 제안한 ‘Additive Angular Margin Loss’를 가리킵니다. 이는 기존 소프트맥스(softmax) 손실 함수를 개선해 얼굴 특징(임베딩)을 더 잘 구분하도록 설계된 기술로, 스마트폰 보안, 감시 시스템, 사진 앱 등에서 널리 사용됩니다. FaceNet(이전 쿼리에서 설명한 Google의 모델)과 비교하면, ArcFace는 각도 기반 마진(margin)을 강조해 더 높은 정확도를 달성했어요.
*YOLO v10: 실시간 객체 탐지(object detection) 분야의 최신 딥러닝 모델로, “You Only Look Once” (YOLO) 시리즈의 10번째 버전입니다. 이 모델은 이전 YOLO 버전의 단점인 후처리(NMS: Non-Maximum Suppression) 지연과 모델 아키텍처 비효율을 해결해서, NMS 없이 end-to-end로 동작하는 실시간 탐지를 실현합니다. 결과적으로 정확도(mAP)와 속도(FPS)의 균형을 크게 개선해, 자율주행, 보안 카메라, 소매 분석 등 실무에서 SOTA(State-of-the-Art) 수준의 성능을 보여줍니다.
*Segment Anything Model 2 (SAM 2): Meta AI(메타 AI)가 개발한 기초 모델(foundation model)로, 이미지와 비디오에서 객체를 프롬프트 기반으로 실시간 세그멘테이션(segmentation)하는 기술입니다. SAM 2는 “promptable visual segmentation (PVS)”을 핵심으로 하며, 사용자 입력(포인트, 바운딩 박스, 마스크)을 받아 객체의 경계를 정확히 추출합니다. 원래 SAM이 이미지에만 초점을 맞췄다면, SAM 2는 비디오 프레임 간 객체 추적(tracking)을 추가해 실시간 처리(예: 초당 40프레임 이상)를 가능하게 했습니다.
2. 자연어 처리 (NLP) & 음성 기술
인간의 언어를 이해하고 생성하는 기술. Transformer가 중심입니다.
| 기능 | 실제 서비스 | 핵심 모델 |
|---|---|---|
| 가상 비서·챗봇 | Siri, Claude, Grok 3 | GPT-4o, Llama 3.1 |
| 텍스트 요약·감정 분석 | 법률 문서 요약, 리뷰 분석 | BART, KoBART |
| 음성 인식·실시간 자막 | Zoom 자동 자막, 음성 타이핑 | Whisper v3 |
| 자동 번역 | 구글 번역, 파파고 | NLLB-200, SeamlessM4T |
*자연어 처리(NLP): 인간의 언어를 컴퓨터가 이해하고 생성하게 하는 기술
*언어 모델(LM): 다음에 올 단어를 확률로 예측하여 문장을 생성
*Llama 3.1: Meta AI(메타 AI)가 개발한 대규모 언어 모델(LLM) 시리즈로, 2024년 7월 23일에 공개된 Llama 3의 후속 버전입니다. 텍스트 생성, 요약, 번역, 코드 작성 등 다양한 작업에 활용되며, Hugging Face나 Ollama 같은 플랫폼에서 쉽게 다운로드하고 실행할 수 있습니다. Meta의 철학처럼 ‘오픈 인텔리전스’를 강조해, 누구나 무료로 다운로드하여 상업적 사용(700M MAU 초과 시 별도 라이선스 필요)이 가능합니다.
*BART와 KoBART: 자연어 처리(NLP) 분야의 시퀀스-투-시퀀스(sequence-to-sequence) 모델로, 텍스트 생성·요약·번역 등에 특화된 Transformer 기반 언어 모델입니다. BART는 영어 중심의 원본 모델이고, KoBART는 이를 한국어로 적응시킨 버전입니다. 이전 대화에서 언급된 “텍스트 요약·감정 분석” 사례처럼, 문맥을 이해하고 핵심을 추출하는 데 강합니다.
Whisper v3: 정확히는 Whisper large-v3는 OpenAI가 개발한 자동 음성 인식(ASR: Automatic Speech Recognition) 및 음성 번역 모델의 최신 버전으로, 2023년 11월에 공개됐습니다. 원래 Whisper 시리즈는 2022년 9월에 처음 소개된 <Robust Speech Recognition via Large-Scale Weak Supervision> 논문에 기반한 오픈소스 모델로, 웹에서 수집된 방대한 오디오 데이터(680,000시간)로 훈련되어 영어 중심의 강력한 음성-텍스트 변환을 제공합니다. v3는 이 아키텍처를 유지하면서 훈련 데이터를 대폭 확대(총 5M 시간 이상: 1M 시간 약 라벨링 + 4M 시간 의사 라벨링)해 다국어 지원과 오류 감소를 강조한 업그레이드 버전이에요. Zoom 자동 자막이나 음성 타이핑에 적합한 모델입니다.
*NLLB-200(No Language Left Behind): Meta AI(메타 AI)가 개발한 다국어 기계 번역(multilingual machine translation) 모델로, 2022년 7월에 공개된 대규모 프로젝트의 핵심 결과물입니다. 이 모델은 200개 언어 간 단일 문장 번역을 지원하며, 특히 저자원 언어(low-resource languages) (e.g., 아프리카 55개 언어, 소수 언어)를 위한 고품질 번역을 목표로 합니다.
*SeamlessM4T: Meta AI(메타 AI)가 개발한 다국어·멀티모달 기계 번역(multilingual multimodal machine translation) 모델로, 2023년 8월에 공개된 통합 AI 시스템입니다. ‘Massively Multilingual & Multimodal Machine Translation’의 약자로, 음성-음성, 음성-텍스트, 텍스트-음성, 텍스트-텍스트 번역을 하나의 모델로 처리하며, 최대 100개 언어를 지원합니다. 기존 번역 시스템이 여러 하위 모델(예: 음성 인식 → 텍스트 번역 → 음성 생성)을 연쇄(cascade)로 사용하는 데 비해, SeamlessM4T는 단일 통합 모델로 지연을 줄이고 품질을 높여 ‘범용 번역기’를 실현합니다. 실시간 다국어 커뮤니케이션에 적합하다는 평가입니다.
3. 추천 시스템 (Recommendation System)
개인화의 핵심. 넷플릭스·유튜브의 80% 시청을 책임집니다.
사용자 A → [시청 기록] → 딥러닝 → “이 영화 좋아하지?”
- 넷플릭스: 세션 기반 Transformer + 협업 필터링
- 유튜브: Two-Tower 모델 + 시퀀스 인코딩
- E-Commerce: 그래프 신경망(GNN)으로 유사 사용자 연결
4. 의료 & 생명과학
딥러닝이 의사 결정을 보조하고 신약의 개발을 혁신합니다.
| 분야 | 대표 사례 | 성과 (2025년 기준) |
|---|---|---|
| 의료 영상 분석 | 폐암·당뇨망막증 조기 진단 | 방사선 전문의 수준 정확도 |
| 전자 건강 기록 분석 | NLP로 진료 기록 요약 | 진료 시간 30% 단축 |
| 단백질 구조 예측 | AlphaFold 3 (2024) | 신약 개발 속도 2배 ↑ |
| 예측 분석 | 합병증 위험 예측 | 입원율 20% 감소 |
*DeepMind의 AlphaFold 3: 단백질 외 리간드·DNA·RNA까지 예측 가능
5. 자율주행 & 로보틱스
[센서 → 인지 → 판단 → 제어] 까지 딥러닝이 연결합니다.
- 테슬라 FSD v13 (2025년 3월)
→ 카메라만으로 End-to-End 신경망
→ 라이다 제거, 로보택시 수준 성능
| 기술 | 역할 |
|---|---|
| CNN | 차선·장애물 인식 |
| Transformer | 경로 계획·의사결정 |
| RNN/LSTM | 시계열 행동 예측 |
*RNN(Recurrent NN; 순환 신경망): 시간 순서를 가진 데이터를 처리하며, 이전 상태를 기억하는 루프 구조 덕분에 거래 시퀀스의 맥락을 이해해 사기 탐지 등에 사용됩니다 .
*LSTM(Long Short-Term Memory): RNN의 “기억력 부족” 문제를 해결한 업그레이드 버전. 시계열·순차 데이터(문장, 음성, 주가 등)에서 장기 의존성(long-term dependency)을 기억할 수 있는 딥 러닝 아키텍처입니다.
6. 생성 AI & 콘텐츠 제작
AI가 창작하는 시대. 2025년 가장 핫한 분야입니다.
| 유형 | 대표 모델 (2025년) | 활용 |
|---|---|---|
| 텍스트 생성 | GPT-4o, Claude 3.5, Grok 3, Llama 3.1 | 챗봇, 글쓰기, 코드 |
| 이미지 생성 | DALL·E 3, Midjourney v6, Flux.1 | 광고, 일러스트 |
| 음악·영상 | Suno v3, Runway Gen-3 | 광고 BGM, 숏폼 영상 |
*Claude 3.5 Sonnet: Anthropic이 개발한 대규모 언어 모델(LLM) 시리즈의 중간 크기 모델로, 2024년 6월에 처음 출시된 Claude 3.5 모델 패밀리의 첫 번째 릴리스입니다. ‘Sonnet’은 Claude 시리즈의 중형 모델 라인업(예: Haiku는 가볍고, Opus는 고성능)을 의미하며, 지능과 속도의 균형을 강조한 모델이에요. 챗봇·코드 생성·콘텐츠 요약에 강한 모델로, 헌법 AI(Constitutional AI) 원칙을 기반으로 안전성과 유용성을 또한 강조합니다.
*DALL·E 3: OpenAI가 2023년 9월에 공개한 텍스트-투-이미지(text-to-image) 생성 AI 모델의 3세대 버전입니다.
*Midjourney v6: Midjourney (AI 이미지 생성 플랫폼)의 6번째 주요 버전으로, 2023년 12월 20일에 알파(Alpha) 버전으로 처음 공개된 텍스트-투-이미지(text-to-image) 생성 AI 모델입니다. Midjourney는 Discord 봇을 통해 작동하는 독립 연구 기관(외부 투자 없이 커뮤니티가 운영)의 제품으로, 사용자가 자연어 프롬프트를 입력하면 고품질 이미지를 생성합니다.
*Flux.1: Black Forest Labs에서 개발한 오픈 소스 이미지 생성 모델입니다. 텍스트 설명을 입력하면 고품질의 사실적인 이미지를 생성해 주는 텍스트-이미지(Text-to-Image) 변환 AI 모델로, 출시되자마자 뛰어난 성능으로 주목받으며 Stable Diffusion과 같은 기존 모델들의 강력한 경쟁 상대로 떠올랐습니다.
*Suno v3: Suno AI에서 출시한 음악 생성 인공지능 모델의 세 번째 주요 버전입니다. Suno AI는 사용자가 텍스트 프롬프트(명령어)만 입력하면, 가사, 보컬, 악기 연주, 다양한 장르를 포함한 고품질의 완벽한 노래를 자동으로 만들어주는 획기적인 도구로, 출시 당시 ‘음악판 소라(Sora, OpenAI의 영상 생성 AI)’라는 별명을 얻을 만큼 큰 충격을 주었습니다
*Runway Gen-3 (Gen-3 Alpha): AI 영상 제작 분야의 선두 주자인 Runway ML에서 개발한 고성능 텍스트-비디오(Text-to-Video) 생성 인공지능 모델입니다.
*GAN(Generative Adversarial Network): 생성자와 판별자가 경쟁하며 사실적 데이터를 생성합니다.
7. 과학 & 연구 분야
딥 러닝은 인간 지식의 한계를 확장합니다.
| 사례 | 기술 | 성과 |
|---|---|---|
| 알파고 | 정책·가치 네트워크 + 강화학습 | 2016년 이세돌을 상대로 4:1 승리 |
| 날씨 예측 | GraphCast (DeepMind) | 10일 후 예측 정확도 1위 전 세계 90% 기상청에 도입 |
| 사기 탐지 | Transformer + GNN | 실시간 이상 거래 탐지 |
*GraphCast: 구글 딥마인드(Google DeepMind)에서 개발한 인공지능(AI) 기반의 글로벌 기상 예측 모델입니다. 기존의 전통적인 수치 기상 예측(Numerical Weather Prediction, NWP) 방식이 아닌, 기계 학습(Machine Learning)을 기반으로 하여 빠르고 정확하게 전 세계의 날씨를 예측하는 혁신적인 모델로 평가받고 있습니다.
*GNN (Graph Neural Network, 그래프 신경망): 그래프(Graph) 구조로 표현된 데이터를 처리하고 학습하도록 설계된 인공신경망 모델입니다. 일반적인 딥 러닝 모델(CNN, RNN)이 이미지(격자 구조)나 텍스트(순차 구조)와 같은 정형화된 데이터에 최적화된 반면, GNN은 노드(Node)와 노드 간의 엣지(Edge)로 구성된 비정형 관계형 데이터를 분석하고 예측하는 데 특화되어 있습니다.
수고하셨습니다.
2025년 현 시점 기준, 딥 러닝이 어떤 일을 하고 있는지 잘 보셨나요? 😊
다음 학습은 3. 딥 러닝 실무 노하우 및 실제 활용 사례 로 이어집니다.