[AI] 23-2 IT 트랙 1회차

kuitsofficial
2023년 12월 4일
13분 분량

최종 수정일: 2024년 7월 24일

AI 기술 동향

현재 AI는 현상을 데이터를 통해 인지하고 분석하며 예측하는 수준을 넘어 인간의 언어인 자연어로 어떤 작업을 요청했을 때 그 결과물을 생성해내는 생성형 AI 시대에 다다르게 되었다. 생성형 AI의 활용은 크게 두 가지의 집중할만한 지점이 있는데, 첫 번째는 인간들이 활용하는 언어인 자연어를 컴퓨터의 언어로 전환해 컴퓨터가 자연어를 인식하고 이해할 수 있게끔 하는 자연어 처리이고 두 번째는 이해한 자연어를 바탕으로 음성, 이미지, 영상 등의 눈에 보이는 결과들을 만들어내는 생성의 영역이다.

자연어 처리는 수 많은 단어들과 문장들을 거대한 인공지능 모델에 학습시켜 자연어를 이해할 수 있게 만든, Microsoft의 GPT나 Meta의 LLaMA, Google의 LaMDA와 같은 모델들이 개발되어 여러 분야에서 상용화되는 단계까지 이르렀다. 이런 초거대 언어 모델(Large Language Model, 이하 LLM)을 바탕으로 수많은 개인의 데이터들이 축적되고 활용되는 영역인 금융, 의료, 교육 분야에서 LLM 기반의 생성형 AI들이 활약하고있다. 생성형 AI는 컴퓨터 하드웨어와 클라우드 플랫폼의 발전을 가속화시키며 생성형 AI의 두뇌와도 같은 파운데이션 모델과 이를 개발하기 위한 MLOps에 대한 심도있는 연구가 수반되며 이를 통해 일반인들에게 제공할 수 있는 어플리케이션과 서비스들을 여러 기업들이 만들어내고 있다.

자연어 처리(NLP) 기술은 대규모 언어모델(LLM) 및 챗GPT(ChatGPT)의 등장으로 많은 관심을 받으며 산업과 기업 전반의 AI 적용 및 확산의 구심점이 되고 있다. LLM의 오픈소스화로 NLP “기술 생태계 전반의 성장 가속화”와 “개방성에 의한 위험 수반”이라는 양면성에 대해 향후 대처가 중요해졌다. 글로벌 AI 기업들의 LLM 오픈소스 공개로 관련 파생 서비스 및 애플리케이션을 만드는 스타트업이 증가함에 따라 자연어 처리 기술 생태계의 성장도 가속화될 전망이다.

딥러닝 모델을 활용하는 경우가 늘어나면서 딥러닝 모델의 성능을 향상시키는 연구가 계속해서 진행되어 왔지만 정작 모델의 입력값과 결과값 이외의 모델의 의사결정 과정을 알 수 없는 ‘블랙박스 현상’이라는 문제가 존재했다. 이에 따라 AI의 설명 가능성이 필수조건으로 대두되었고 그에 대한 해결책으로 의사결정을 내리는 과정에 대한 설명이 가능한 모델인 XAI(eXplainable AI)에 관한 연구가 활발하게 진행 중에 있다.

키워드 선정

이번 AI 트랙에서 선정한 3개의 키워드는 생성형 AI, 자연어 처리, XAI이다.

생성형 AI의 경우 수많은 회사들에서 자연어 기반의 LLM과 텍스트, 이미지, 오디오들을 직접 만들어내는 모델 등을 총체적으로 포함하는 AI의 가장 뜨거운 감자이며 향후 비즈니스에서 무궁무진한 가치를 창출해낼 수 있는 AI이다. 맥킨지의 최신 연구에서 16개 비즈니스 기능에서 생성형 AI의 63개 사용 사례를 분석한 결과, 생성형 AI는 생산성(비용 절감 포함)에 대한 영향으로 세계 경제에 연간 2.6조 달러에서 4.4조 달러 규모의 가치를 창출할 수 있다고 추정했다. 그렇기에 생성형 AI의 비즈니스적 활용 가치들과 기술 수준을 파악하기 위해 키워드로 선정했다.

자연어 처리(NLP, Natural Language Processing) 기술은 LLM의 등장과 함께 각 산업계의 AI 활용영역 확대에 중요한 역할을 담당하고 있다. 글로벌 NLP 시장 규모는 2021년 155억 달러에서 연평균 40.9% 성장해 2030년 3415억 달러에 이를 전망이다. NLP 기술은 기계번역, 대화체 질의응답 시스템 대화시스템, 정보검색, 말뭉치 구축, 시맨틱웹, 텍, 딥러닝, 그리고 빅데이터 분석 분야뿐만 아니라 인간의 언어정보처리 원리와 이해를 위한 언어학과 뇌인지 언어정보처리 분야까지 핵심적인 요소로 작용하고 있다. 즉, NLP 기술은 인공지능 시대의 핵심 기반 기술이라고 할 수 있기 때문에 심층 탐구를 위해 키워드로 선정했다.

XAI(eXplainable AI)는 AI의 활용 범위가 확대되면서 더욱 그 중요성이 강조되고 있다. 특히, 의료와 자율주행 등 사람의 안전에 심각한 영향을 끼칠 수 있는 AI 기술에서는 의사결정을 설명하는 과정이 필수적이다. 생성형 AI와 관련해서도 설명 가능성에 대한 연구는 시작 단계로 앞으로도 생성형 AI 모델의 의사결정 과정을 이해하려는 시도가 지속될 전망이다. 따라서 AI 기술이 적용되면서 요구되는 AI의 투명성과 신뢰성을 XAI가 보장할 수 있다고 생각했기에 키워드로 선정했다.

키워드별 소개

생성형 AI

생성형 AI 기술 요약

생성형 AI(Generative AI)는 인공지능 기술 중 하나로, 데이터를 학습하고 이를 기반으로 새로운 데이터, 텍스트, 이미지, 음성 등을 생성하는 능력을 갖춘 시스템을 의미한다. 이런 AI 시스템은 대량의 데이터를 학습하여 패턴, 트렌드, 예측, 창조 등 다양한 작업을 수행할 수 있다. 예를 들어, 생성형 언어 모델은 주어진 텍스트의 맥락을 이해하고, 그에 맞는 응답을 생성할 수 있으며, 자동 번역, 요약, 소설 작성, 기사 생성 등을 수행할 수 있다. 여기서 주어진 텍스트는 인간의 언어인 자연어로서, 맥락을 인공지능이 이해하는 과정은 ‘자연어 처리’를 통해 설명할 수 있다. 생성형 이미지 모델은 예술 작품 생성, 사진 스타일 변환, 이미지 생성 및 편집을 수행하며, 음성 생성 모델은 음성 합성, 대화형 AI 스피커, 음성 안내 등 다양한 언어 기반 작업에 활용된다.

이러한 생성형 AI 시스템은 딥러닝을 기반으로 구축되며, 대규모 데이터셋과 강력한 컴퓨팅 자원을 필요로 한다. 대규모 데이터셋을 통해 여러 정보들을 학습한 인공지능이 어떤 명령이 주어졌을 때 학습된 내용을 바탕으로 결과물을 만들어내는 것이 간략한 생성형 AI의 형태이며, “여러 정보들을 학습한 인공지능”은 Transformer라는 모델 구조를 기반으로 하는 경우가 많다. Transformer는 하나의 예시일 뿐이며 이를 기반으로 하거나 혹은 색다른 다양한 구조의 모델들을 기반으로 생성형 AI를 만들어내고있다. 생성형 AI의 주요 특징 중 하나는 예측 능력과 창의성을 가지고 있으며, 인간과 유사한 작업을 수행할 수 있어 다양한 응용 분야에서 혁신적인 결과물들을 얻을 수 있다는 점이다. 종래의 딥러닝을 기반으로 한 AI의 활용 분야는 창의성이라는 인간 고유의 영역을 담아낼 수 없다고 판단되었지만 생성형 AI를 통해 인간의 결과물과 AI의 결과물을 구분할 수 없을 정도로 생성형 AI는 창의성을 보여주고 있다.

생성형 AI 상세 설명

생성형 AI는 인공지능 역사 중에서도 오랜 기간 연구된 분야로, 1960년대 챗봇 Eliza에서 처음 개발되었다. 숨겨진 마코브 체인(HMM)이나 가우스 혼합 모델 같은 이론은 1950년대에 처음 개발되었다. 이안 굿펠로우의 적대적 신경망(GAN)이 등장한 후, VAE(Variational Autoencoder)와 같은 다양한 생성형 AI 알고리즘이 등장하여 더욱 발전해 왔다.

‍

생성형 AI의 기술적 도약을 이끌어낸 몇 가지 중요한 모델들의 등장

WaveNet(2016)

딥마인드의 WaveNet은 Audio Generative Model의 발전에 획기적인 변화를 가져왔다. 웨이브넷은 실제와 같은 사람의 음성을 생성할 수 있었으며, 이를 통해 더욱 인간과 유사한 AI 챗봇이나 비서 등 고도로 정확한 텍스트 음성 합성을 구현할 수 있는 길이 열렸다.

Progressive GANs(2017)

엔비디아가 개발한 Progressive GAN은 고해상도의 사실적인 이미지를 생성하는 데 있어 전환점이 되었다. GAN은 훈련 과정에서 레이어를 점진적으로 추가하여 전례 없는 디테일과 선명도를 갖춘 이미지를 생성할 수 있게 되었다.

GPT-2 및 GPT-3(2019, 2020)

OpenAI의 사전 훈련된 생성형 트랜스포머(GPT) 모델은 텍스트용 GenAI 분야에서 큰 도약을 이루었다. 일관되고 문맥에 맞는 문장을 생성하는 능력을 입증하여 작문 지원부터 챗봇에 이르기까지 다양한 애플리케이션에 유용하게 활용될 수 있었다.

DALL-E(2022)

2022년 OpenAI는 DALL-E를 대중에게 공개했다. DALL-E는 자연어 프롬프트에서 디지털 이미지를 생성할 수 있는 딥러닝 모델이다.

ChatGPT(2022)

OpenAI는 GPT 기반의 대화형 챗봇인 ChatGPT를 출시했으며, 이 플랫폼은 5일 만에 사용자 100만 명을 달성했다.

GPT-4 (2023)

최신 GPT 모델은 더 정확하고 고급 추론 기능을 갖춘 것으로 알려졌다. 프리미엄 ChatGPT 사용자는 이제 챗봇 내에서 GPT-4 선택적으로 액세스할 수 있다.

생성형 AI의 주요 분야의 적용 영역

Text

텍스트 생성은 가장 많이 발전된 영역이다. 사람의 자연어 구사 능력은 제대로 구현하기 어렵다. 하지만 현재 우리에게 알려진 Chat GPT나 Bard등의 모델은 일반적인 단문/중간 형식의 글쓰기에 꽤 능숙하다. 일반적인 반복 작업이나 초안 작성을 넘어 보고서나 프레젠테이션을 제공할 수 있는 수준이 되었다. 모델이 더 개선됨에 따라 높은 품질의 결과물, 더 긴 형식의 콘텐츠, 더 나은 vertical fine tuning의 가능성을 기대할 수 있다.

Code Generation

최근 GPT와 code interpreter가 추가되면서, 개발자를 대신해서 코드를 생성하는 역할을 수행할 수 있게 되었다. 단기적으로 개발자 생산성을 크게 개선할 수 있으며, 비개발자가 코드를 배우지 않아도 개발 작업에 쉽게 접근할 수 있게 될 것으로 보인다.

Image

이미지 분야는 creator 들에게 다양한 가능성을 열어주고 있다. 이미 소셜 미디어에서는 AI가 생성한 이미지가 많은 관심을 받으며 공유되고 있고 재미있다는 입소문이 퍼지고 있다. Midjourney 생성한 미적으로 훌륭한 작품 뿐 아니라, adobe가 최근에 공개한 firefly는 캐쥬얼한 이미지 생성 또는 광고 분야에 적용될 이미지까지 훌륭한 성능을 보여주고 있다.

Speech synthesis

음성 합성 기술은 apple의 siri 또는 amazon의 Alexa 처럼 이미 소비자와 기업용 애플리케이션으로 많이 사용되고 있다. 이를 뛰어넘어 현재는 텍스트만 입력되면 특정인의 음성으로 구어체 음성이 생성되는 기술로 발전하여 영화나 팟캐스트 등에 널리 쓰이고 있다.

Video and 3D models

비디오 및 3D 모델은 영화, 게임, VR, 건축, 실제 제품 디자인과 같은 대규모 크리에이티브 시장을 새롭게 개척할 수 있는 잠재력을 가지고 있다. 아직은 다양한 시도 중이지만, 대체현실, 디지털 트윈과 연결되어 빠르게 발전하고 있다.

Audio, Music, 그리고 다양한 산업군에 적용

생성형 AI는 이제 음악 작곡부터 생물학, 화학에 이르기까지 다양한 분야에서 인간처럼 창의성 있는 작업을 할 수 있게 되었다.

각 분야의 연도별 발전 단계와 미래 시점의 생성형 AI 예측 단계는 아래와 같다.

생성형 AI의 주요 모델과 구조

생성 AI는 먼저 방대한 양의 데이터를 GAN 프레임 워크와 같은 딥 러닝 시스템에 입력하는 것으로 시작한다. 지도 신경망은 데이터를 선별하고 성공에 대해 보상하고, 오류나 실수가 발생했을 때 불이익을 주는 시스템을 사용해서 발전할 수 있다. 시간이 지나면 모델은 사람의 감독 하에 복잡한 관계를 식별하고 이해하는 방법을 배울 수 있다. 이를 Supervised neural network라고 한다. 생성 모델에는 여러가지 방식이 있다. 크게 두 가지로 나누자면, 학습 데이터의 분포를 기반으로 하는 Explicit Density와 데이터의 분포를 모르더라도 생성하는 Implicit density로 나눌 수 있다. 아래는 생성형 AI 모델의 분류이다.

Explicit density

Tractable density: 모델의 사전 분포를 가정하여 기존 값으로부터 데이터 분포를 추정
Full visible belief Nets (NADE, MADE, PixelRNN/CNN)
Approximate density: 모델의 사전 분포를 근사시켜 데이터 분포를 추정
VAE, Markov Chain (Boltzmann Machine)

Implicit density

데이터의 확률 분포를 모르는 상태
모델이 명확히 정의되어 있지 않음
샘플링을 반복하여 특정 확률 분포에 수렴하여 추정
GAN, Markov Chain (GSN) 그리고 각 영역에서의 주요한 모델들에 대한 요약은 아래와 같다.

GAN (Generative Adversarial Networks)

두 개의 인공 신경망이 서로 적대적으로 경쟁하는 관계 속에서, 진짜 같은 가짜를 만들어 낼 때 끝이 나는 생성적 모델

AE (Auto-Encoder)

인코더와 디코더로 구성되며, 라벨링 되지 않은 데이터로부터 저차원의 특징을 학습하여 원본 데이터를 추출하는 네트워크

VAE (Variational Auto-Encoder)

AE와 비슷하지만 확률적 및 생성적 개념이 추가된 Generative AI 모델
데이터를 잘 설명하는 특징을 추출하여 Latent Vector에 담고, 이를 통해 유사하지만 완전히 새로운 데이터를 생성
각 특징은 가우시안 분포를 따르고, Latent Vector는 각 특징의 평균과 분산값을 의미 각각의 모델들의 구조는 모두 상이하지만 딥러닝 기반의 구조라는 점에서 공통점을 가진다.

자연어 처리(NLP)

자연어 처리(NLP) 기술 요약

자연어 처리(NLP)의 정의

우선 자연어란 우리가 일상 생활에서 사용하는 언어를 말한다. 자연어 처리란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 한다. 즉 자연어 텍스트 혹은 음성으로 데이터를 상호 연결하는 것으로, 언어 입력(language in)이라고 말하기도 하는 머신러닝 기술이다.

자연어 처리(NLP)의 원리

NLP 알고리즘은 컴퓨터가 인간의 언어를 입력 받아 이해 및 분석하고, 최적의 결과를 찾아내는 과정을 반복한다. 즉 비정형 데이터 형식으로 들어온 음성이나 텍스트 데이터의 입력값을 분석하고, 이를 토대로 결과를 출력하는 것이다. 여기서 NLP 알고리즘이 해당 대화를 분석하는 과정을 자연어 이해라고 한다. 다음으로 분석 과정을 거친 후 결과를 도출하는 것은 **자연어 생성(NLG)**이라고 설명할 수 있다.

자연어 처리(NLP) 상세 설명

NLP의 텍스트 전처리 과정

컴퓨터가 비정형 텍스트를 인식하기 위해서 전처리 과정이 필요하다. 이는 NLP 알고리즘의 정확도 향상을 위해 중요하다.‍

출처: Machine Learning in Natural Language Processing (2012)

‍

1. 토큰화(Tokenization)

문장 혹은 말뭉치(Corpus)에서 최소 의미 단위인 토큰으로 분할
컴퓨터가 인식하도록 하는 방법
영문은 일반적으로 띄어쓰기 기준으로, 한글은 주로 단어 안의 형태소를 기준으로 나눔
한글은 타 언어 대비 토큰이 많이 소비됨
따라서 비용 및 리소스에서 영어보다 다소 불리한 위치에 있다는 점이 한계로 인식됨

2. 품사 태깅(POS Tagging, Part of speech tagging)

형태소의 품사를 태깅

3. 표제어 추출 (Lemmatization)

단어들로부터 표제어(사전어)를 찾는 기법

4. 어간 추출 (Stemming)

단어에서 접두사 및 접미사를 제거하여 어간을 획득

5. 불용어(Stop Word) 처리

조사, 접미사 등 실제 의미 분석에 거의 기여하지 않는 단어를 처리

자연어 처리 방법

기계가 이해할 수 있도록 단어를 0과 1의 수치로 표현하는 방법을 “벡터화(Vectorization) 또는 임베딩(Embedding)”이라고 한다. 즉 컴퓨터는 말이나 글을 숫자로 구성된 벡터로 바꾸어 이해한다. 임베딩은 전체 단어들 간의 관계에 맞춰 해당 단어의 특성을 갖는 벡터로 바꿔주므로 단어들 사이의 유사도를 계산하는 기법이다. 즉 언어의 통계적 패턴을 반영하여 벡터에 단어/문장 간 관련도, 의미 및 문법적 정보 등을 함축한다. 이때 자연어의 정보를 임베딩에 함축시키는 과정에서 정보 손실을 최소화해야 한다. 자연어 처리 임베딩 방법은 단어 수준 임베딩과 문장 수준 임베딩으로 구분된다.

단어 수준 임베딩과 문장 수준 임베딩은 뉴럴 네트워크 기반으로, 임베딩 초기에는 통계적 기반을 활용하였다(LLM 이전의 자연어 처리). 말뭉치라 불리는 코퍼스(Corpus)의 통계량을 직접적으로 활용하였으며, 대표적인 잠재 의미 분석(Latent Semantic Analysis:LSA) 행렬에는 Term-Document, TF-IDF, One-hot Encoding이 있었다.

단어 수준 임베딩; 문맥 독립 임베딩

단어 수준 임베딩은 벡터에 단어의 문맥적 의미를 함축한다. 하지만 단어의 형태가 같을 경우 동음이의어를 분간하기 어렵고, 언어의 모호성이나 유의성을 처리하기 어려운 한계가 있었다. 이와 같은 같은 모델을 문맥을 고려하지 않는 문맥 독립(context-free) 임베딩 모델이라고도 한다. 형태소를 음절로 분할하여 키워드의 빈도를 도출하는 과제 등은 단어 수준 임베딩에서 할 수 있는 자연어 처리 과제의 일례이다.

임베딩 기술은 2017년 이전까지 대부분 단어 수준의 모델로 개발되어졌다. 단어 수준의 벡터 표현은 텍스트를 수치화한 벡터 형태로 표현하는 것이다. 이는 비슷한 의미를 가진 단어는 크기와 방향에 유사성을 가지는 경향이 있을 것이라는 가정이 핵심이다.

1) Word2vec

word2vec의 가장 큰 개념은 “비슷한 분포를 가진 단어이면 가까운 벡터로 표현된다.” 이다. 따라서 이는 학습속도가 빠르며 단어의 맥락을 고려하므로 단어의 의미를 잘 파악한다고 알려져 있다. 이러한 word2vec은 CBOW(Continuous Bag of Words )와 skipgram 두 가지 모델로 분류된다.

CBOW는 특정 단어가 주어졌을 때 앞과 뒤에 붙어있는 단어를 통해 주어진 단어를 유추하는 방법이다. Skip-gram은 CBOW와 반대로 중심단어에서 주변단어를 예측하는 방법으로 중심단어와 연관된 두 가지 이상의 의미론적 벡터를 찾을 수 있다는 장점이 있다. 하지만 문장에서 단어의 출현이 많다고 그 단어가 중요한 의미를 가진다고 볼 수는 없다. 이것은 단어의 빈도수가 높다는 이유로 그 단어의 중요도가 높아진다고 할 수 없기 때문이다. Skip-gram이 좀 더 널리 쓰이고 있다.

[그림 1] Word2vec Architectures

Skip-gram 알고리즘, Mikolov et al. (2013)에서 재인용

2) GloVe

또다른 단어 수준 임베딩 방법에는 GloVe (Global Vectors for Word Representation)가 있다. GloVe는 코퍼스(corpus, 말뭉치) 문서에서 특정 단어와 함께 사용된 단어의 사용 또는 출현 빈도를 회귀 방법을 통해 예측한다.

Word2vec의 skip-gram과의 차이점은, skip-gram은 코퍼스(corpus) 문서 내에서 주변 단어를 예측하는 반면, GloVe는 코퍼스(corpus) 문서에서 각 단어마다 동시 출현 빈도를 분석하고 빈도 행렬을 생성한다. 그리고 이 행렬을 활용하여 동시 출현 빈도를 예측한다. 이러한 방법으로 GloVe는 대상 단어와 주변 단어에 대한 학습 과정을 반복하는 skip-gram보다 학습 속도가 빠르다.

3) FastText

이 방법은 단어를 개별 단어가 아닌 n-gram의 characters(Bag-Of-Characters)를 적용하여 임베딩하므로 하나의 단어를 여러 개로 잘라서 벡터로 계산하는 방식이다. 예를들어, where를 Trigram의 characters로 표현하면 <‘wh’, ‘whe’, ‘her’, ‘ere’, ‘re’>로 FastText는 표현된다. 최종적으로 각 단어는 임베딩된 n-gram의 합으로 표현되고, 빠르고 좋은 성능을 나타내었다.

이러한 FastText는 Word2vec과 동일한 데이터 양을 사용하더라도 더 많은 정보를 학습하기 때문에, Word2vec에 비해 높은 성능을 낼 수 있다. 또한, 기존의 Word2vec의 한계점으로 여겨진 OOV(Out of Vocabulary)에 대한 임베딩까지 가능하게 해 준다. 예를 들어, 데이터 학습 시 ‘subsequent’라는 단어의 경우, FastText를 사용할 경우 ‘sub’와 ‘sequent’라는 n-gram을 학습하였다면, 두 단어의 임베딩 벡터 조합으로 임베딩 벡터를 생성할 수 있기 때문에 문장에서 자주 등장하지 않는 단어를 파악할 수 있고 Word2vec에 비해 보다 우수한 성능을 보이고 있다.

4) ELMo

ELMO(Embeddings from Language Model)는 2018년에 제안된 새로운 워드 임베딩 방법론으로 “언어 모델로 하는 임베딩”이라 해석된다. ELMO의 특징은 사전 훈련된 언어 모델(Pre-trained Language Model)을 사용한다는 점이다. 또한, 다른 특징은 양방향 언어 모델(Bi-directional Language Model: BiLM)을 적용하여 문맥을 반영한 워드 임베딩 기법이다. 예를 들어, Bank라는 단어를 학습할 때. ‘은행계좌’라는 Bank Account와 ‘강둑’이라는 River Bank에서 ‘Bank’는 다른 의미를 가지는데, Word2Vec에서는 이를 제대로 반영하지 못한다는 단점이 있다. Word2Vec은 Bank란 단어를 임베딩하면, Bank Account와 River Bank에서의 Bank는 전혀 다른 의미이지만 두 가지 상황 모두에서 같은 벡터가 사용된다는 한계점이 있다. 이러한 한계점을 ELMO는 BiLM의 사전훈련으로 극복할 수 있다. 또한, 이 특징은 NLP에서 Transfer Learning이 확산되는 계기가 되어 지금의 BERT가 출현하게 되었다.

문장 수준 임베딩; 문맥 기반 임베딩

단어 수준 임베딩은 순서 정보를 담고 있는 시퀀스 데이터를 다루기에 적합하지 않았다. 자연어는 단어/문장의 순서 및 단어/문장 간 상호 정보를 고려해야 하는 시퀀스 데이터이므로 순서 정보를 사용하는 시퀀셜 모델링(sequential modelling) 이 고안되었다. 이는 문장 수준 임베딩, 문맥 기반(context-based) 임베딩 모델이라고도 불린다. 문장 수준 임베딩은 ElMo가 등장한 이후 주목받기 시작다.

문장 수준 임베딩 기법을 통해 단어의 시퀀스 정보를 함축하고, 동음이의어를 문맥에 따라 분리하는 것이 좀더 용이해지고 자연어 처리의 성능이 더욱 향상되었다. 문장 수준 임베딩 방법으로 처리할 수 있는 과제의 일례로는 기계 번역, 감성 분석(sentiment analysis) 등이 있다.

1) 순환 신경망 (RNN; Recurrent Neural Network)

대표적으로 순환 신경망 (RNN) 아키텍쳐가 시퀀셜 모델링에 활용된다. 기존 신경망(NN; Neural Network)과 순환 신경망(RNN; Recurrent Neural Network)의 차이는 다음과 같다. 기존 신경망 구조는 정해진 입력 X를 받아 Y를 출력하는 구조였다.

하지만 RNN은 입력 X와 직전의 은닉상태(hidden state)를 참조하여 현재의 상태를 결정하는 작업을 재귀적으로 여러 time-step에 걸쳐 수행한다. RNN은 기존 신경망과 달리 이전 time-step의 자기 자신을 참조하여 현재의 상태를 결정하기 때문에 각 단계마다 네트워크 가중치 파라미터가 공유되었다. 각 time-step별 은닉상태는 출력 값이 될 수 있다. RNN을 하나의 은닉층이라고 보고 RNN 층이 사용된 모형을 RNN 모형이라고 하기도 한다.

RNN 기반 모형에는 seq2seq이 있다. seq2seq는 인코더-디코더(-생성자) 구조를 하고 있으며, 앞서 배치된 RNN이 인코더 역할을 하고, 그 다음 RNN이 디코더 역할을 한다.

Seq2seq 알고리즘, Sutskever et al. (2014)에서 재인용 *ABC는 입력된 문장, WXYZ는 출력된 문장

그러나 RNN 방식은 time-step이 길어지면 기울기 소실 등의 문제가 잘 발생하고, 은닉 상태를 통해 과거의 정보를 저장할 때 문장의 길이가 길어지면 앞의 과거 정보가 마지막 시점까지 전달되지 못하는 문제가 있었다. 이러한 문제를 장기 의존성 문제(long-term dependency)라고도 부른다. 이에 RNN은 긴 시퀀스 데이터를 효과적으로 처리하지 못하는 한계가 있었다.

2) LSTM (Long Short-Term Memory)

장기 의존성 문제에 대처하기 위해 기존 RNN 모형을 일부 수정한 LSTM이 고안되었다. LSTM은 은닉상태 외에 셀 스테이트(cell state)라는 변수를 추가로 이용했다. 그리고 여러 게이트를 열고 닫아 정보의 흐름을 조절하여 데이터를 더 오래 기억하고 더 긴 길이의 데이터도 좀 더 효과적으로 처리할 수 있게 하였다.

그러나 파라미터가 많아진 만큼 LSTM의 구조는 더 복잡해졌고, 훈련시간이 증가했다. 그리고 LSTM도 문장의 길이가 길어질수록 장기 의존성 문제(long-term dependency)가 나타나는 한계를 여전히 가지고 있었다. LSTM과 유사한 구조의 모델로 GRU(Gated Recurrent Unit)이 있다.

3) Transformer

RNN, LSTM, GRU 네트워크의 장기 의존성 문제를 극복하기 위해 Transformer라는 딥러닝 아키텍처가 고안되었다. Transformer는 현재 자연어 처리 과제에서 가장 최신 기술로서 사용된다. Transformer가 등장한 뒤로 자연어 처리 분야에서 응용되던 RNN, LSTM 네트워크 등은 Transformer로 빠르게 대체되었다. Transformer 네트워크를 적용한 자연어 처리 모델에는 최근 자연어 처리 성능을 크게 향상시킨 BERT(Bidirectional Encoder Representations from Transformers) GPT (Generative Pre-trained Transformer), T5 등이 포함된다.

Transformer는 2017년 Google에서 제안한 Attention 기반의 인코더-디코더 모형 알고리즘이다. RNN 네트워크에서 사용한 순환 방식을 사용하지 않고 Attention방법을 사용한다.

Attention은 RNN 기반 모델이 갖는 장기 의존성 문제을 보완하기 위해 고안되었다. RNN기반 모델, seq2seq의 주요한 문제점은 입력된 시퀀스 데이터에 대해 마지막 은닉상태(hidden state)만을 디코더에 전달한다는 점이었다. 이 때문에 입력된 모든 단어의 정보가 디코더에 제대로 전달되지 못하고, 입력된 단어가 많을수록 앞쪽에서 입력된 단어는 거의 전달이 되지 않았다.

하지만 Attention 기법은 각 단어에 대한 은닉상태 정보를 모두 디코더로 전달한다. 이전 단어들의 정보를 기반으로 다음 단어를 예측하는데, 예측하고자 하는 단어와 관련이 높은 단어에 더 많은 주의(attention)를 기울여 가중치를 부여한다고 하여 Attention 기법이라는 이름이 붙게 되었다.

Transformer모델은 N개의 인코더가 쌓인 형태를 한다. 가장 마지막에 있는 인코더의 결과값이 디코더에 전달된다. Attention 기법을 소개한 Vaswani et al. 2017 논문에서 인코더는 N=6개였지만, N은 다양한 값으로 지정할 수 있다.

Attention 기반 Transformer의 인코더-디코더 구조, Vaswani et al. (2017)에서 재인용

자연어 처리 활용 분야

음성 인식
내용 요약
자동 번역
감성 분석
텍스트 분류 → 스팸 메일 분류, 뉴스 기사 카테고리 분
질의 응답 시스템
대화형 사용자 인터페이스(CUI, Conversational User Interact) → 챗봇
텍스트 예측 → 검색
맞춤법 검사
문자 인식 → OCR

XAI

XAI 기술 요약

XAI(eXplainable AI)은 인간이 인공지능의 작용과정을 훨씬 더 쉽게 이해할 수 있도록 설명 능력을 부여한 인공지능을 말한다. XAI는 모델에 대한 불확실성을 해소하여 신뢰성을 높일 수 있다.

XAI 상세 설명

XAI 기술의 분류

a. Complexity

첫번째 기준은 Complexity로, Intrinsic과 Post-hoc의 관점으로 나뉜다. Intrinsic의 경우 모델에 해석 가능한 구조가 내재된 것으로 의사결정나무가 대표적 예이다. 하지만 모델의 복잡성과 해석력은 trade-off를 가지므로 Intrinsic 모델의 경우 정확도가 낮다는 단점이 있다. Post-hoc의 경우 모델이 만들어지고 난 이후에 설명하는 방식으로 기계학습 및 딥러닝 분야에서 쓰이는 해석 가능한 기법이다. 특히 최근 각광받는 신경망 알고리즘은 대량의 데이터로 학습이 가능하지만 동작원리와 학습과정을 명확히 설명하기가 어려워 Post-hoc 방법이 사용된다.

b. Scope 두번째 기준은 Scope로, Global과 Local의 관점으로 나뉜다. Global은 모든 예측 결과에 대해 항상 설명력을 가지며 Intrinsic model이 이에 해당한다. Post-hoc model의 경우 Global로 구현하기는 현실적 어려움이 존재한다. 반면 Local의 경우 일부 예측 결과만 설명이 가능하고 설명할 범위가 적어서 비교적 실현성있고 비용이 적게 든다.

c. Dependency 세번째 기준은 Dependency로 Model-specific과 Model-agnostic으로 나뉜다. Model-specific은 특정 모델에만 적용이 가능하며 Intrinsic model이 이에 해당한다. Model-agnostic은 모델에 상관없이 적용가능하며 Post-hoc model이 이에 해당하며 PDP, ICE, LIME, SHAP 등 현재 인기있는 XAI 기법 역시 Model-agnostic model이다.

대표적인 Model-agnostic XAI 모델

a. LIME(Local Interpretable Model-agnostic Explanations)

LIME은 특정 예측값 근처에서 지역적 해석력을 도출하는 기법으로, 원본모델 학습에 사용된 원본 데이터를 근사하게 변형하여 학습했을 때 어떤 현상이 발생하는지 조사하고 해당 모델의 특정 예측 결과를 설명하며 원본모델이 특정 예측이 이르게 된 이유를 이해하는데 도움을 준다. LIME은 사람이 쉽게 이해할 수 있도록 간단한 구조를 갖고 해석이 가능한 surrogate model을 사용하며 input으로는 사람이 이해하기 쉬운 상위개념을 만들어서 surrogate model을 학습시킨다. input을 조금 바꿨을 때 모델의 예측력이 크게 바뀌면 그 변수는 중요한 변수로 판단하고 이를 위해 입력변수에 약간의 변화를 부여하며 탐색한다.

하지만 특정 원본 데이터의 변형 데이터 생성 시 변수 간 상관관계를 고려하지 않고, 샘플링이 어떻게 되느냐에 따라 설명이 크게 달라지는 단점이 있다. LIME은 신용점수 산출, 카드부정사용 판별 등 개별 예측에서 feature 기여도를 이해하는데 활용된다.

b. SHAP(SHapley Additive exPlanations) SHAP는 게임이론에서 사용되는 Shapley Value와 LIME을 결합한 방법론이다. 이때 Shapley Value는 예측 결과를 산출하는 데 각 feature가 얼마나 공헌했는지를 게임이론에서 각 플레이어의 기여도를 산출하는 기법을 응용하여 계산한다. Shapley Value는 한 변수에 대한 중요도를 알기 위해 여러 변수들의 조합을 구성한 다음, 해당 변수의 유무에 따른 평균적인 변화를 통해 구한다. 이로써 단순히 개별 feature의 유무에 따른 영향도가 아니라 다른 feature와의 관계까지 고려하고 있는 것이 이 방법의 장점이다.

DeepSHAP 적용예시

딥러닝 모델에 쓰이는 SHAP방법인 DeepSHAP 활용예시로 dowitcher을 예측할 때는 부리의 SHAP value가 가장 높고, 미어캣의 경우 눈이 높아 각 feature가 기여도가 높음을 알 수 있다. 하지만 feature 개수가 늘어날수록 Shapley Value를 계산하기 어려워지는 한계가 있으며 이를 극복하기 위해서 원래 모델의 conditional expectation의 Shapley value를 계산한다. SHAP는 질병발생 여부, 고객이탈 원인 등 비교적 시급성이 덜한 예측에서 feature의 영향을 확인하는데 활용된다.

XAI 기술의 적용범위와 한계

XAI기술은 법적, 윤리적 이슈가 발생할 소지가 있는 중요 작업에 활용된다. 범죄위험성판단, 인사평가, 군사작전, 의료 등의 분야에서는 의사결정이 중대한 영향을 미치는 만큼 아직 AI가 적용되지 못했다. 하지만 XAI가 의사결정과정을 설명할 수 있다면 앞서 말한 분야에도 AI 모델이 활용될 수 있을 것으로 보인다.

그럼에도 XAI가 가지고 있는 한계점은 존재한다. XAI가 설명을 진행하는 만큼, 과연 그 설명이 얼마나 ‘좋은 설명’인지 평가하는 것은 어려운 문제이다. 설명의 품질을 평가하는 것은 주관적이므로 아직 정성적인 평가기준만 존재하고 정량적인 기준은 존재하지 않으며 XAI의 성능 평가에 대한 많은 연구 역시 이루어지지 못하고 있다.

작성자: 구본승 (24), 박채연 (24), 김연우 (25)