본문 바로가기

인공지능(AI)

통계 기반 기계 학습 - 비지도 학습

반응형

통계 기반 기계 학습 - 비지도 학습

  • 비지도학습에 속하는 분석 기법은 빅데이터 분석에 사용하는 기법

빅데이터

  • '커질 데이터'를 의미
  • 시간의 흐름에 따라 데이터가 지속적으로 생성
  • 생성되는 데이터의 크기가 무한정 커짐
  • 장비마다 생성되는 데이터의 모양이 다양함
  • 생성된 데이터가 잘못되거나 부정확한 정보를 포함하고 있는 경우 많음
  • 데이터의 모양을 통일시키고, 부정확한 정보를 보와하는 데이터 전처리 과정이 중요
  • 시간의 흐름을 고려한 분석 기법인 시계열 분석 중요

6-1 군집 분석(Cluster Analysis)

  • 데이터를 구성하는 각 개체의 유사성을 측정해 상호 유사성이 높은 대상을 집단으로 분류하고, 군집에 속한 개체의 유사성과 서로 다른 군집에 속한 개체간의 상이성을 파악하는 분석 방법
  • 군집 내의 객체는 동질적인 특성, 다른 군집은 서로 이질적인 특성을 갖도록 분류

군집 분석 방법

  • 분할적 군집: 특정 점을 기준으로 가까운 것끼리 묶는 것
    • K-평균 군집법(K-Means Clustering)
    • K-Medoids 군집법(중앙 객체 군집법, K-Medoids Clustering)
    • 계층적 군집법(Hierarchical Clustering)
  • 계층적 군집: 트리 구조처럼 분리하는 것
    • 밀도 기반 군집법(Density - based Clustering)

K - 평균 군집법

  • k개의 평균(Mean)을 찾는 것
  • 각 군집(클러스터)은 평균값으로 대표되므로 N개의 점이 주어진 경우, k개의 군집으로 나눠 주는 방식
  • 주어진 데이터를 몇 개의 군집으로 나눌 것인지를 정한 후에 분석을 수행

K - Medoids 군집법(줒앙 객체 군집법)

  • 실제 점 하나를 중심으로 잡아 계산을 수행
  • PAM(Partitioning Around Mediods) 알고리즘 사용

계층적 군집법(Hierarchical Clustering)

  • 주어진 데이터를 순차적으로 가까운 값들끼리 묶어 주는 병합(Agglomeration)방법
  • 관측값을 나눠 주는 분할(Division)방법
  • 주로 병합 방법 사용

밀도 기반 군집법(Density-based Clustering)

  • 특정 기준에 따라 많이 모여 있는 것을 군집으로 파악하는 방법

 

6-2 차원 축소 기법(Dimensionality Reduction Method)

  • 분석 대상이 되는 변수의 개수를 줄이는 과정
  • 특징 선택(Feature Selection): 특징의 부분 집합을 선택해 간결한 특징 집합을 만드는 것으로, 원본 데이터에서 불필요한 특징을 제거하는 방식
  • 특징 추출(Feature Extraction): 원데이터의 특징을 조합해 새로운 특징을 생성하는 것

차원 축소 기법의 종류

  • 주성분 분석(Principal Component Analysis)
  • 인자 분석(Factor Analysis)
  • 다차원 척도법(Multidimentinal Scaling)
  • 독립 성분 분석(Independent Component Analysis)

주성분 분석

  • 많은 변수로 구성된 데이터에 주성분이라는 새로운 변수를 생성함으로써 기존 변수보다 차원을 축소해 분석을 수행하는 방법
  • 완전 공선성(Perfect Collinearity): 독립변수 간에 정확한 선형 관계가 존재하는 경우
  • 다중 공선성(Multicollinearity): 독립변수 간에 높은 선형 관계가 존재하는 경우

인자 분석

  • 여러 개의 서로 관련 있는 변수로 구성된 데이터에서 이 변수를 설명할 수 있는 새로운 공통 변수를 파악하는 통계적 분석 방법

인자 분석과 주성분 분석의 차이

  • 공통점: 새로운 변수를 생성하는 것
  • 차이점: 주성분 분석은 각 변수가 붕요, 인자 분석은 각 변수가 기본적으로 대등한 관계

인자 분석의 추정 종류 및 차이점

  • 주성분 인자법(Principle Factor Method): 관측값의 분산, 공분산 행렬 또는 상관 계수 행렬의 고유 근고 고유 벡터를 이용해 인자 부하값과 특수 분산의 추정하는 방법
  • 최우 추정법(Maximum Likelihood Method): 관측값이 다변량 정규분포를 따른다는 가정을 기반으로 추정

인자의 수와 유의성 판단 기준

  • 인자 분석에서 인자는 상관 계수 행렬 R의 고유값이 1 이상인 경우에 채택
  • 요인 부하값 > 0.3: 유의함
  • 요인 부하값 > 0.4: 좀 더 유의함
  • 요인 부하값 > 0.5: 아주 유의함

인자 회전

  • 직교 회전(Orthogonal Rotation)
  • 사각 회전(Oblique Rotation)

독립 성분 분석

  • 섞여 있는 데이터에서 특정 데이터를 뽑아 내는 기법

다차원 척도법

  • 여러 대상이 지니고 있는 특징 간의 고나계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법
  • 주어진 데이터를 바탕으로 수행하는 다른 관점의 군집 분석

다차원 척도법의 분석 과정

  • 1) 자료 수집 과정: 여러 개의 개체를 대상으로 복수의 특성을 측정
  • 2) 유사성, 비유사성 측정: 특성을 수치화해 개체 사이의 거리를 측정
  • 3) 공간상에 개체 표현: 공간상에 개체 간의 거리를 표현
  • 4) 최적 표현의 결정: 현재 개체의 상호 위치에 따른 관계가 개체들 사이의 비유사성에 어느 정도 적합한 것인지 결정

다차원 척도법의 종류

  • 계량적 다차원 척도법(Classical MDS): 숫자 데이터로만 구성
  • 비계량적 다차원 척도법(Nonmetric MDS): 숫자가 아닌 데이터를 포함

 

6-3 연관 규칙 분석

연관 규칙 분석의 개념

  • 빅데이터를 포함한 대용량 데이터베이스에서 변수 간의 관계를 탐색하기 위한 방법
  • 마케팅, 웹 마이닝 등에서 사용
  • 장비구니 분석(Market Basket Analysis)이라고도 함

순차 패턴 분석의 개념과 분석 방법

  • 연관 규칙 분석과 순차 패턴 분석
    • 공통점: If A than B 형식의 데이터에 숨겨진 규칙을 찾는 것
    • 차이점: 순차 패턴 분석은 시간, 순서에 따른 사건의 규칙을 찾는 것이므로 분석하고자 하는 데이터에 식별정보, 시간 변수가 필요, 연관규칙 분석은 동시에 발생한 사건 또는 시간을 고려하지 않은 사건에 대한 연관 관계를 분석하는 것

 

 

 

 

※ 해당 내용은 <인공지능 바이블>의 내용을 토대로 학습하며 정리한 내용입니다.

반응형

'인공지능(AI)' 카테고리의 다른 글

강화 학습 (2)  (0) 2023.05.28
강화 학습 (1)  (0) 2023.05.27
통계 기반 기계 학습 - 지도학습  (0) 2023.05.25
몬테카를로 알고리즘(Monte-Carlo Algorithm)  (0) 2023.05.24
마르코프 연쇄  (0) 2023.05.23