본문 바로가기

인공지능(AI)

머신러닝 라이프 사이클 (2)

반응형

머신 러닝 개발 라이프사이클의 5단계 중 앞선 두 단계인 계획과 데이터 준비에 대해 알아보겠습니다.

 

계획(Planning)

 모든 모델 개발 시작은 해결하고자 하는 문제를 정의함으로써 세부 계획으로 시작해야 합니다. 모델 구축은 리소스 집약적인 프로세스이기 때문에, 더 쉬운 방법으로 해결할 수 있는 문제에 대해 시간과 비용을 들이는 것이 비효율적입니다.

 

 우선 고객 전환율이 낮거나 부정행위가 많다는 등 해결하고자 하는 문제를 명확하게 정의하는 것이 첫 번째 단계입니다. 다음으로는 문제를 해결함으로써 달성하고자 하는 목표를 정하는 것입니다. 예를 들어, 가능한 목표에는 고객 전환율을 개선하거나 부정행위의 양을 줄이는 것이 포함될 수 있습니다. 마지막으로, 성공을 확인하기 위한 측정 기준을 설정합니다. 성공적인 것으로 간주되는 예측의 정확도는 일반적으로 70%일 때, 큰 성과로 간주되긴 하지만, 70%와 90% 사이의 정확도가 나왔을 때 이상적이라고 생각됩니다.

 

데이터 준비(Data preparation)

 두 번째 단계에서는 데이터를 수집하고 가공하는 데 중점을 둡니다. 아마도 많은 양의 데이터를 처리하게 될 것이므로 모델 구축을 시작하려면 정확하고 관련성이 있는지 확인해야 합니다. 데이터 준비 단계는 다음과 같이 크게 3단계로 나뉩니다.

 

데이터 수집 및 라벨링(Data Collection and Labeling)

 대량의 데이터를 수집하는 데는 비용과 시간이 많이 소요되므로, 이미 사용 가능한 데이터를 얻을 수 있는지 확인하는 것이 우선시되어야 합니다. 여러 원본에서 데이터를 찾은 경우에는 이를 단일 테이블로 병합하고, 또한 설문조사, 인터뷰 및 관찰과 같은 여러 채널을 통해 직접 데이터를 수집할 수도 있습니다.

 데이터 라벨링은 이미지, 비디오 또는 텍스트와 같은 원시 데이터에 고유한 레이블을 추가하는 것을 말합니다. 나중에 더 쉽게 식별할 수 있도록 데이터를 분류하고 특정 클래스로 분리하는 데 도움이 됩니다.

 

데이터 정리(Data Cleaning)

 데이터 세트가 클수록 데이터를 더 철저히 정리해야 합니다. 이는 일반적으로 모든 대규모 데이터 세트에 여러 개의 결측값 또는 관련 없는 정보가 포함되기 때문입니다. 모델을 구축하기 전에 이러한 요소를 제거하면 최종 모델의 정확도를 높이고 오류 및 편향 가능성을 줄이는 데 도움이 됩니다.

 

탐색적 데이터 분석(EDA: Exploratory Data Analysis)

 모델 구축을 시작하기 전에 마지막으로 중요한 단계는 데이터 탐색을 수행하는 것입니다. 이 접근 방식은 데이터를 분석하고 요약을 제공하며, 일반적으로 시각 자료를 사용합니다. 데이터 탐색은 일반적인 패턴을 살짝 볼 수 있게 해 주며, 데이터 과학자들이 모델링하기 전에 데이터 세트를 더 잘 이해할 수 있도록 도와줍니다.

반응형