본문 바로가기
Study/AI

[AI] Model-Centric AI & Data-Centric AI

by ngool 2024. 12. 5.

AI를 공부하다보면, Model-Centric AI, Data-Centric AI라는 용어를 접할 수 있습니다.

한글로 풀어보면 모델 중심 AI, 데이터 중심 AI인데요, 잘 와닿지 않죠.

어떤 의미인지 한번 알아봅시다!


Model-Centric AI와 Data-Centric Ai 차이점

 

Model-Centric AI는 쉽게 말해 코드를 건드려서 성능을 향상시키는 것을 의미합니다.
ex) 모델 레이어를 더 많이 쌓기, 하이퍼파라미터 최적화 등
Data-Centric AI는 말 그대로 데이터를 잘 넣어서 성능을 향상시키는 것을 의미합니다.
ex) 고품질의 데이터를 넣기, 더 많은 양의 데이터를 넣기 등

 

최근에는 Data-Centric AI 쪽 방향으로 많은 연구가 진행되고 있다고 하네요!


Model-Centric AI의 주요 목적과 한계

주요 목적

모델 설계 - 다양한 딥러닝 모델의 구조를 연구하고 새로운 아키텍처 개발
- 모델이 주어진 문제를 해결할 수 있도록 설계
Hyperparameter 최적화 - 학습 속도, Batch Size, Dropout 비율 등을 조절하여 성능 향상을 이끌어냄
모델 훈련 알고리즘 개선 - SGD, Adam 등의 최적화 알고리즘 개선 및 새로운 방법론 적용
성능 평가 및 튜닝 - 모델 성능 테스트 후 과적합 및 과소적합 방지를 위한 모델 수정

 

한계

  • 정교한 모델이라 하더라도 데이터의 품질이 떨어지면 결국 좋은 성능이 나오기 어려움
  • 투입한 시간과 노력에 비해 모델의 성능이 극적으로 향상되는 경우는 드묾

Data-Centric AI의 주요 목표


1) Training Data Development

→ 훈련 데이터는 모델 학습의 기초로, 고품질의 데이터를 구성하는 것이 중요

 

※ 종류

  • Data Collection : 새로운 데이터 구축 또는 기존 데이터셋 통합
  • Data Labeling : 수집한 데이터들에 라벨을 부여하여 학습 가능한 형태로 만듦
  • Data Preparation : 데이터 정제, 특징 추출, 표준화 및 정규화를 통해 학습 준비
  • Data Reduction : 특징 선택, 차원 축소 등을 통해 데이터의 크기와 복잡성감소
  • Data Augmentation : 데이터를 더 수집하지 않고 다양성을 높임

2) Inference Data Development

→  추론 데이터는 모델 성능 평가를 위한 테스트와 검증 데이터로 사용됨

 

※ 종류

  • In Distribution Evaluation : training 데이터와 같은 분포를 가진 데이터셋으로 모델 성능 평가
  • Out of Distribution Evaluation : training 데이터와 다른 분포를 가진 데이터셋으로 성능 평가

3) Data Maintenance

→  AI 시스템 운영 환경에서는 데이터가 지속적으로 변화되며, 데이터 유지 관리가 필수

 

※ 종류

  • Data Understanding : 데이터의 특성을 전반적으로 이해할 수 있는 알고리즘
  • Data Quality Assurance : 데이터의 퀄리티를 평가할 수 있는 Metric을 개발
  • Data Storage & Retrieval : 데이터를 효율적으로 저장하고 빠르게 검색할 수 있도록 관리

Model-Centric AI와 Data-Centric Ai는 상호 보완적

  • AI 시스템 개발에서 데이터와 모델 모두 최적화하는 것이 중요
  • 적은 양의 데이터를 활용할 수 있는 Model-Centric AI도 중요
  • Data-Centric AI의 중요도에 비해 연구가 부족한 상황
99%의 AI 연구는 Model-Centric AI이며
Data-Centric AI 기반읜 소수 1% 연구만이 성과를 내왔다.
- Andrew Ng -