분류 전체보기124 [Data Science] 결측 데이터 처리 방법 결측치가 있으면 모델 성능에 안좋은 영향을 줄 수 있다는 것, 다들 아시죠?그렇다면 당연히 이 결측치를 그대로 둘 수 없는데요,데이터를 다루는 우리는 이러한 결측치들을 상황에 맞게 잘 처리할 수 있어야 할 것입니다. 이번 포스팅에서는 결측 데이터를 처리하는 방법에 대해 알아보겠습니다.캐글의 학생 성적 예측 데이터셋을 이용해서 실제 코드와 함께 결측치 처리 실습도 진행해보겠습니다.결측 데이터 처리 방법결측치 처리 방법은 수치형 변수일 때와 범주형 변수일 때 다른데요, 각각의 방식은 아래와 같습니다.방법수치형 변수범주형 변수삭제행 또는 열 삭제 → 유효한 데이터가 삭제될 위험 존재단순대체평균, 중앙값, 최빈값최빈값고급대체KNN, 회귀모델KNN(하기 전 범주를 라벨인코딩으로 수치화)보간선형 보간법(inter.. 2024. 12. 6. [Data Science] 이상치(Outlier) 탐지 방법 데이터를 분석하다보면 가끔 정상적인 범위에서 많이 벗어난 이상치를 발견하게 됩니다.그런 데이터들은 분석 결과를 왜곡시킬 수 있기 때문에 반드시 처리를 해줘야 하는데요,문제는 사람이 모든 데이터를 일일이 살펴보면서 이상치를 걸러낼 수 없다는 것이죠.. 그렇기에 데이터를 다루는 사람이라면 반드시 이상치 탐지 방법을 알고 있어야 합니다. 여기에는 어떤 것들이 있으며, 어떤 방식으로 이상치를 찾아내는지 한번 살펴보죠!Z-Score데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준 편차를 이용해 이상치를 탐지하는 방법 Z-Score는 해당 데이터가 평균으로부터 얼마나 표준편차 만큼 벗어나 있는지를 의미주로 Z-Score에서 3보다 크고 -3보다 작은 값을 이상치로 판별IQR(Interquartile Range).. 2024. 12. 5. [Data Science] 크롤링 라이브러리 (파이썬) 데이터 수집을 할 때 사용하는 기법 중 대표적인 것으로 "크롤링"이 있죠!그리고 이 크롤링은 일반적으로 파이썬으로 수행하게 되는데요,이는 파이썬에 크롤링을 돕는 라이브러리들이 잘 구축되어 있기 때문입니다! 그렇다면 파이썬의 크롤링 라이브러리에는 어떤 것들이 있고, 어떤 역할을 하는지 살펴보겠습니다!📌 크롤링 라이브러리라이브러리설명Requests- 정적 수집도구- 단순한 형태의 문법, 인코딩 확인, 헤더 파악, 텍스트 전환이 용이하고, 딕셔너리 형태로 데이터 전송Urllib- 정적 수집도구- 데이터를 바이너리 형태로 인코딩하여 데이터 전송Selenium- 동적 수집도구- 웹 브라우저 드라이버 설치 필요, 동적인 여러가지 상호작용으로 데이터 수집BeautifulSoup- 본문 파싱을 위한 도구- HTML .. 2024. 12. 5. [Data Science] 데이터의 편향 완화 전략 : 데이터 균형화 (오버샘플링 & 언더샘플링) 일반적으로 우리는 데이터를 수집해야하는 상황보다 다른 기관에서 데이터를 받아 분석하는 경우가 더 많습니다.그러나 그렇게 받은 데이터에 클래스 불균형이 존재한다면? 편향이 발생하게 되겠죠.. 그래서 우리는 이러한 클래스 불균형을 해소할 수 있는 방법을 알고 있어야합니다.대표적으로는 이렇게 두 가지가 있습니다.오버 샘플링언더 샘플링많이 들어보셨죠?이것들이 각각 어떤 것인지, 단점은 무엇인지 알아보고,각 샘플링에는 대표적으로 어떤 방법들이 있는지 한번 알아보도록 하죠!📌 오버 샘플링 오버 샘플링이란, 소수 클래스의 데이터를 늘리는 것을 말합니다.데이터가 상대적으로 적은 클래스를 증폭시켜 클래스 불균형을 해소할 수 있지만,노이즈가 증폭될 가능성이 있다는 단점이 있습니다. 이제 대표적인 오버 샘플링 방법들을 살.. 2024. 12. 5. [Data Science] 데이터의 품질 측정 고품질의 데이터는 모델의 성능을 향상시키는데 큰 역할을 합니다.그렇다면 데이터가 고품질인지, 저품질인지는 어떻게 판단할까요?바로 데이터 품질 측정을 통해 판단할 수 있습니다! 데이터 품질 측정이 어떤 기준으로 이뤄지며, 어떻게 수행되는지 한 번 살펴보도록 하죠!데이터 품질 측정 기준품질 측정 기준은 품질 관리 정책, 목적, 방향에 따라 달라질 수 있습니다.특히, 비정형 데이터의 경우 데이터의 유형에 따라 기준이 달라지겠죠!품질 측정 및 품질 지수 산출품질 측정 기준별로 점수를 매긴 뒤, 기준별 중요도에 따라 품질 지수를 계산측정 기준별로 품질이 낮은 데이터를 빠르게 파악할 수 있고 대응할 수 있음데이터 품질의 기준을 명확히 세울 수 있음※ 계산 예시이 결과를 통해 품질 지수를 90점 이상으로 올리기 위해.. 2024. 12. 5. [AI] Model-Centric AI & Data-Centric AI AI를 공부하다보면, Model-Centric AI, Data-Centric AI라는 용어를 접할 수 있습니다.한글로 풀어보면 모델 중심 AI, 데이터 중심 AI인데요, 잘 와닿지 않죠.어떤 의미인지 한번 알아봅시다!Model-Centric AI와 Data-Centric Ai 차이점 Model-Centric AI는 쉽게 말해 코드를 건드려서 성능을 향상시키는 것을 의미합니다.ex) 모델 레이어를 더 많이 쌓기, 하이퍼파라미터 최적화 등Data-Centric AI는 말 그대로 데이터를 잘 넣어서 성능을 향상시키는 것을 의미합니다.ex) 고품질의 데이터를 넣기, 더 많은 양의 데이터를 넣기 등 최근에는 Data-Centric AI 쪽 방향으로 많은 연구가 진행되고 있다고 하네요!Model-Centric AI.. 2024. 12. 5. [정보처리기사] 2과목 소프트웨어 개발 - 데이터 입출력 구현 📌 논리 데이터 저장소 확인자료구조(Data Structure)자료구조란, 데이터를 효율적으로 저장하기 위한 방법론을 말합니다.최적의 성능을 보장하기 위해 고안된 것이죠! 자료구조는 크게 아래 2가지로 분류할 수 있습니다.선형 구조 : 리스트, 스택(Stack), 큐(Queue), 데크(Deque)비선형 구조 : 트리, 그래프그럼 각 데이터 구조에 대해 한번 살펴볼까요? 리스트데이터를 순차적으로 저장하는 데이터 구조선형 리스트 : 메모리의 연속된 공간에 데이터를 순서대로 저장연결 리스트 : 각 요소가 데이터와 다음 요소에 대한 포인터를 포함해 저장스택(Stack)입출력이 한쪽 끝으로만 제한된 순서가 있는 리스트push, pop 연산으로 데이터를 넣고 꺼냄Last In First Out (LIFO)더 이.. 2024. 12. 3. [정보처리기사] 1과목 소프트웨어 설계 - 인터페이스 설계 📌 인터페이스 요구사항 확인인터페이스인터페이스란, 서로 다른 시스템, 장치를 연결하거나 통신하게 해주는 매개체를 뜻합니다.우리가 흔히 알고 있는 인터페이스를 살펴봅시다!사용자 인터페이스(User Interface): 사람과 사물 간에 의사소통을 할 수 있도록 하는 매개체ex) 스마트폰을 사용할 때, 화면을 터치하고 결과를 받는 것응용 프로그래밍 인터페이스(API): 시스템 간에 데이터 교환을 가능하게 하는 것요구사항 개발 프로세스도출(Elicitation) -> 분석(Analysis) -> 명세(Specification) -> 확인 및 검증(Validation) 1) 요구사항 도출고객의 추상적인 요구사항을 식별하고 수집 방법을 결정하는 단계2) 요구사항 분석추출된 요구사항을 분석하여 완전성과 일관성을 .. 2024. 11. 30. 이전 1 2 3 4 5 6 ··· 16 다음