본문 바로가기

전체 글25

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 탐색과 정제 데이터 탐색 Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등 Variation: 변동성, 시계열 Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음) Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가? → 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다. 2. 빅데이터의 차원축소 차원축소기법은.. 2023. 6. 27.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 수집- random의 의미 데이터 수집 데이터 수집에서는 양질의 데이터(대표성, 랜덤)를 확보하는 것이 중요 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음 많이 있다고 해서 무조건 좋은 것은 아님 예제 : 스마트공정 분석용 데이터와 현장 데이터의 차이 측정 혹은 조업조건 차이 측정의 재현성 : 반복측정의 편차 표본추출 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것 전수조사 vs 표본조사 전수조사: 연구대상집단의 모든 데이터 .. 2023. 6. 26.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2을 수강하고 정리한 내용입니다. 1. 신뢰구간의 의미 신뢰구간 여론조사 : 신뢰수준 95%에서 오차범위 3.1% 신뢰구간: 구간추정 실제 모수가 존재할 가능성이 높은 구간으로 추정 모평균, 모비율 등 모수를 포함할 확률 신뢰수준(Confidence level): 구간에 모수 μ가 포함될 확률 일반적으로 100(1-α)%로 나타냄 95% 신뢰구간의 의미 100번의 반복샘플링으로 얻은 평균과 편차로 계산한 100개의 신뢰구간 중, 5개는 실제 모평균(μ)을 포함하고 있지 않는다. 표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 .. 2023. 6. 26.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다. 1. 확률의 기초개념 통계에 확률 개념이 필요한 이유 통계 ≠ 확률 통계(Statistics) 데이터를 수집, 처리, 분석, 활용하는 지식 실제 얻어진 데이터를 바탕으로 정보 도출 확률(Probabilities) 특정 사건이 일어날 가능성을 0과 1 사이 값으로 나타낸 것 관측 전에 가능성을 논하는 것 현실 세계는 매우 랜덤하여 미리 결과를 알 수 없음 단기적으로 어떤 사건이 일어날 비율은 매우 랜덤함 단, 장기적으로 어떤 사건이 일어날 가능성은 확률적으로 예측 가능 → 사건 하나하나에 대해서 미리 아는 것은.. 2023. 6. 13.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 1. 데이터 시각화 데이터 분석단계 수집 → 정제 → 시각화 → 예측모형/분석 데이터 시각화 종류 인포그래픽 히스토그램 상자그림 산점도 효과적인 데이터 시각화의 조건 어떤 메시지를 전달할 것인지 결정 What 핵심 내용을 제외한 나머지는 생략 What 최선의 표현 방법을 선택 How 단순, 명료하게 디자인 How 데이터를 토대로 어떤 의사결정을 해야 하는지에 대해 설명 Why → 데이터 분석에 대한 전문성이 없어도 누구나 데이터를 직관적으로 이해할 수 있어야 한다. → 효과적으로 인사이트 도출 2. 그래프의 유용성과 오류 그래프의 유용성 그래프는 데이터 시각화의 일종 그래프의 올바른 해석은 데이터사이언티스트의 필수 능력이자 커뮤니케이션 도구 히스토그램으로 보면, 같은 분산이라도 데이터 분포를 더 잘 파악.. 2023. 6. 13.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 2. 빅데이터 탐색의 첫걸음 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다. 1. 데이터의 평균(중심위치) 평균 평균은 데이터를 하나의 값으로 표현한 요약된 정보: 추정치 평균 = 데이터 값의 총합 / 데이터 개수 n개의 데이터의 평균 $$ \bar{x} = (x_1 + x_2 + ... + x_n)/n = \sum_{i=1}^{n}x_i/n $$ 평균 다룰 때 주의할 점 평균은 혼자 존재하는 개념이 아님 표본선정에 따라 평균값에 영향을 미친다. ex. 대기업 평균 연봉 조사 표본 A: 연령대별로 각 50명씩 선정 표본 B: 50대에서 200명을 선정 조사된 평균값이 모집단을 대표하는.. 2023. 6. 12.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 1. 데이터과학과 통계 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다. 1. 데이터과학이란 무엇인가 데이터과학이란? 빅데이터: 통계학, 데이터마이닝, 인공지능, 딥러닝 Data → Data Analytics → Insight 필요한 기술 통계적 개념과 지식: 샘플링, 확률분포, 가설검정, p-value 데이터 다루는 기술(데이터 큐레이션): 빅데이터 다루기 DB구축, 관리, 분석 데이터 요약된 정보 전달 기술: 데이터 시각화(공간지도분석, 다차원그래픽) 데이터윤리, 데이터보안 데이터 도메인(다양한 분야) 지식, 분석 능력: 현실 문제 해결 능력 데이터 과학 예시 미국의 인구 시각.. 2023. 6. 12.