본문 바로가기

빅데이터3

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 8. 회귀분석을 이용한 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 선형모형의 특성과 상관분석 데이터의 상관관계 데이터 탐색: 변수 간 관계 변수 간 상관관계 여부 상관관계 형태 산점도 scatter plot 평면좌표에 표시한 도표로 시각적으로 두 변수의 관계를 쉽게 알 수 있게 해줌 변수간 관계의 방향, 형태, 관계의 강도를 알 수 있음 상관계수(Pearson’s) 상관계수(correlation coefficient) 두 변수 간 선형관계의 강도를 나타내주는 척도 상관계수(r) 절댓값은 0-1 사이 0에 가까울수록 상관관계가 없음 1에 가까울수록 강한 상관성이 있음 요.. 2023. 6. 27.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 탐색과 정제 데이터 탐색 Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등 Variation: 변동성, 시계열 Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음) Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가? → 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다. 2. 빅데이터의 차원축소 차원축소기법은.. 2023. 6. 27.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 수집- random의 의미 데이터 수집 데이터 수집에서는 양질의 데이터(대표성, 랜덤)를 확보하는 것이 중요 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음 많이 있다고 해서 무조건 좋은 것은 아님 예제 : 스마트공정 분석용 데이터와 현장 데이터의 차이 측정 혹은 조업조건 차이 측정의 재현성 : 반복측정의 편차 표본추출 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것 전수조사 vs 표본조사 전수조사: 연구대상집단의 모든 데이터 .. 2023. 6. 26.