본문 바로가기

데이터사이언스5

[포스코 청년 AI·Big Data] 선형대수 3. 기저와 차원 포스코 청년 AI·Big Data 아카데미 사전교육 중 장황수학의 선형대수 강의를 듣고 손으로 필기한 내용입니다. https://www.youtube.com/watch?v=oHobZ93WBLY&list=PLxMkK1K0XECOj2sZG-gCk-CjvZhJ_75I4&index=3 3. 기저와 차원 1. 표준기저(유일) $ \mathbb{R}^2 = \{ (1, 0), (0, 1)\}$ $ \mathbb{R}^3 = \{ (1, 0, 0), (0, 1, 0), (0, 0, 1)\}$ $ \mathbb{M}_(2*2) = \{e_1, e_2, e_3, e_4\} $ \begin{align*} e_1 &= \begin{pmatrix} 1 & 0 \\ 0 & 0 \end{pmatrix}, \\ e_2 &= \be.. 2023. 6. 29.
[포스코 청년 AI·Big Data] 선형대수 2. 일차종속 및 독립 포스코 청년 AI·Big Data 아카데미 사전교육 중 장황수학의 선형대수 강의를 듣고 손으로 필기한 내용입니다. https://www.youtube.com/watch?v=DOoOC9yi8j8&list=PLxMkK1K0XECOj2sZG-gCk-CjvZhJ_75I4&index=2 2. 일차종속 및 독립 1. 일차결합 벡터공간 V의 원소 \(v_1, v_2, ... , v_n\)에 대하여 \(a_1, a_2, ..., a_n\)이 임의의 실수일 때, \(a_1 v_1 + a_2 v_2 + ... + a_n v_n\)을 \(v_1, v_2, ... , v_n\)의 일차결합이라고 한다. 벡터공간 V의 부분집합 \(v_1, v_2, ... , v_n\)이 생성하는 벡터공간은 \(a_1 v_1 + a_2 v_2 +.. 2023. 6. 28.
[포스코 청년 AI·Big Data] 선형대수 1. 벡터와 부분공간 포스코 청년 AI·Big Data 아카데미 사전교육 중 장황수학의 선형대수 강의를 듣고 손으로 필기한 내용입니다. https://www.youtube.com/watch?v=u2HX_h1Y3Zo&list=PLxMkK1K0XECOj2sZG-gCk-CjvZhJ_75I4&index=1 1. 벡터공간과 부분공간 공간의 정의 : 집합 V의 임의의 원소 u, v와 임의의 스칼라 k에 대하여 아래 두 조건을 만족할 때 집합 set V를 space V라고 한다. \(1. u+v \in V \) \(2. ku \in V\) 벡터공간의 정의 : 공간 V의 임의의 원소 u, v, w와 임의의 스칼라 k, l에 대하여 다음 아래 8조건을 모두 만족할 때, 공간 V를 벡터공간 vector space V이라고 한다. \(u+v =.. 2023. 6. 28.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 7. 빅데이터 차원축소와 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 탐색과 정제 데이터 탐색 Basic Information: 분포, 평균, 최솟값, 최댓값, 분산 등 Variation: 변동성, 시계열 Outlier: 모든 데이터가 상식적인 범위 안에 존재하는가? → 이유를 찾아 분석에서 제외 (한 개의 데이터가 전체의 상관계수를 완전히 바꿀 수 있음) Correlation: 변수 간 상관성, 변수 간 상호작용이 있는가? → 데이터 탐색을 통해 데이터의 특성을 이해하고 적절하게 정제함으로써 정확한 예측모형을 만들 수 있다. 2. 빅데이터의 차원축소 차원축소기법은.. 2023. 6. 27.
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중 데이터사이언스를 위한 통계학입문2를 수강하고 정리한 내용입니다. 1. 데이터 수집- random의 의미 데이터 수집 데이터 수집에서는 양질의 데이터(대표성, 랜덤)를 확보하는 것이 중요 나쁜 데이터로는 나쁜 모델밖에 만들 수 없음 많이 있다고 해서 무조건 좋은 것은 아님 예제 : 스마트공정 분석용 데이터와 현장 데이터의 차이 측정 혹은 조업조건 차이 측정의 재현성 : 반복측정의 편차 표본추출 좋은 표본: 모집단의 특성을 가능한 정확하게 반영한 표본 표본추출에서 가장 중요한 문제는 대표성 있는 표본을 확보하는 것 전수조사 vs 표본조사 전수조사: 연구대상집단의 모든 데이터 .. 2023. 6. 26.