POSTECH의 MOOC (https://pabi.smartlearn.io/) 청년 AI, BigData 아카데미 온라인 기초과정 중
데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다.
1. 데이터과학이란 무엇인가
데이터과학이란?
- 빅데이터: 통계학, 데이터마이닝, 인공지능, 딥러닝
- Data → Data Analytics → Insight
- 필요한 기술
- 통계적 개념과 지식: 샘플링, 확률분포, 가설검정, p-value
- 데이터 다루는 기술(데이터 큐레이션): 빅데이터 다루기 DB구축, 관리, 분석
- 데이터 요약된 정보 전달 기술: 데이터 시각화(공간지도분석, 다차원그래픽)
- 데이터윤리, 데이터보안
- 데이터 도메인(다양한 분야) 지식, 분석 능력: 현실 문제 해결 능력
데이터 과학 예시
- 미국의 인구 시각화 1950-2060
- 핀란드 의료데이터 프로젝트: FinnGen
- 핀란드인(Finnish) + 유전자(Genome) 합성어
- 자발적 참여자의 유전자정보 수집, 확자의 의료정보까지 통합 구축
- 50만명 목표, 23만명 수집, 15만명 유전자 정보 보호
- 6개월마다 데이터 업데이트: 전세계 연구자와 공유
- 관절염/당뇨병 등 자가면역질환 연구 수행
공부할 내용
- 데이터과학을 위한 통계 개념과 지식
- 공유데이터와 오픈소스
- 빅데이터분석을 위한 첫걸음: 데이터 요약방법 - 데이터 중심 위치, 산포 정도 확인
- 데이터 시각화
- 데이터과학에서 확률분포 의미
2. 통계가 상식이 된 사회
1) 통계가 왜 필요한가? = 데이터를 올바르게 다룰줄 알면 무엇이 더 좋아지나?
- 통계는 올바른 의사결정을 도움
- 다양한 형태의 빅데이터 → 요약된 정보 제공, 과거 데이터로 미래 예측, 데이터에 숨겨진 패턴 발견 → 올바른 의사결정
- 요약된 정보제공 : 엄청난 데이터가 실시간으로 들어오고 있다고 하면 간단하게 요약할 수 있게 된다.
- 과거 데이터로 미래 예측 : 기업, 정부의 정책 개발, 선거 예측
2) 의사결정에서 통계의 역할
- 데이터에 숨겨진 패턴 발견 : 고객 이동경로 분석 결과 활용 예시
- 고객 금융 검색 경로 추적
- 고객 이동경로(customer journey) 분석
- 이탈 가능성 높은 고객을 붙잡고 신규 고객 유입하는 데 사용
- 정부 정책 근거자료: 영국의회 노령연금 도입
- 1886년 영국 사회학자 찰스 부스
- 산업혁명으로 부유해진 런던에서 시민 빈곤 상황을 12년간 조사
- 가난을 8단계로 분류하여 절대빈곤이 30.7%에 달한다는 결과 발표
- 1908년 영국의회 노령연금 도입
- 정부 정책 근거자료 : 서울시 심야버스 노선정책
- 자정 ~ 새벽 5시까지의 시민 휴대폰 전화 데이터 수집
- 유동인구 분포 및 밀도 파악하여 심야버스 노선 수립
요약
- 개인의 일상활동은 데이터화되어 예측분석이 가능하도록 수량화, 객관화됨
- 통계는 수많은 데이터로부터 요약된 정보 제공, 미래 데이터 예측, 숨겨진 패턴 발견 → 올바른 의사결정을 하게 함
- 통계치는 금융권 관리전략, 정부 정책 수립, 법정소송 시 근거자료로 활용될 수 있음
3. 데이터 분석과 윤리
데이터 정직성
- 데이터 정직성? 정제, 정확
- 데이터가 잘못되지 않았는지를 나타냄
- ex. 한강 수질 검사
- 한강에서 물을 한웅큼 채취
- 방 안에 있는 보온병에 보관
- 수질 검사를 하면 그 결과(최고수준의 물로 마실 수 있다!)를 신뢰할 수 있는가?
- 신뢰 못하는 이유 : 데이터를 잘못 수집했다
- 한강이 넓은데 어디서 수집?: 표본의 수
- 어제 산성비가 내렸을 수 있음: 데이터 수집 기간/시기
- 손으로 채집하여 오염 가능성: 데이터 수집 방법
- 신뢰 못하는 이유 : 데이터를 잘못 보관했다
- 보온병 세균이 옮으면?
- 차가운 데 보관해야 하는 것 아닌지?
- 다른 이가 손대지 못하게 안전히 보관해야 함: data storage
- 데이터 정직성을 위해 고려해야 할 사항
- 바르지(정직하지) 못한 데이터
- 너무 적은 양의 데이터
- 편향된 표본 추출
- 바른(정직한) 데이터 > 유의미한 분석 가능
- 대표성
- 비편향성
- 랜덤
- 일관성 유지 : 구체적인 데이터 수집 가이드라인과 목적 설정을 통해 일관성 유지해야 함
- 어떠한 데이터를 수집할 것인가?
- 어떤 목적으로 사용하고자 하는가?
- 어떤 툴이 필요한가?
- 데이터 수집 방법은 적절한가
- 샘플 크기, 빈도, 선정 방법
- 임의 목적을 얻기 위한 비윤리적 조작이 아닌지
- 데이터 분석에 대해 무지하지 않는지
- 환경/현실적인 문제(비용, 자원 등)
- 바르지(정직하지) 못한 데이터
기사 내 통계치 해석/평가
- 데이터 시각화의 오남용 : ex. 미, 일 독, 한의 5년간 실업률 그래프
- 동일한 y축 스케일로 변환하면 그리 높은 편은 아님
- 잘못된 데이터 시각화는 왜곡된 해석과 정보를 제공
- ex. 비정규직 vs 정규직 임금 격차
- 동등한 조건으로 비교되었는지
- 성, 연령, 근속년수 등 요인이 통제된 상태의 시급으로 비교되었는지
- ex. 세무사 월 최고 소득
- 편향된 표본 추출
- 세무사 39명 조사, 우연히 연봉 3~4억원 대인 자영업 세무사가 많았음
요약
- 데이터과학 윤리데이터를 올바르게 분석할 뿐 아니라 올바른 방법으로 수집해야 함
- 정직하지 못한 데이터의 주요 원인
- 데이터분석자의 무지함, 비윤리성, 환경의 제약
- 데이터 수집 시, 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손에 주의
- 결측치 문제 고려
4. 공유데이터와 오픈소스(github)
공유데이터
- 공유데이터?
- 모든사람이 자유롭게 사용/재사용/재배포 가능한 데이터
- 이용성 및 접근성
- 재사용과 재배포
- 보편적 참여(생성 가능)
- 공유데이터 서비스
- 머신러닝 기법 분석에 활용 가능한 데이터 저장소
- 정부 제공
- 네이버
- 네이버 데이터랩: 국내 공공데이터를 기관별로 분류하여 접근성을 높임
오픈소스
- 오픈소스?
- 저작권자가 소스코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어
- R, Python: 오픈소스 통계분석 프로그램
- C++, JAVA, Python 등 다른 프로그래밍 언어와 쉽게 연동
- 빅데이터 시스템인 스파크와도 일부 기능을 연동함으로써 응용범위가 더욱 넓어짐
- 인공지능에서의 오픈소스
- 텐서플로우: 구글에서 머신러닝과 신경망 연구를 위해 만튼 소프트웨어
- 딥마인드랩: 구글 딥마인드에서 공개한 인공지능 개발 플랫폼
- 공유데이터 vs 오픈소스
- 공유데이터: 단순히 수치로 표현되는 측정치 또는 결괏값
- 오픈소스: 단순 데이터가 아닌 지적 창작물
github
- git: 프로그램 등 소스 코드 관리를 위한 분산 관리 툴
- github은 git에 프로젝트 관리지원기능(오픈소스 프로젝트 관리)을 확장한 웹 호스팅 서비스
- 2008년 미국 github사에서 서비스 시작
- 2018년 마이크로소프트가 인수
- 가장 많이 쓰이는 것
- vs코드 : 마이크로소프트에서 개발해 오픈소스로 내놓은 코드 에디터
- 리엑티브네이티브 : 페이스북에서 공개한 크로스플랫폼 개발 프레임워크
- 텐서플로우 : 구글에서 공개한 머신러닝 프래임워크
'Postech > Statistics' 카테고리의 다른 글
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 6. 현업 데이터 특성과 예측모형 (0) | 2023.06.26 |
---|---|
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 5. 통계검정방법 (0) | 2023.06.26 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 4. 빅데이터 분석에서 확률과 분포 (1) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 3. 데이터 시각화와 통계적 해석 (0) | 2023.06.13 |
[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 2. 빅데이터 탐색의 첫걸음 (0) | 2023.06.12 |