본문 바로가기
Postech/Statistics

[포스코 청년 AI·Big Data] 데이터사이언스를 위한 통계학입문 1. 데이터과학과 통계

by 나비스 2023. 6. 12.

 

POSTECH의 MOOC (https://pabi.smartlearn.io/)  청년 AI, BigData 아카데미 온라인 기초과정 중

데이터사이언스를 위한 통계학입문1을 수강하고 정리한 내용입니다.

 

1. 데이터과학이란 무엇인가

데이터과학이란?

  • 빅데이터: 통계학, 데이터마이닝, 인공지능, 딥러닝
  • Data → Data Analytics → Insight
  • 필요한 기술
    • 통계적 개념과 지식: 샘플링, 확률분포, 가설검정, p-value
    • 데이터 다루는 기술(데이터 큐레이션): 빅데이터 다루기 DB구축, 관리, 분석
    • 데이터 요약된 정보 전달 기술: 데이터 시각화(공간지도분석, 다차원그래픽)
    • 데이터윤리, 데이터보안
    • 데이터 도메인(다양한 분야) 지식, 분석 능력: 현실 문제 해결 능력

데이터 과학 예시

  • 미국의 인구 시각화 1950-2060
  • 핀란드 의료데이터 프로젝트: FinnGen
    • 핀란드인(Finnish) + 유전자(Genome) 합성어
    • 자발적 참여자의 유전자정보 수집, 확자의 의료정보까지 통합 구축
    • 50만명 목표, 23만명 수집, 15만명 유전자 정보 보호
    • 6개월마다 데이터 업데이트: 전세계 연구자와 공유
    • 관절염/당뇨병 등 자가면역질환 연구 수행

공부할 내용

  • 데이터과학을 위한 통계 개념과 지식
  • 공유데이터와 오픈소스
  • 빅데이터분석을 위한 첫걸음: 데이터 요약방법 - 데이터 중심 위치, 산포 정도 확인
  • 데이터 시각화
  • 데이터과학에서 확률분포 의미

2. 통계가 상식이 된 사회

1) 통계가 왜 필요한가? = 데이터를 올바르게 다룰줄 알면 무엇이 더 좋아지나?

  • 통계는 올바른 의사결정을 도움
    • 다양한 형태의 빅데이터 → 요약된 정보 제공, 과거 데이터로 미래 예측, 데이터에 숨겨진 패턴 발견 → 올바른 의사결정
    • 요약된 정보제공 : 엄청난 데이터가 실시간으로 들어오고 있다고 하면 간단하게 요약할 수 있게 된다.
    • 과거 데이터로 미래 예측 : 기업, 정부의 정책 개발, 선거 예측

2) 의사결정에서 통계의 역할

  • 데이터에 숨겨진 패턴 발견 : 고객 이동경로 분석 결과 활용 예시
    • 고객 금융 검색 경로 추적
    • 고객 이동경로(customer journey) 분석
    • 이탈 가능성 높은 고객을 붙잡고 신규 고객 유입하는 데 사용
  • 정부 정책 근거자료: 영국의회 노령연금 도입
    • 1886년 영국 사회학자 찰스 부스
    • 산업혁명으로 부유해진 런던에서 시민 빈곤 상황을 12년간 조사
    • 가난을 8단계로 분류하여 절대빈곤이 30.7%에 달한다는 결과 발표
    • 1908년 영국의회 노령연금 도입
  • 정부 정책 근거자료 : 서울시 심야버스 노선정책
    • 자정 ~ 새벽 5시까지의 시민 휴대폰 전화 데이터 수집
    • 유동인구 분포 및 밀도 파악하여 심야버스 노선 수립

요약

  • 개인의 일상활동은 데이터화되어 예측분석이 가능하도록 수량화, 객관화됨
  • 통계는 수많은 데이터로부터 요약된 정보 제공, 미래 데이터 예측, 숨겨진 패턴 발견 → 올바른 의사결정을 하게 함
  • 통계치는 금융권 관리전략, 정부 정책 수립, 법정소송 시 근거자료로 활용될 수 있음

3. 데이터 분석과 윤리

데이터 정직성

  • 데이터 정직성? 정제, 정확
    • 데이터가 잘못되지 않았는지를 나타냄
  • ex. 한강 수질 검사
    • 한강에서 물을 한웅큼 채취
    • 방 안에 있는 보온병에 보관
    • 수질 검사를 하면 그 결과(최고수준의 물로 마실 수 있다!)를 신뢰할 수 있는가?
    • 신뢰 못하는 이유 : 데이터를 잘못 수집했다
      • 한강이 넓은데 어디서 수집?: 표본의 수
      • 어제 산성비가 내렸을 수 있음: 데이터 수집 기간/시기
      • 손으로 채집하여 오염 가능성: 데이터 수집 방법
    • 신뢰 못하는 이유 : 데이터를 잘못 보관했다
      • 보온병 세균이 옮으면?
      • 차가운 데 보관해야 하는 것 아닌지?
      • 다른 이가 손대지 못하게 안전히 보관해야 함: data storage
  • 데이터 정직성을 위해 고려해야 할 사항
    • 바르지(정직하지) 못한 데이터
      • 너무 적은 양의 데이터
      • 편향된 표본 추출
    • 바른(정직한) 데이터 > 유의미한 분석 가능
      • 대표성
      • 비편향성
      • 랜덤
    • 일관성 유지 : 구체적인 데이터 수집 가이드라인과 목적 설정을 통해 일관성 유지해야 함
      • 어떠한 데이터를 수집할 것인가?
      • 어떤 목적으로 사용하고자 하는가?
      • 어떤 툴이 필요한가?
      • 데이터 수집 방법은 적절한가
      • 샘플 크기, 빈도, 선정 방법
    • 임의 목적을 얻기 위한 비윤리적 조작이 아닌지
    • 데이터 분석에 대해 무지하지 않는지
    • 환경/현실적인 문제(비용, 자원 등)

기사 내 통계치 해석/평가

  • 데이터 시각화의 오남용 : ex. 미, 일 독, 한의 5년간 실업률 그래프
    • 동일한 y축 스케일로 변환하면 그리 높은 편은 아님
    • 잘못된 데이터 시각화는 왜곡된 해석과 정보를 제공
  • ex. 비정규직 vs 정규직 임금 격차
    • 동등한 조건으로 비교되었는지
    • 성, 연령, 근속년수 등 요인이 통제된 상태의 시급으로 비교되었는지
  • ex. 세무사 월 최고 소득
    • 편향된 표본 추출
    • 세무사 39명 조사, 우연히 연봉 3~4억원 대인 자영업 세무사가 많았음

요약

  • 데이터과학 윤리데이터를 올바르게 분석할 뿐 아니라 올바른 방법으로 수집해야 함
  • 정직하지 못한 데이터의 주요 원인
    • 데이터분석자의 무지함, 비윤리성, 환경의 제약
  • 데이터 수집 시, 너무 적은 양의 데이터, 편향된 표본 추출, 데이터의 왜곡 및 훼손에 주의
  • 결측치 문제 고려

4. 공유데이터와 오픈소스(github)

공유데이터

오픈소스

  • 오픈소스?
    • 저작권자가 소스코드를 공개하여 누구나 복제, 개작, 배포할 수 있는 소프트웨어
    • R, Python: 오픈소스 통계분석 프로그램
    • C++, JAVA, Python 등 다른 프로그래밍 언어와 쉽게 연동
    • 빅데이터 시스템인 스파크와도 일부 기능을 연동함으로써 응용범위가 더욱 넓어짐
  • 인공지능에서의 오픈소스
    • 텐서플로우: 구글에서 머신러닝과 신경망 연구를 위해 만튼 소프트웨어
    • 딥마인드랩: 구글 딥마인드에서 공개한 인공지능 개발 플랫폼
  • 공유데이터 vs 오픈소스
    • 공유데이터: 단순히 수치로 표현되는 측정치 또는 결괏값
    • 오픈소스: 단순 데이터가 아닌 지적 창작물

github

  • git: 프로그램 등 소스 코드 관리를 위한 분산 관리 툴
  • github은 git에 프로젝트 관리지원기능(오픈소스 프로젝트 관리)을 확장한 웹 호스팅 서비스
  • 2008년 미국 github사에서 서비스 시작
  • 2018년 마이크로소프트가 인수
  • 가장 많이 쓰이는 것
    • vs코드 : 마이크로소프트에서 개발해 오픈소스로 내놓은 코드 에디터
    • 리엑티브네이티브 : 페이스북에서 공개한 크로스플랫폼 개발 프레임워크
    • 텐서플로우 : 구글에서 공개한 머신러닝 프래임워크