데이터 애널리스트 입문

 수강대상

국민내일배움카드 대상자 중 데이터 분석 학습이 필요한 국민 누구나
Python 기초 문법 활용 가능자 또는 컴퓨터공학 유관 전공자 추천
데이터 사이언스 입문자
데이터 분석 직무를 준비하는 직장인 및 취업 준비생
업무에서 데이터 분석을 활용하고 싶은 분

 교육과정 소개

데이터 분석의 기본 개념, Numpy와 Pandas 활용, Seaborn을 이용한 시각화 등 데이터 애널리스트 직무와 관련된 기술에 대해 학습합니다.
본 과정은 데이터 사이언스의 기본부터 실무에 필요한 기술을 체계적으로 학습할 수 있는 프로그램입니다. 파이썬을 활용해 데이터의 수집, 변형, 분석, 시각화까지 전 과정을 다루며, 데이터 사이언스 프로세스를 직접 경험해 볼 수 있습니다. 또한, 실습 중심의 커리큘럼으로, 데이터를 효과적으로 다루고 새로운 인사이트를 발견하는 능력을 기를 수 있습니다.
각종 데이터 라이브러리와 시각화 도구를 학습하며 데이터를 다루는 능력을 키우고, 실습과 프로젝트를 통해 실제 데이터를 분석하고 인사이트를 도출하는 경험을 쌓을 수 있습니다. 데이터 클리닝, EDA, 통계 기법 등 실무에 필요한 모든 기초 기술을 포함하고 있어 데이터 분석 직무로의 커리어 전환 또는 업무 효율성을 높이고자 하는 분들에게 적합한 교육 과정입니다.

 커리큘럼

연번
차시명
세부내용
1
데이터 사이언스 학습 준비하기
- 데이터와 데이터 사이언스가 무엇인지 파악하고 중요성 이해하기 - 데이터 사이언스에 대한 개론적 이해 갖추기 - 데이터 사이언스의 단계별 과정과 생활에서의 활용 알아보기 - 데이터와 파이썬의 관계 파악하기  - Jupyter Notebook에 대해 이해하고 설치하기 - Jupyter Notebook의 기능과 모드 살펴보고 출력하기  - 여러 기능을 기반으로 원활하게 Cell 활용하기  - 설명글 작성 Markdown 살펴보기 - (실습 과제) 선수 과제: 단어의 팰린드롬 여부를 확인하는 함수 만들기
2
Numpy
- 숫자와 관련한 파이썬 도구인 Numpy에 대해 이해하기 - numpy array에 대해 알아보고 직접 활용해보기 - array와 관련한 인덱싱과 슬라이싱 살펴보기 - numpy 연산 방법과 기본 통계 기능 살펴보기 - numpy array와 python list 비교하여 차이점 살펴보기 - (실습 과제) numpy array 생성 연습 I: 1부터 100까지 담겨 있는 numpy array를 생성하는 연습하기 - (실습 과제) numpy array 생성 연습 II: 1 이상 100 이하의 자연수 중 3의 배수만 담겨 있는 numpy array를 생성하는 연습하기 - (실습 과제) 신주쿠 흥부부대찌개: 신주쿠 흥부부대찌개의 엔화 매출 데이터를 원화로 변환하고, numpy array로 출력하기 - (실습 과제) 흥부부대찌개 LA 진출: 흥부부대찌개의 달러 매출과 엔화 매출의 합을 원화로 담긴 numpy array로 출력하기 - (실습 과제) 흥부부대찌개 목표 일 매출: 20만 엔 이하의 매출만 담긴 numpy array 출력하기
3
Pandas
- Pandas의 시작과 장점에 대해 이해하고 사용해 보기 - Pandas와 Numpy의 차이점 파악하기 - Pandas DataFrame에 대해 이해하고 직접 만들어보기 - Pandas 데이터 타입 파악하기 - csv 파일에 대해 이해하기 - (실습 과제) 스타들의 생일은 언제?: 유명인들의 생일과 직업을 함께 보여주는 표 작성하기 - (실습 과제) 가장 인기 있는 아기 이름은?: 아기의 성별과 어머니의 인종에 따른 가장 인기 있는 아기 이름 DataFrame 출력하기 - (실습 과제) 메가밀리언 로또 당첨 번호: 당첨 번호와 날짜가 담긴 파일을 DataFrame에 넣기
4
DataFrame 인덱싱
- 데이터를 선택하는 인덱싱에 대해 이해하고 활용해보기 - 조건을 넣어 인덱싱하는 방법 파악하기 - 다양한 DataFrame 인덱싱 방법과 종류에 대해 형태 익히기 - (실습 과제) 방송사 시청률 받아오기 I: DataFrame에서 2016년 KBS의 시청률 받아오기 - (실습 과제) 방송사 시청률 받아오기 II: DataFrame에서 JTBC의 시청률만 받아오기 - (실습 과제) 방송사 시청률 받아오기 III: DataFrame에서 SBS와 JTBC의 시청률 받아오기 - (실습 과제) 카드사 고객 분석: 두 카드사의 고객 데이터로 사람들의 요일별 문화생활비 분석하기 - (실습 과제) 방송사 시청률 받아오기 IV: DataFrame에서 특정 기간의 KBS, MBC, SBS 시청률 받아오기 - (실습 과제) 방송사 시청률 받아오기 V: DataFrame에서 KBS의 시청률 30이 넘은 데이터만 받아오기 - (실습 과제) 방송사 시청률 받아오기 VI: DataFrame에서 SBS가 TV CHOSUN보다 시청률이 낮았던 시기의 데이터 받아오기
5
데이터 변형하기
- DataFrame에 값을 추가하고 삭제해보기 - index와 column 설정에 대해 이해하기 - (실습 과제) 잘못된 DataFrame 고치기 I: 키와 몸무게가 담긴 DataFrame에서 잘못된 부분을 고치는 코드 추가하기 - (실습 과제) 잘못된 DataFrame 고치기 II: 키와 몸무게가 담긴 DataFrame에서 잘못된 부분을 고치는 코드 추가하기 - (실습 과제) 서류 전형 합격 여부: 토익 점수를 확인하고 합격 여부를 판단하기  - (실습 과제) 퍼즐을 풀어라!: 코드 4줄만 사용해 데이터프레임 수정하는 퍼즐 풀기
6
큰 데이터 다루기
- Pandas로 큰 DataFrame 다루는 방법 이해하기 - 큰 Pandas Series에 대해 파악하기 - (실습 과제) 코드잇 대학교: 수강신청 준비하기: 수강신청의 조건을 확인하고, 수강 가능/불가능 상태를 구분하는 column 만들기  - (실습 과제) 코드잇 대학교: 강의실 배정하기 I: 학생수에 따라 크기가 다른 강의실 배치하기  - (실습 과제) 코드잇 대학교: 강의실 배정하기 II: 알파벳 순서대로 방 번호 배정하기
7
시각화와 그래프
- 데이터 시각화의 이점에 대해 이해하기 - 다양한 시각화 그래프(선 그래프, 막대 그래프, 파이그래프, 히스토그램, 박스 플롯, 산점도)에 대해 파악하고 구현해보기 - 퀴즈 학습을 통해 상황에 따라 어떤 종류의 그래프가 가장 적절한지 파악하기 - (실습 과제) 국가별 경제 성장: 주어진 데이터를 이용해 한국, 미국, 영국, 독일, 중국, 일본의 GDP 그래프 그리기 - (실습 과제) 실리콘 밸리에는 누가 일할까? I: 실리콘 밸리에서 일하는 남자 관리자 인종 분포를 막대 그래프로 그리기 - (실습 과제) 실리콘 밸리에는 누가 일할까? II: 어도비 전체 직원들의 직군 분포를 파이 그래프로 그려보기 - (실습 과제) 스타벅스 음료의 칼로리는? I: 스타벅스 음료의 칼로리 분포를 히스토그램으로 확인하기 - (실습 과제) 스타벅스 음료의 칼로리는? II: 스타벅스 음료의 칼로리 분포를 박스 플롯으로 그리기
8
Seaborn 시각화
- Seaborn 라이브러리에 대해 이해하고 다양한 그래프로 구현하기 - 확률 밀도 함수에 대해 이해하고 Seaborn으로 구현하기 - KDE에 대해 이해하고 Seaborn으로 구현하기 - (실습 과제) 서울 지하철 승차인원: 서울 지하철 승차인원에 대한 KDE Plot 그려보기 - (실습 과제) 교수님의 연봉은?: 교수 급여 분포를 Violin Plot으로 그리기 - (실습 과제) 보험금 분석하기: 흡연 여부에 따라 보험금을 살펴볼 수 있는 그래프 그리기
9
통계 기본 상식
- 통계 기본 상식인 평균값, 중간값, 상관계수에 대해 이해하기 - 평균값과 중간값의 차이 파악하기 - 상관 계수로 두 변수의 연관성에 대하여 이해하기 - 상관 계수를 시각화하여 분석해보기
10
Exploratory Data Analysis
- 데이터 셋에서 각 로우와 칼럼이 갖는 의미와 분포 등을 다양하게 탐색하는 EDA에 대하여 이해하기 - 상관 관계 분석 방법에 대하여 파악하기 - 클러스터 분석 방법에 대하여 파악하기 - (실습 과제) 영화 카페 운영하기: 주어진 데이터셋으로 영화 장르에 대한 clustermap 그려보기
11
새로운 인사이트 발견하기
- 새로운 컬럼을 추가하여 새로운 값 도출해보기 - 문자열을 분리하거나 필터링하여 새로운 인사이트 도출해보기 - 카테고리로 분류하는 방법에 대해 이해하고 groupby를 활용하여 분석하기 - merge를 활용한 데이터 합치기에 대해 이해하기 - (실습 과제) 박물관이 살아 있다 I: 대학 박물관 개선을 위해 대학/일반 박물관을 분류하는 column 만들기 - (실습 과제) 박물관이 살아 있다 II: 박물관이 많은 지역 파악을 위해 전화번호 앞자리를 추출하여 column에 넣기  - (실습 과제) 박물관이 살아 있다 III: 지역번호를 이용해 지역명 column을 만들기 - (실습 과제) 직업 탐구하기 I: 직업의 평균 나이가 어린 순으로 직업 나열하기 - (실습 과제) 직업 탐구하기 II: 여성 비율이 높은 순으로 직업 나열하기 - (실습 과제) 박물관이 살아 있다 IV: 지역번호와 지역명이 있는 데이터셋에 .merge()메소드를 활용하여 지역명 column 추가하기
12
데이터 퀄리티 높이기
- 좋은 데이터의 기준(완결성, 유일성, 통일성, 정확성)에 대해 파악하기 - 결측값이 발생하는 데이터, 중복 데이터, 관계적 이상점 등 비정상적인 데이터를 데이터 클리닝하는 방법 익히기 - (실습 과제) 스팀 게임 데이터 정리하기: 스팀 게임 데이터 중 결측값이 있는 row를 삭제하고 DataFrame을 출력하여 정리하기 - (실습 과제) 영화 평점 분석하기 I: 영화의 예산과 소비자 평점 간의 상관관계를 보여주는 산점도 그리기 - (실습 과제) 영화 평점 분석하기 II: 예산 상위 15개 영화를 제거한 후, 산점도를 그려 영화 평점 분석하기
13
데이터 분석 프로젝트: 대형 마트 고객 데이터
대형 마트 고객 데이터 - 고객 데이터를 분류하고 이에 따른 마케팅 전략 검토해보기 - 데이터 탐색 및 전처리하기 - RFM 분석에 대해 이해하고 고객 세그먼트 분류하기 - 세그먼트별 특성과 소비 성향 분석 방법에 대해 이해하기  - (실습 과제) 프로젝트 실습: 대형 마트의 고객 데이터를 탐색, 전처리하여 특성과 소비성향 분석하기

 바로 수강신청하기