3주차 SQL 기초와 데이터 분석
SQL 쿼리 문법을 활용하여 데이터 분석을 진행하기(5)
학습 주제: 실전 데이터 분석 사례
kaggle 데이터셋을 활용해 분석 실습
사례 세 가지 소개해주셨는데 그 중 NBA Players 자료가 재밌을 것 같아서 강의 보며 함께 실습해보았다.
https://www.kaggle.com/datasets/justinas/nba-players-data/data
NBA Players
Biometric, biographic and basic box score stats from 1996 to 2022 season
www.kaggle.com
친절하게도 Analysis Ideas를 제공하고 있다.
Analysis Ideas
The data set can be used to explore how age/height/weight tendencies have changed over time due to changes in game philosophy and player development strategies. Also, it could be interesting to see how geographically diverse the NBA is and how oversees talents have influenced it. A longitudinal study on players' career arches can also be performed.
나이, 키와 체중이 어떻게 변화해 왔는지 분석해 보면 좋을 것 같다.
(아래는 MySQL 환경)
중복이 있음을 확인. 동명이인이 있을 수 있다.
찾음
season이 이상해보이지만 무시하자...이후 수정했다
요런식으로 구분하면 됨. 근데 이거 왜 한거지
아무튼 중요한건 시즌별로 선수들의 나이, 키, 몸무게 등이 어떻게 변화했는지 알아보는 것이다.
여기까지 하고 season 칼럼 데이터들이 엉망진창으로 저장되어있는걸 발견했다...
그래서 수정하느라 시간이 좀 걸렸다.
역시 데이터를 처음부터 잘 살펴보고 시작해야 한다...
이대로만 하면 결과가 어떤지 잘 모르겠으니 구글 스프레드시트에서 시각화를 해보자.
Result Grid에 있는 Export를 누르면 csv 파일로 저장할 수 있다.
구글 스프레드시트에서 해당 파일을 열고 차트를 만들어서 간단하게 시각화할 수 있다.
평균 신장과 몸무게는 감소하는 추세다.
작고 가벼운 선수가 더 많이 득점하는 형태로 변화하고 있다고 할 수 있다.
리바운드는 뚜렷한 추세가 없으나 어시스트는 증가한 것이 인상적이었다.
내가 농구에 대해 전술적으로 아는 것은 많이 없고 NBA에 대해서는 특히 잘 모르지만, 일본 여자농구가 도쿄 올림픽에서 은메달을 따면서 화제가 됐었는데 3점슛을 굉장히 중점적으로 연습했다고 들었다. 이런 흐름과도 연결지어 생각해볼 수 있을 것 같다.
아래 유튜브 영상도 봤었는데, KBL의 경우 여전히 가장 큰 선수, 즉 용병이 득점하는 구조로 되어있어 후진적이라는 평이다.
https://youtu.be/EDxrELvnfuU?si=God8G0R5bR5JQOZd
내가 농구를 막 야구만큼 열심히 보지는 않지만 그래도 좋아하는 편인데, 데이터 분석 결과 하나를 두고도 이것저것 생각나는거 보니 역시 도메인 지식의 힘을 체감하게 된다.
무엇보다 관심있는 분야 데이터를 만지니까 재미있었다...
공부하며 어려웠던 내용
나는 원래 일단 해보자! 주의인데 데이터를 다룰 때만큼은 그랬다가는 진짜 큰 코 다치는 것 같다...데이터가 커질수록 한번 "해보"는데 시간이 막대하게 들어가는데, 그냥 무작정 버튼을 누르기에는 시간이 많이 아까우니까 몇번씩 검토해봐야 오히려 더 빨리 끝나는 것 같다. 학교 과제할 때도 분명히 느꼈는데 왜 같은 실수를 반복하지...라는 자괴감이 공부 중 가장 어려운 부분이었다...^_ㅜ
'SQL' 카테고리의 다른 글
Redshift, 팀워크 특강 (0) | 2024.03.19 |
---|---|
데이터 웨어하우스, AWS, Redshift (0) | 2024.03.18 |
효율적인 SQL 코드 작성하기 (0) | 2024.03.07 |
데이터 타입 (0) | 2024.03.06 |
테이블 결합: JOIN, UNION, WITH (0) | 2024.03.05 |