여러분 안녕하세요.
그동안 저희는 대부분의 데이터 전처리에 판다스를 사용해왔습니다. 하지만 항상 판다스에 의존할 수 없는 이유를 알아봅시다.
파이썬에 스파크를 설치합니다.
- pip install pyspark 를 입력하세요.
문제 1:
CSV 파일(여러분이 원하는 아무 csv 파일)을 읽고 파일에 씁시다. 파이스파크로 똑같이 하고 차이를 관찰해보세요. 아마 여러 개의 파일이 출력된 것을 확인 할 수 있을 겁니다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보세요.
문제 2:
Yelp의 리뷰 데이터 셋을 내려받아서 판다스와 스파크로 ‘user.json’을 읽어보세요. https://www.yelp.com/dataset
발견한 차이를 설명하세요.
문제 3 :
위의 데이터 셋에서 ‘photo.json’이라는 파일을 찾으세요.
레이블 영역에 있는 고유한 값의 개수를 세세요. 판다스를 썼을 때와 스파크를 썼을 때 걸린 시간을 비교해보세요.
즐겁게 공부하길 바라요!
comment