토이 프로젝트(5)
-
따릉이 프로젝트 - 분석을 위한 데이터 마이그레이션(AWS to GCP)
AWS RDS에 따릉이 데이터와 날씨 데이터가 2주 정도 쌓여서 이를 활용한 분석을 진행하기 위해 구글 클라우드 플랫폼(GCP)로 데이터 마이그레이션을 시도했다. 여러 글들을 읽어본 후 구글 빅쿼리의 Federated Query를 활용하는 방식이 제일 만만(?)해 보여 시도해보기로 했다. 구글 빅쿼리의 Federated Query를 활용한 데이터 마이그레이션 방법은 다음과 같다. AWS RDS의 파라미터 그룹 중 gtid 관련 옵션 'ON'으로 수정 AWS DMS에서 "복제 인스턴스"를 이용해 마이그레이션을 수행할 인스턴스 생성 DMS 대시보드에서 옮길 데이터가 존재하는 RDS와 데이터를 받을 CloudSQL를 엔드포인트로 생성 연결 테스트 후 "태스크 생성"을 클릭해 마이그레이션 태스크를 생성 GCP ..
2021.12.21 -
따릉이 프로젝트 - 대시보드
따릉이 데이터와 날씨 데이터가 어느 정도 수집된 후 Google Data Studio를 이용하여 따릉이 대시보드를 구축하였다. 대시보드는 크게 두 페이지로 구성되어 있으며 각각 페이지 1은 실시간 따릉이 현황과 날씨를, 페이지 2는 따릉이 관련 통계 히스토리를 표현하였다. 페이지 1(실시간 현황) 페이지 1은 '스테이션별 실시간 사용량 + 지도, 실시간 서울 날씨, 실시간 서울 미세 먼지 지도'로 구성했다. 위에 행정구를 선택할 수 있는 드롭다운 컨트롤러도 추가 후에 내가 살고 있는 강동구만 따로 선택해봤다. 페이지 2(따릉이 히스토리) 페이지 2는 '스테이션별 따릉이 사용량 + 추이, 스테이션별 따릉이 거치율 + 추이'로 구성했다. 원래는 문제가 발생하지 않았는데.. 사용량 부분이 아무리 새로 고침을 ..
2021.12.14 -
따릉이 프로젝트 - 추가 데이터 수집
원래 기존에는 따릉이 현황과 이용량 히스트리만으로 대시보드를 구성하려고 했으나 대시보드를 더욱 풍부하게 구성하기 위해 날씨 데이터도 수집을 진행했다. 대시보드 까지 완성 후 모델링을 진행하기 위해 날씨 외에 따릉이 사용량에 영향을 미칠 것으로 예상되는 데이터들을 추가로 수집 후 RDS에 올려두었다. RDS에 올린 데이터들은 다음과 같다. 1. bike_raw_table: 따릉이 데이터 2. fine_dust_table: 미세먼지 데이터 3. han_park_location_table: 서울 한강 공원 좌표 데이터 4. park_location_table: 서울 공원 좌표 데이터 5. seoul_population_table: 서울 인구 데이터 6. station_meta: 따릉이 정류소 데이터 7. we..
2021.12.08 -
따릉이 프로젝트 - 실시간 데이터 수집
따릉이 프로젝트를 위해 가장 먼저 데이터 수집이 필요하여 서울특별시 공공자전거 실시간 대여정보를 활용하였다. 이제 작성할 구체적인 내용들은 지금 보면 매우 단순하지만 매우 많은 우여곡절이 있는 과정이였다. 1. Open API 불러올 코드 작성 위 페이지를 들어가서 설명을 읽어보면 제공하는 url을 호출하여 제공하는 데이터를 json 형식으로 받아올 수 있다고 한다. 이를 위해서는 인증키가 필요하여 인증키를 신청 후 데이터를 어떻게 불러올지에 대해 고민을 했다. 위 데이터의 설명을 보면 한번에 모든 정류장을 가져 오지 못하고 1000개 까지만 가져올 수 있다고 해서 그 부분도 고려하여 코드를 작성했다. 처음에는 5분 단위로 데이터를 불러오려고 했으나 데이터가 너무 많이 쌓여서 Google Data Stu..
2021.12.06 -
따릉이 프로젝트 - 개요
업무에서 Google Data Studio 사용에 익숙해져 갈 무렵 이를 이용해서 내가 관심이 있는 분야 및 공공으로 제공하는 데이터를 활용해서 실시간 대시보드를 구축하면 재미 있는 프로젝트가 가능할 것이라 생각이 들었다. 처음에는 제일 관심이 있는 스포츠 및 게임 관련 대시보드를 구축해보고 싶었으나 생각보다 실시간으로 업데이트를 제공하는 데이터를 구하기가 어려웠다. 열린 데이터 광장에서 여러 데이터들을 검색 중 따릉이 현황 데이터를 실시간으로 제공하는 api를 발견하고 평소에 사용한 경험이 있는 따릉이 데이터를 실시간 대시보드로 구축하기로 프로젝트 방향을 정했다. 사실 '따릉이 프로젝트를 해야지'라고 9월에 마음을 먹었으나 일이 바빠지고 본격적으로 10월부터 시작하게 되었다. 프로젝트를 진행하면서 그때..
2021.12.06