본문 바로가기

Biusiness Insight/Data Science

[구글 클라우드] Dataprep 활용하기

반응형

soruce : GCP qwiklabs

 

프로젝트에 Cloud Storage 버킷 만들기

1. Cloud Platform Console에서 탐색 메뉴 > 저장소 > 브라우저 선택

 

2. 버킷 만들기를 클릭합니다.

 

3. 버킷 만들기 대화상자에서 버킷 이름 지정 (참고: 버킷 이름 요구사항)

 

4. 만들기(Create)  클릭

 

 

Cloud Dataprep 초기화

  1. 탐색 메뉴 > Dataprep 선택
  2. Google Dataprep 서비스 약관에 동의하는 체크박스를 선택하고 동의 클릭
  3. 체크박스를 선택하여 Trifacta와의 계정 정보 공유를 승인한 다음 동의 및 계속하기 클릭
  4. 허용을 클릭하여 Trifacta가 프로젝트 데이터에 액세스하도록 허용
  5. Trifacta에서 제공하는 Cloud Dataprep에 로그인할 때 사용할 GCP 사용자 이름을 클릭. GCP 사용자 이름은 연결 세부정보 패널의 사용자 이름임.
  6. 허용을 클릭하여 GCP 실습 계정에 대한 액세스 권한을 Cloud Dataprep에 부여
  7. 체크박스를 선택하고 동의를 클릭하여 Trifacta 서비스 약관에 동의
  8. '처음 설정' 화면에서 계속을 클릭하여 기본 저장소 위치 생성

 

새 브라우저 탭에서 Dataprep 오픈됨. 시작 페이지의 오른쪽 상단에서 Hide tour 를 클릭

 

 

플로우 만들기

Cloud Dataprep은 flow 작업공간을 사용하여 데이터세트에 액세스하고 조작

1. 오른쪽 상단에 있는 플로우 만들기(Create Flow) 클릭

 

2. 흐름의 이름과 설명 입력 (예: 미국 연방 선거 관리 위원회 2016)

- 이름 : "FEC-2016" / 설명 : "미국 연방 선거 관리 위원회 2016"

 

3. Create(만들기)를 클릭합니다.

- FEC-2016 흐름 페이지가 열림

- "What's a flow?" 슬라이드를 스크롤하여 다음에 수행할 작업에 대한 개요를 보거나, Don't show me any helpers(도우미 표시 안 함)을 클릭하여 건너뜀

 

 

데이터세트 가져오기

이 섹션에서는 데이터를 가져와서 FEC-2016 흐름에 추가

 

1. Import & Add Datasets(데이터세트 가져오기 및 추가)를 클릭

 

2. 왼쪽 메뉴 창에서 GCS 선택 > Google Cloud Storage에서 데이터세트를 가져온 다음 연필을 클릭하여 파일 경로수정

 

3. Choose a file or folder(파일 또는 폴더 선택) 텍스트 상자에 gs://spls/gsp105를 입력한 다음 Go() 을 클릭

- Go(이동) 및 Cancel(취소) 버튼이 보이지 않으면 브라우저 창을 넓힙니다.

 

4. cn-2016.txt 옆의 + 아이콘을 클릭하여 오른쪽 창에 표시되는 데이터세트 만듬

- 데이터세트의 제목을 클릭하고 이름을 "Candidate Master 2016"으로 변경

 

5. 같은 방식으로 itcont-2016.txt 데이터세트를 추가하고 이름을 "Campaign Contributions 2016"으로 변경

 

6. 오른쪽 창에 두 데이터세트가 나열되면 Import & Add to Flow(가져오기 및 플로우에 추가)를 클릭

두 데이터세트가 모두 플로우로 표시됨

 

 

Candidate 파일 준비

1. 기본적으로 Candidate Master 2016 데이터세트가 선택됨. 오른쪽 창에서 Add New Recipe(새 레시피 추가) 클릭

 

2. Edit Recipe(레시피 수정) 클릭

 

Candidate Master 2016-2 변환 페이지가 그리드 뷰로 열림

- 변환 페이지에서는 변환 레시피를 빌드하고 이를 샘플에 적용한 결과를 볼 수 있음

- 각 열 머리글에는 데이터 유형을 지정한 이름과 값 확인 가능. 플래그 아이콘을 클릭하면 데이터 유형이 표시됨.

 

- 플래그 옵션을 클릭하면 오른쪽에 Details(세부 사항) 패널이 활성화됨

- 세부 정보 패널의 오른쪽 위에있는 X 를 클릭하여 세부 정보 패널을 닫음

 

다음, 격자보기에서 데이터를 탐색하고 레시피에 변환 단계를 적용

1. Column5는 1990-2064년의 데이터를 제공

-  스프레드시트에서와 같이 column5를 넓히면 각 연도가 분리됨

- 2016년을 나타내는 가장 큰 빈을 클릭하여 선택

- 그러면 이 값을 선택하는 단계가 만들어짐

 

2. 오른쪽의 Suggestions(추천) 패널에 있는 Keep rows(행 유지) 섹션에서 Add(추가) 를 클릭하여 이 단계를 레시피에 추가

- 오른쪽의 레시피 패널에 다음 단계가 있음

- Keep rows where(date(2016, 1, 1) <= column5) && (column5 < date(2018, 1, 1))

 

3. Column6(State)을 마우스로 가리킨 다음 헤더에서 일치하지 않는 부분(빨간색)을 클릭하여 일치하지 않는 행을 선택

- 아래로 스크롤하여 일치하지 않는 값을 찾으면 해당되는 레코드 대부분에 column7의 값이 'P', column6의 값이 'US'로 되어 있음을 확인 가능.

- 이 불일치는 'State' 열(플래그 아이콘으로 표시)로 표시되어 있는 column6에 State가 아닌 값(예: 'US')이 포함되어 있기 때문에 발생

 

4. 불일치를 수정하려면 제안 패널 맨위에서 X 를 클릭하여 변환을 취소한 다음, Column6에서 플래그 아이콘을 클릭하고 "String"열로 변경

- 더 이상 불일치 항목이 없으먄 열이 녹색으로 바뀜

 

5. 대선 후보자 필터링 (column7에 값 'P' 레코드)

- column7의 히스토그램에서 두 개의 빈을 가리키면 'H'와 'P' 값을 갖는 빈 확인 가능

- 'P' 빈을 클릭

 

6. 오른쪽 제안 패널에서 Add(추가) 를 클릭하여 레시피 단계 승인

 

 

Contributions 파일 조인하기

- 조인 페이지에서 두 데이터세트의 공통 정보에 따라 현재 데이터세트를 다른 데이터세트나 레시피에 추가 가능

- Contributions 파일을 Candidates 파일에 조인하기 전에 Contributions 파일을 정리해야 함

 

1. 그리드 뷰 페이지 상단에서 FEC-2016(데이터세트 선택기)을 클릭

 

2. 회색으로 표시된 Campaign Contributions를 클릭하여 선택

3. 오른쪽 창에서 Add New Recipe(새 레시피 추가) 를 클릭한 다음 Edit Recipe(레시피 수정)  클릭

4. 페이지 오른쪽 상단의 recipe(레시피) 아이콘을 클릭한 다음 New step 추가 클릭

- 데이터세트에서 불필요한 구분 기호를 제거

 

5. 검색창에 다음과 같은 Wrangle 언어 명령어 삽입

replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

 

변환 빌더가 Wrangle 명령어를 파싱하여 찾기 및 바꾸기 변환 필드를 채움

 

6. Add(추가) 를 클릭하여 해당 변환을 레시피에 추가

 

7. 레시피에 또 다른 New step 를 추가한 다음 New step(새 단계)를 클릭하고 검색창에 'Join'을 입력

 

8. 조인 페이지를 열려면 Join datasets(데이터세트 조인하기) 클릭

 

9. "Candidate Master 2016-2"를 클릭하여 Campaign Contributions-2에 조인한 다음 오른쪽 하단에 있는 Accept(수락) 클릭

 

10. 조인 키 섹션에 마우스를 올려 놓고 연필(수정 아이콘) 클릭

- Dataprep은 공통 키를 유추하는데 다양한 공통 값을 조인 키로 추천

 

11. 키 추가 패널의 추천 조인 키 섹션에서 'column2 = column11' 클릭

 

12. Save and Continue(저장 후 계속) 을 클릭 - 검토할 수 있도록 열 2, 11이 열림

 

13. Next(다음) 을 클릭하고 '열' 레이블의 왼쪽에 있는 체크박스를 선택하여 두 데이터세트의 모든 열을 조인된 데이터세트에 추가

 

14. Review(검토) 를 클릭 한 다음 Add to Recipe(레시피에 추가) 를 클릭하여 격자보기로 돌아갑니다.

 

 

데이터 요약

- 열 16에 입력된 선거 자금 데이터의 총계, 평균, 항목 수를 계산하고 열 2, 24, 8의 ID, 이름, 소속 정당 데이터로 후보자를 그룹화해서 요약 생성

 

1. New step(새 단계)를 클릭하고 Transformation(변환) 검색창에 다음 수식을 입력하여 집계된 데이터를 미리봅니다.

pivot 
value:sum(column16),average(column16),countif(column16 > 0) 
group: column2,column24,column8

 

- 조인되어 집계된 데이터의 초기 샘플이 표시됨

- 이 샘플은 미국의 주요 대선 후보자들에 대한 요약표와 2016년 선거 자금 통계를 나타냄

 

2. Add(추가) 를 클릭하여 미국의 주요 대선 후보자들에 대한 요약표와 2016년 선거 자금 통계 확인

 

 

열 이름 변경

- 열 이름을 변경하면 데이터를 더 쉽게 해석 가능

- New step(새 단계) 클릭 > 이름 바꾸기 및 라운딩 단계를 레시피에 개별적으로 추가 > 아래 내용 입력 > Add(추가) 클릭

rename type: manual mapping: 
[column24,'Candidate_Name'], 
[column2,'Candidate_ID'],
[column8,'Party_Affiliation'], 
[sum_column16,'Total_Contribution_Sum'], 
[average_column16,'Average_Contribution_Sum'], 
[countif,'Number_of_Contributions']

 

- 선거 자금 평균값을 라운딩하는 마지막 New step(새 단계) 추가

set col: Average_Contribution_Sum value: 
round(Average_Contribution_Sum)

 

- Add(추가) 클릭

 

출력 화면 :

반응형