본문 바로가기

Biusiness Insight/Data Science

(28)
[Pandas] DataFrame 생성/조회, csv 불러오기/저장하기 Pandas 란? - Python을 이용한 데이터 분석의 필수 라이브러리로, 데이터 처리에 유용 - Pandas 활용 참고 링크 사용자 가이드 API Reference 소스코드 레파지토리 Pandas 한글 참고자료 - 주로 3가지 데이터 구조 활용 : 시리즈(Series), 데이터프레임(DataFrame), 패널(Panel) Pandas DataFrame 생성 (데이터프레임 만들기) - 데이터프레임(DataFrame) 이란 : 2차원 행렬로 행방향 인덱스(index), 열방향 컬럼(column) 자료구조 - pd.DataFrame from pandas import DataFrame, Series def create_dataframe(): countries = ['Russian Fed.', 'Norway'..
Data Science 기본 역량 + Numpy, Pandas 활용 기초 Data Scientist 기본 역량 데이터분석가의 기본 역량은 문제 해결을 위해 어떤 질문을 해야 할 줄 알고, 데이터를 잘 해석할 수 있고, 데이터 구조를 이해해야 하고, 주로 팀으로 일해야 한다. What does it mean for a data scientist to have 'substantive expertise', and why is it important? Knows which questions to ask Can interpret the data well Understands structure of the data Data scientist often works in teams → to problem solving Numpy 활용 예시 1. 통계 분석에 유용한 수학 함수 - 평균(Mea..
mAP, IOU란 + Object Detection 성능 평가 지표의 이해 및 예시 1. IOU (Intersection Over Union) 객체 검출의 정확도를 평가하는 지표. 일반적으로 Object Detection에서 개별 객체(Object)에 대한 검출(Detection)이 성공하였는지를 결정하는 지표로 0~1 사이의 값을 가짐 실제 객체 위치 bounding box $B_{gt}$=gournd truth와 예측한 bounding box $B_p$=prediction 두 box가 중복되는 영역의 크기를 통해 평가하는 방식으로 겹치는 영역이 넓을 수록 잘 예측한 것으로 평가 2. Precision & Recall 2.1 TP, FP, FN, TN with Confusion Matrix TP (True Postivie, 실제 양성 예측 양성) : 올바른 탐지. IOU ≥ thres..
[구글 클라우드] 텐서플로우를 활용한 Babyweight 예제 (source : GCP qwiklabs) 버킷생성 1. 버킷 생성 : Navigation menu> Storage > [Create a standard bucket] 2. Babyweight 데이터세트를 스토리지 버킷에 복사 - Cloud Shell에서, 아래 명령어를 실행하여 사전 처리된 데이터세트를 내 버킷에 복사 - 부분을 위에서 생성한 버킷 이름으로 변경 gsutil cp gs://cloud-training-demos/babyweight/preproc/* gs:///babyweight/preproc/ (결과화면) TensorBoard 설정 + AI Platform Notebooks 생성 3. Cloud Shell에서, TensorBoard를 지원하는 Cloud AI Platform Noteboo..
[구글 클라우드] 텐서플로우를 활용한 머신러닝 예제 (source : GCP qiwklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] TensorFlow 스케일링 - AI Platform Training 서비스 활용 (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 TensorBoard 설정 + AI Platform Notebooks 생성 1. Cloud Shell에서, TensorBoard를 지원하는 Cloud AI Platform Notebook 인스턴스를 생성 export IMAGE_FAMILY="tf-1-14-cpu" export ZONE="us-west1-b" export INSTANCE_NAME="tf-tensorboard-1" export INSTANCE_TYPE="n1-standard-4" gcloud compute instances create "${INSTANCE_NAME}" \ --zone="${ZON..
[구글 클라우드] 분산 학습 TensorFlow 모델 (Estimator API 사용) (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 1. 패키지 import from google.cloud import bigquery import tensorflow as tf import numpy as np import shutil print(tf.__version__) 2. 입력 CSV_COLUMNS = ['fare_amount', 'pickuplon','pickuplat','dropofflon','dropofflat','passengers', 'key'] LABEL_COLUMN = 'fare_amount' DEFAULTS = [[0.0], [-74.0], [40.0], [-74.0], [40.7], ..
[구글 클라우드] 배치 기반 TensorFlow 스케일업 (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 1. 패키지 import from google.cloud import bigquery import tensorflow as tf import numpy as np import shutil print(tf.__version__) 2. 입력 Refactor - Dataset API를 사용하여 데이터가 미니 배치로 모델에 전달 될 때, 필요할 때만 디스크에서 로드됨 CSV_COLUMNS = ['fare_amount', 'pickuplon','pickuplat','dropofflon','dropofflat','passengers', 'key'] DEFAULTS = [..
[구글 클라우드] Estimator API 사용해서 AI 모델 구현 (TensorFlow) (source : GCP qwiklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] Machine Learning APIs 활용하기 (source : GCP qiwklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] AI Platform Notebooks & BigQuery 를 사용한 데이터 분석 실습 노트(Jupyter Notebooks) 샘플 첨부 : (source : GCP qwiklabs) BigQuery 호출 BigQuery Console 열기 1. Navigation menu > BigQuery 클릭 2. Done 클릭 3. Query 텍스트 박스에서 아래 내용 입력 후, Run 클릭 #standardSQL SELECT departure_delay, COUNT(1) AS num_flights, APPROX_QUANTILES(arrival_delay, 5) AS arrival_delay_quantiles FROM `bigquery-samples.airline_ontime_data.flights` GROUP BY departure_delay HAVING num_flights > 100 RD..
[구글 클라우드] AI 플랫폼 활용 AI Platform 문서 https://cloud.google.com/ml-engine/docs/ AI Platform 문서 | Google Cloud 머신러닝 모델을 위한 관리형 서비스입니다. cloud.google.com AI Platform으로 머신러닝 기능 활용 Harness the Power of Machine Learning with Cloud ML Engine | Google Cloud Labs source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 가상 환경을 만들기 1. 패키지 목록 다운로드 & 업데이트 sudo apt-ge..
[구글 클라우드 플랫폼] 강화학습 활용 예제 (Reinforcement Learning on GCP) 강화 학습(Reinforcement Learning) 개념 에이전트(Agend)가 일련의 단계(State)에서 주어진 목표/보상(Objective/Reward)를 최대화하기 위해 환경(Environment)에서 동작(Action)하는 기계학습(Machine Learning)의 한 종류 구글 클라우드 플랫폼에서 강화학습(Reinforcement Learning) Job을 동작하기 위해 아래의 소스파일과 셸 커맨드를 참고하여 실습할 수 있음 GCP 에서 강화학습 실습하기 1. 탐색 메뉴에서 > AI Platform > Notebooks 를 선택 2. 상단 메뉴바에서 + 새 인스턴스 만들기 (New Instance) > 텐서플로우 2.1 (Tensorflow 2.1) > GPU 없는 버전(Without GPU..
[구글 클라우드] 영상 분석 예제 (Video Intelligence) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 Video Intelligence API 사용 설..
[구글 클라우드] 음성 처리 API 활용 예제 (Speech API) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 API 키 만들기 Speech API로 요청..
[구글 클라우드] 자연어 처리 API 사용 예제 (Natural Language API) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 실행 결과 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 API 키 만들기 PROJECT_ID 환경 ..
[구글 클라우드] Dataflow 템플릿 활용 스트리밍 파이프라인 만들기 source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼을 클릭합니다. 2. 계속(Continue) 클릭 실행 화면 : 사용 중인 계정 이름 목록 표시 gcloud auth list 출력: Credentialed accounts: - @.com (active) 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = - 참고 : gcloud 관련 전체 설명서 Google Cloud gcloud 개요 Cloud Shell을 사용하여 Cloud BigQuery 데이터세트 및 테이블 만들기 먼저 BigQuery 데이터세트 및 테이블 생성 - 참고: ..
[구글 클라우드] Dataprep 활용하기 soruce : GCP qwiklabs 프로젝트에 Cloud Storage 버킷 만들기 1. Cloud Platform Console에서 탐색 메뉴 > 저장소 > 브라우저 선택 2. 버킷 만들기를 클릭합니다. 3. 버킷 만들기 대화상자에서 버킷 이름 지정 (참고: 버킷 이름 요구사항) 4. 만들기(Create) 클릭 Cloud Dataprep 초기화 탐색 메뉴 > Dataprep 선택 Google Dataprep 서비스 약관에 동의하는 체크박스를 선택하고 동의 클릭 체크박스를 선택하여 Trifacta와의 계정 정보 공유를 승인한 다음 동의 및 계속하기 클릭 허용을 클릭하여 Trifacta가 프로젝트 데이터에 액세스하도록 허용 Trifacta에서 제공하는 Cloud Dataprep에 로그인할 때 사용할 G..
구글 클라우드 플랫폼(GCP)을 활용한 데이터 분석 Essential 참고사항 ● GCP 접속 및 테스트 1. Google Cloud Platform 콘솔 접속하기 https://cloud.google.com/storage/docs/cloud-console Google Cloud Platform Console | Cloud Storage Google Cloud Platform Console을 사용하여 Cloud Storage에서 간단한 스토리지 관리 작업을 수행하세요. GCP Console의 몇 가지 일반적인 용도는 다음과 같습니다. 프로젝트를 위해 Cloud Storage API 활성화 버킷 생성 및 삭제 객체 업로드, 다운로드, 삭제 ID 및 액세스 관리(IAM) 정책 관리 이 페이지는 GCP Console을 사용하여 데이터를 관리함으로써 완료할 수 있는 작업을 포함한 GCP ..
분석/참고용 데이터 소스 일반 데이터셋 목록 (예: 자동차 속도와 경고 신호, 국내 고양이 체중 등) Long general-purpose list of datasets https://vincentarelbundock.github.io/Rdatasets/datasets.html 아카데믹 토렌트 사이트 (위키피디아, 메일, 트위터, 학술 정보 등) The Academic Torrents site has a growing number of datasets, including a few text collections that might be of interest (Wikipedia, email, twitter, academic, etc.) for current or future projects. http://academictorren..