본문 바로가기

Biusiness Insight/Data Science

(25)
[구글 클라우드] 텐서플로우를 활용한 Babyweight 예제 (source : GCP qwiklabs) 버킷생성 1. 버킷 생성 : Navigation menu> Storage > [Create a standard bucket] 2. Babyweight 데이터세트를 스토리지 버킷에 복사 - Cloud Shell에서, 아래 명령어를 실행하여 사전 처리된 데이터세트를 내 버킷에 복사 - 부분을 위에서 생성한 버킷 이름으로 변경 gsutil cp gs://cloud-training-demos/babyweight/preproc/* gs:///babyweight/preproc/ (결과화면) TensorBoard 설정 + AI Platform Notebooks 생성 3. Cloud Shell에서, TensorBoard를 지원하는 Cloud AI Platform Noteboo..
[구글 클라우드] 텐서플로우를 활용한 머신러닝 예제 (source : GCP qiwklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] TensorFlow 스케일링 - AI Platform Training 서비스 활용 (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 TensorBoard 설정 + AI Platform Notebooks 생성 1. Cloud Shell에서, TensorBoard를 지원하는 Cloud AI Platform Notebook 인스턴스를 생성 export IMAGE_FAMILY="tf-1-14-cpu" export ZONE="us-west1-b" export INSTANCE_NAME="tf-tensorboard-1" export INSTANCE_TYPE="n1-standard-4" gcloud compute instances create "${INSTANCE_NAME}" \ --zone="${ZON..
[구글 클라우드] 분산 학습 TensorFlow 모델 (Estimator API 사용) (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 1. 패키지 import from google.cloud import bigquery import tensorflow as tf import numpy as np import shutil print(tf.__version__) 2. 입력 CSV_COLUMNS = ['fare_amount', 'pickuplon','pickuplat','dropofflon','dropofflat','passengers', 'key'] LABEL_COLUMN = 'fare_amount' DEFAULTS = [[0.0], [-74.0], [40.0], [-74.0], [40.7], ..
[구글 클라우드] 배치 기반 TensorFlow 스케일업 (source : GCP qwiklabs) - Jupyter Notebook 실습 코드 - Jupyter Notebook 실습 코드 : 정답 포함 1. 패키지 import from google.cloud import bigquery import tensorflow as tf import numpy as np import shutil print(tf.__version__) 2. 입력 Refactor - Dataset API를 사용하여 데이터가 미니 배치로 모델에 전달 될 때, 필요할 때만 디스크에서 로드됨 CSV_COLUMNS = ['fare_amount', 'pickuplon','pickuplat','dropofflon','dropofflat','passengers', 'key'] DEFAULTS = [..
[구글 클라우드] Estimator API 사용해서 AI 모델 구현 (TensorFlow) (source : GCP qwiklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] Machine Learning APIs 활용하기 (source : GCP qiwklabs) AI Platform Notebooks 생성 1. Navigation Menu > AI Platform > Notebooks 클릭 2. 인스턴스 생성 : NEW INSTANCE 클릭 - Tensorflow Enterprise 1.15 > Without GPUs 선택 3. 팝업창이 뜨면 딥러닝 VM 이름을 입력/확인 하고 Create 클릭 (VM 생성까지 2~3분 정도 소요될 수 있음) 4. Open JupyterLab 클릭 > JupyterLab Window가 새창으로 열림 Datalab instance에 학습용 repo 복제 - training-data-analyst 를 내 JupyterLab 인스턴스에 복제 1. JupyterLab 에서 터미널 아이콘(Ter..
[구글 클라우드] AI Platform Notebooks & BigQuery 를 사용한 데이터 분석 실습 노트(Jupyter Notebooks) 샘플 첨부 : (source : GCP qwiklabs) BigQuery 호출 BigQuery Console 열기 1. Navigation menu > BigQuery 클릭 2. Done 클릭 3. Query 텍스트 박스에서 아래 내용 입력 후, Run 클릭 #standardSQL SELECT departure_delay, COUNT(1) AS num_flights, APPROX_QUANTILES(arrival_delay, 5) AS arrival_delay_quantiles FROM `bigquery-samples.airline_ontime_data.flights` GROUP BY departure_delay HAVING num_flights > 100 RD..
[구글 클라우드] AI 플랫폼 활용 AI Platform 문서 https://cloud.google.com/ml-engine/docs/ AI Platform 문서 | Google Cloud 머신러닝 모델을 위한 관리형 서비스입니다. cloud.google.com AI Platform으로 머신러닝 기능 활용 Harness the Power of Machine Learning with Cloud ML Engine | Google Cloud Labs source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 가상 환경을 만들기 1. 패키지 목록 다운로드 & 업데이트 sudo apt-ge..
[구글 클라우드 플랫폼] 강화학습 활용 예제 (Reinforcement Learning on GCP) 강화 학습(Reinforcement Learning) 개념 에이전트(Agend)가 일련의 단계(State)에서 주어진 목표/보상(Objective/Reward)를 최대화하기 위해 환경(Environment)에서 동작(Action)하는 기계학습(Machine Learning)의 한 종류 구글 클라우드 플랫폼에서 강화학습(Reinforcement Learning) Job을 동작하기 위해 아래의 소스파일과 셸 커맨드를 참고하여 실습할 수 있음 GCP 에서 강화학습 실습하기 1. 탐색 메뉴에서 > AI Platform > Notebooks 를 선택 2. 상단 메뉴바에서 + 새 인스턴스 만들기 (New Instance) > 텐서플로우 2.1 (Tensorflow 2.1) > GPU 없는 버전(Without GPU..
[구글 클라우드] 영상 분석 예제 (Video Intelligence) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 Video Intelligence API 사용 설..
[구글 클라우드] 음성 처리 API 활용 예제 (Speech API) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 결과 화면 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 API 키 만들기 Speech API로 요청..
[구글 클라우드] 자연어 처리 API 사용 예제 (Natural Language API) source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭 2. 계속(Continue) 클릭 실행 결과 : 계정 목록 조회 gcloud auth list 출력: Credentialed accounts: - @.com (active) 출력 예: Credentialed accounts: - google1623327_student@qwiklabs.net 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = 출력 예: [core] project = qwiklabs-gcp-44776a13dea667a6 API 키 만들기 PROJECT_ID 환경 ..
[구글 클라우드] Dataflow 템플릿 활용 스트리밍 파이프라인 만들기 source : GCP qwiklabs Google Cloud Shell 활성화하기 1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼을 클릭합니다. 2. 계속(Continue) 클릭 실행 화면 : 사용 중인 계정 이름 목록 표시 gcloud auth list 출력: Credentialed accounts: - @.com (active) 프로젝트 ID 목록 조회 gcloud config list project 출력: [core] project = - 참고 : gcloud 관련 전체 설명서 Google Cloud gcloud 개요 Cloud Shell을 사용하여 Cloud BigQuery 데이터세트 및 테이블 만들기 먼저 BigQuery 데이터세트 및 테이블 생성 - 참고: ..
[구글 클라우드] Dataprep 활용하기 soruce : GCP qwiklabs 프로젝트에 Cloud Storage 버킷 만들기 1. Cloud Platform Console에서 탐색 메뉴 > 저장소 > 브라우저 선택 2. 버킷 만들기를 클릭합니다. 3. 버킷 만들기 대화상자에서 버킷 이름 지정 (참고: 버킷 이름 요구사항) 4. 만들기(Create) 클릭 Cloud Dataprep 초기화 탐색 메뉴 > Dataprep 선택 Google Dataprep 서비스 약관에 동의하는 체크박스를 선택하고 동의 클릭 체크박스를 선택하여 Trifacta와의 계정 정보 공유를 승인한 다음 동의 및 계속하기 클릭 허용을 클릭하여 Trifacta가 프로젝트 데이터에 액세스하도록 허용 Trifacta에서 제공하는 Cloud Dataprep에 로그인할 때 사용할 G..
구글 클라우드 플랫폼(GCP)을 활용한 데이터 분석 Essential 참고사항 ● GCP 접속 및 테스트 1. Google Cloud Platform 콘솔 접속하기 https://cloud.google.com/storage/docs/cloud-console Google Cloud Platform Console | Cloud Storage Google Cloud Platform Console을 사용하여 Cloud Storage에서 간단한 스토리지 관리 작업을 수행하세요. GCP Console의 몇 가지 일반적인 용도는 다음과 같습니다. 프로젝트를 위해 Cloud Storage API 활성화 버킷 생성 및 삭제 객체 업로드, 다운로드, 삭제 ID 및 액세스 관리(IAM) 정책 관리 이 페이지는 GCP Console을 사용하여 데이터를 관리함으로써 완료할 수 있는 작업을 포함한 GCP ..
분석/참고용 데이터 소스 일반 데이터셋 목록 (예: 자동차 속도와 경고 신호, 국내 고양이 체중 등) Long general-purpose list of datasets https://vincentarelbundock.github.io/Rdatasets/datasets.html 아카데믹 토렌트 사이트 (위키피디아, 메일, 트위터, 학술 정보 등) The Academic Torrents site has a growing number of datasets, including a few text collections that might be of interest (Wikipedia, email, twitter, academic, etc.) for current or future projects. http://academictorren..
Machine Learning Cheat Sheets ■ Essential Cheat Sheets for Machine Learning and Deep Learning Engineershttps://startupsventurecapital.com/essential-cheat-sheets-for-machine-learning-and-deep-learning-researchers-efb6a8ebd2e5 1. Keras https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf 2. Numpyhttps://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf 3. Pandasbasic..
카카오 AI 리포트 (Vol.1~3) 카카오 AI 리포트 Vol.1 (2017 MAR) 01. AI 기술 개발의 역사, 머신러닝과 딥러닝 - 최초의 AI프로그램, 논리연산가(Logic Theorist), CMU Allen Newell & Herbert A. Simon . 첫째, 추론을 통한 탐색 . 둘째, 경험적 방법론(Heuristics) 도입 . 셋째, 정보처리언어(IPL, Information Processing Language) 개발- 탐색과 추론의 시대- Machine Learning, 기계가 스스로 학습한다- Deep Learning, 인간 뇌의 정보처리 방식을 흉내낸다 02. AI 규제 동향 및 법적, 윤리적 쟁점현재 AI 분야에서는 모든 전문가들이 동의할만한 정의가 존재하지 않는다. 다만 AI 분야의 교과서로 알려진 '인공지능..
Confusion matrix와 주요 성능지표 산출식 Precision(정확도)와 Recall(재현율), Accuracy, and etc. 는 알고리즘 및 Machine Learning 모델의 성능을 평가하는 지표로 많이 사용되고, Confusion Matrix는 Training 을 통한 Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한 표를 일컫는다. ■ 성능지표 및 용어 설명 용어 산출식 설명 예 Accuracy (TP+TN)/(TP+TN+FP+FN) 탐지율 : 맞게 검출한 비율 실제 악성/정상인지 맞게 예측한 비율 Precision TP/(TP+FP) 정확도 : P로 검출한 것중 실제P의 비율 악성으로 예측한것 중 실제 악성인 샘플의 비율 Recall TP/(TP+FN) 재현율 : 실제 P를 P로 예측한 비율 ..