본문 바로가기

Biusiness Insight/Computer Science

[구글 클라우드] Dataproc 클러스터 만들기 (명령 프롬프트)

반응형

source : GCP qwiklabs

 

Google Cloud Shell 활성화하기

1. GCP Console의 오른쪽 상단 툴바에서 Cloud Shell 열기 버튼 클릭

 

2. 계속(Continue) 클릭

 

(결과)

 

계정 이름 목록 조회

gcloud auth list

 

출력:

Credentialed accounts: - <myaccount>@<mydomain>.com (active)

 

출력 예:

Credentialed accounts: - google1623327_student@qwiklabs.net

 

프로젝트 ID 목록 조회

gcloud config list project

 

출력:

[core] project = <project_ID>

 

출력 예:

[core] project = qwiklabs-gcp-44776a13dea667a6

 

(참고 : gcloud 관련 전체 설명서 Google Cloud gcloud 개요)

 

 

클러스터 만들기

1. 리전 설정 (Cloud Shell에서 다음 명령 실행)

gcloud config set dataproc/region global

 

2. Cloud Dataproc 설정으로 example-cluster라는 이름의 클러스터 생성

gcloud dataproc clusters create example-cluster

 

- 클러스터 영역을 확인하라는 메시지가 표시되는 경우 Y를 입력

- 클러스터는 몇 분 동안 빌드됨

출력 : 

Waiting for cluster creation operation...done. Created [... example-cluster]

 

- '생성됨' 메시지가 나타나면 계속 진행

 

 

작업 제출하기

대략적인 pi 값을 계산하는 샘플 Spark 작업을 제출하기 위해 다음 명령 실행

gcloud dataproc jobs submit spark --cluster 
example-cluster \ 
    --class org.apache.spark.examples.SparkPi \ 
    --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000

 

 

  • example-cluster 클러스터에서 spark 작업을 실행하고자 함
  • 작업의 pi를 계산하는 애플리케이션에 대한 기본 메소드가 포함된 class
  • 작업의 코드가 포함된 jar 파일의 위치
  • 작업에 전달할 매개변수(이 경우에는 작업 개수인 1000)

- 작업에 전달되는 매개변수 앞에는 이중 대시(--)가 붙어야 함. (참고: gcloud 문서)

 

출력 : 

Waiting for job output... 
... 
Pi is roughly 3.14118528 
... 
Job finished successfully.

 

 

클러스터 업데이트하기

- 클러스터의 작업자 수를 4로 변경

gcloud dataproc clusters update example-cluster --num-workers 4

 

출력 : 

Waiting on operation [projects/qwiklabs-gcp-
7f7aa0829e65200f/regions/global/operations/b86892cc-
e71d-4e7b-aa5e-6030c945ea67].

Waiting for cluster update operation...done.

 

- 동일한 명령어를 사용하여 작업자 노드의 수 조정 가능

gcloud dataproc clusters update example-cluster --num-workers 2

 

반응형