[구글 클라우드] 배치 기반 TensorFlow 스케일업

(source : GCP qwiklabs)

- Jupyter Notebook 실습 코드

- Jupyter Notebook 실습 코드 : 정답 포함

1. 패키지 import

from google.cloud import bigquery
import tensorflow as tf
import numpy as np
import shutil
print(tf.__version__)

2. 입력 Refactor

- Dataset API를 사용하여 데이터가 미니 배치로 모델에 전달 될 때, 필요할 때만 디스크에서 로드됨

CSV_COLUMNS = ['fare_amount', 'pickuplon','pickuplat','dropofflon','dropofflat','passengers', 'key']
DEFAULTS = [[0.0], [-74.0], [40.0], [-74.0], [40.7], [1.0], ['nokey']]

def read_dataset(filename, mode, batch_size = 512):
  def decode_csv(row):
    columns = tf.decode_csv(row, record_defaults = DEFAULTS)
    features = dict(zip(CSV_COLUMNS, columns))
    features.pop('key') # discard, not a real feature
    label = features.pop('fare_amount') # remove label from features and store
    return features, label

  # Create list of file names that match "glob" pattern (i.e. data_file_*.csv)
  filenames_dataset = tf.data.Dataset.list_files(filename, shuffle=False)
  # Read lines from text files
  textlines_dataset = filenames_dataset.flat_map(tf.data.TextLineDataset)
  # Parse text lines as comma-separated values (CSV)
  dataset = textlines_dataset.map(decode_csv)

  # Note:
  # use tf.data.Dataset.flat_map to apply one to many transformations (here: filename -> text lines)
  # use tf.data.Dataset.map      to apply one to one  transformations (here: text line -> feature list)

  if mode == tf.estimator.ModeKeys.TRAIN:
      num_epochs = None # loop indefinitely
      dataset = dataset.shuffle(buffer_size = 10 * batch_size, seed=2)
  else:
      num_epochs = 1 # end-of-input after this

  dataset = dataset.repeat(num_epochs).batch(batch_size)

  return dataset

def get_train_input_fn():
  return read_dataset('./taxi-train.csv', mode = tf.estimator.ModeKeys.TRAIN)

def get_valid_input_fn():
  return read_dataset('./taxi-valid.csv', mode = tf.estimator.ModeKeys.EVAL)

3. feature 생성 방식 리팩토링

INPUT_COLUMNS = [
    tf.feature_column.numeric_column('pickuplon'),
    tf.feature_column.numeric_column('pickuplat'),
    tf.feature_column.numeric_column('dropofflat'),
    tf.feature_column.numeric_column('dropofflon'),
    tf.feature_column.numeric_column('passengers'),
]

def add_more_features(feats):
  # Nothing to add (yet!)
  return feats

feature_cols = add_more_features(INPUT_COLUMNS)

4. 모델 생성 및 학습

- num_steps * batch_size 예제 학습

tf.logging.set_verbosity(tf.logging.INFO)
OUTDIR = 'taxi_trained'
shutil.rmtree(OUTDIR, ignore_errors = True) # start fresh each time
model = tf.estimator.LinearRegressor(
      feature_columns = feature_cols, model_dir = OUTDIR)
model.train(input_fn = get_train_input_fn, steps = 200)

5. 모델 평가

metrics = model.evaluate(input_fn = get_valid_input_fn, steps = None)
print('RMSE on dataset = {}'.format(np.sqrt(metrics['average_loss'])))

저작자표시 비영리 동일조건

'Biusiness Insight > Gen AI · Data Analytics' 카테고리의 다른 글

[구글 클라우드] TensorFlow 스케일링 - AI Platform Training 서비스 활용 (0)	2020.04.25
[구글 클라우드] 분산 학습 TensorFlow 모델 (Estimator API 사용) (0)	2020.04.23
[구글 클라우드] Estimator API 사용해서 AI 모델 구현 (TensorFlow) (0)	2020.04.21
[구글 클라우드] Machine Learning APIs 활용하기 (0)	2020.04.20
[구글 클라우드] AI Platform Notebooks & BigQuery 를 사용한 데이터 분석 (0)	2020.04.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

. way to L!ah ;

[구글 클라우드] 배치 기반 TensorFlow 스케일업

1. 패키지 import

'Biusiness Insight > Gen AI · Data Analytics' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[구글 클라우드] 배치 기반 TensorFlow 스케일업

1. 패키지 import

'Biusiness Insight > Gen AI · Data Analytics' 카테고리의 다른 글

'Biusiness Insight/Gen AI · Data Analytics' Related Articles

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역