본문 바로가기

Biusiness Insight/Data Science

(30)
구글 클라우드 플랫폼(GCP)을 활용한 데이터 분석 Essential 참고사항 ● GCP 접속 및 테스트 1. Google Cloud Platform 콘솔 접속하기 https://cloud.google.com/storage/docs/cloud-console Google Cloud Platform Console | Cloud Storage Google Cloud Platform Console을 사용하여 Cloud Storage에서 간단한 스토리지 관리 작업을 수행하세요. GCP Console의 몇 가지 일반적인 용도는 다음과 같습니다. 프로젝트를 위해 Cloud Storage API 활성화 버킷 생성 및 삭제 객체 업로드, 다운로드, 삭제 ID 및 액세스 관리(IAM) 정책 관리 이 페이지는 GCP Console을 사용하여 데이터를 관리함으로써 완료할 수 있는 작업을 포함한 GCP ..
분석/참고용 데이터 소스 일반 데이터셋 목록 (예: 자동차 속도와 경고 신호, 국내 고양이 체중 등) Long general-purpose list of datasets https://vincentarelbundock.github.io/Rdatasets/datasets.html 아카데믹 토렌트 사이트 (위키피디아, 메일, 트위터, 학술 정보 등) The Academic Torrents site has a growing number of datasets, including a few text collections that might be of interest (Wikipedia, email, twitter, academic, etc.) for current or future projects. http://academictorren..
Machine Learning Cheat Sheets ■ Essential Cheat Sheets for Machine Learning and Deep Learning Engineershttps://startupsventurecapital.com/essential-cheat-sheets-for-machine-learning-and-deep-learning-researchers-efb6a8ebd2e5 1. Keras https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Keras_Cheat_Sheet_Python.pdf 2. Numpyhttps://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf 3. Pandasbasic..
카카오 AI 리포트 (Vol.1~3) 카카오 AI 리포트 Vol.1 (2017 MAR) 01. AI 기술 개발의 역사, 머신러닝과 딥러닝 - 최초의 AI프로그램, 논리연산가(Logic Theorist), CMU Allen Newell & Herbert A. Simon . 첫째, 추론을 통한 탐색 . 둘째, 경험적 방법론(Heuristics) 도입 . 셋째, 정보처리언어(IPL, Information Processing Language) 개발- 탐색과 추론의 시대- Machine Learning, 기계가 스스로 학습한다- Deep Learning, 인간 뇌의 정보처리 방식을 흉내낸다 02. AI 규제 동향 및 법적, 윤리적 쟁점현재 AI 분야에서는 모든 전문가들이 동의할만한 정의가 존재하지 않는다. 다만 AI 분야의 교과서로 알려진 '인공지능..
Confusion matrix와 주요 성능지표 산출식 Precision(정확도)와 Recall(재현율), Accuracy, and etc. 는 알고리즘 및 Machine Learning 모델의 성능을 평가하는 지표로 많이 사용되고, Confusion Matrix는 Training 을 통한 Prediction 성능을 측정하기 위해 예측 value와 실제 value를 비교하기 위한 표를 일컫는다. ■ 성능지표 및 용어 설명 용어 산출식 설명 예 Accuracy (TP+TN)/(TP+TN+FP+FN) 탐지율 : 맞게 검출한 비율 실제 악성/정상인지 맞게 예측한 비율 Precision TP/(TP+FP) 정확도 : P로 검출한 것중 실제P의 비율 악성으로 예측한것 중 실제 악성인 샘플의 비율 Recall TP/(TP+FN) 재현율 : 실제 P를 P로 예측한 비율 ..
[TensorFlow] 텐서플로우 관련 유용한 링크 ■ TensorFlow 텐서플로우(TensorFlow™)는 데이터 플로우 그래프(Data flow graph)를 사용하여 수치 연산을 하는 오픈소스 소프트웨어 라이브러리이다. 그래프의 노드(Node)는 수치 연산을 나타내고 엣지(edge)는 노드 사이를 이동하는 다차원 데이터 배열(텐서,tensor)를 나타낸다. 원래 머신러닝과 딥 뉴럴 네트워크 연구를 목적으로 구글의 인공지능 연구 조직인 구글 브레인 팀의 연구자와 엔지니어들에 의해 개발되었다. 2017년 2월 v1.0이 Release 되었다. 텐서플로우 공식홈 : https://www.tensorflow.org텐서플로우 블로그 : https://tensorflow.blog/텐서플로우 한글 GitBook : https://tensorflowkorea.g..
활용 가능한 Dataset 다운로드가 가능한 정답셋이 있는(labeling 된) 공개 데이터셋 중에서, 신뢰성이 높으며 비즈니스케이스 활용 가능한 학습데이터 1)HTTP CSIC 2010 Dataset for Intrusion detection (Security) - http://www.isi.csic.es/dataset/ 2)Multi-Source Cyber-Security Events Dataset (Security) - http://csr.lanl.gov/data/cyber1/ 3)Air Quality Dataset (Public sector) - http://archive.ics.uci.edu/ml/datasets/Air+Quality# 4)Gas Sensors for Home activity monitoring Datas..
Data Science & Machine Learning 관련 Coursera 추천 강의 리스트 데이터 과학과 관련된 Coursera 강의 및 Machine Learning 관련 추천 강의 리스트 Machine Learning by Stanford University - Schedule : 11 Weeks- Instructors : Andrew Ng- Link : https://www.coursera.org/learn/machine-learning/코세라 창업자이자 Machine Learning 의 4대 천황이라 알려진 앤드류 응(Andrew Ng) 교수가 직접 강의하는 코스로 Machine Learning 기본 개념을 쉽게 이해할 수 있다. The Data Scientist’s Toolboxby Johns Hopkins University - Schedule : 2016 March 14 ~ Apr..
IBM Watson 따라잡기 Cognitive Computing(인지컴퓨팅)은 1950년 튜링테스트를 시작으로 꾸준히 발전해 왔는데요, 1997년 IBM에서 개발한 Deep Blue는 체스 세계 챔피언을 이기며, 최초로 사람을 이긴 컴퓨터로 이름을 알렸습니다. 이후에도 IBM은 관련 연구를 지속적으로 수행해왔는데요, 드디어 2011년 IBM이 개발한 슈퍼컴퓨터 Watson이 jeopardy 퀴즈쇼에 출연하여 우승을 하며 본격적인 Cognitive 비즈니스 시대를 열게 됩니다. IT 전문가들은 Watson의 승리를 인공지는 개발사에 큰 획을 그은 역사적 사건으로 평가합니다. (* IBM은 Artificial Intelligence(인공지능) 라는 용어 대신에 Cognitive Computing, Cognitive Business 라는..
Artificial intelligence & Deep Learning (인공지능과 딥러닝) ■ 딥러닝 (Deelp Learning) (한글) 위키피디아 | (영어) 위키피디아Deep learning (deep structured learning or hierarchical learning) is a branch of machine learning based on a set of algorithms that attempt to model high-level abstractions in data by using model architectures, with complex structures or otherwise, composed of multiple non-linear transformations. 딥 러닝(Deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(ab..