일반 데이터셋 목록 (예: 자동차 속도와 경고 신호, 국내 고양이 체중 등)
Long general-purpose list of datasets
https://vincentarelbundock.github.io/Rdatasets/datasets.html
아카데믹 토렌트 사이트 (위키피디아, 메일, 트위터, 학술 정보 등)
The Academic Torrents site has a growing number of datasets, including a few text collections that might be of interest (Wikipedia, email, twitter, academic, etc.) for current or future projects.
http://academictorrents.com/browse.php?cat=6
구글 북스 N그램 말뭉치
Google Books n-gram corpus
- 외부 링크 : http://books.google.com/ngrams
- 데이터 세트 ; 외부 링크 : http://aws.amazon.com/datasets/8172056142375670
- 일반적인 크롤링 (現 60억 개 웹 문서, 81TB)
아마존(Amazon) S3 공개 데이터셋
http://aws.amazon.com/datasets/41740
커먼 크롤 데이터 세트 (컴퓨터 클러스터약 60억개 웹문서)
Common Crawl
https://commoncrawl.atlassian.net/wiki/display/CRWL/About+the+Data+Set
- 커먼 크롤을 활용한 수상작 (약 30개 웹 페이지 크롤)
Noving Web Data Science Award (Award project using Common Crawl)
http://norvigaward.github.io/entries.html - 커먼 크롤 파이썬 예제
Python script for Common Crawl :
http://www.freelancer.com/projects/Python-Data-Processing/Python-script-for-CommonCrawl.html
옐프(Yelp) 오픈 데이터 셋 (상점 정보, 고객 리뷰 등을 포함한 옐프 데이터)
Yelp Open Dataset
인터넷 아카이브 데이터 (1990년대부터)
Internet Archive (huge, ever-growing archive of the Web going back to 1990s) external link:
JSON API for archive.org services and metadata
http://archive.org/help/json.php
위키데이터
WikiData
https://www.wikidata.org/wiki/Wikidata:Main_Page
음식 데이터베이스
Open Food Facts ; the free food products database
http://world.openfoodfacts.org/data
미국 데이터 ; 다양한 인구조사 데이터
Data USA - a variety of census data
미국 정부 공개데이터 ; 75개 기관 및 하위기관 데이터
U.S. Government open data - datasets from 75 agencies and subagencies
대한민국 정부 공공데이터 포털
우주 및 지구과학 데이터 ; 미국항공우주국 데이터베이스
NASA's Data Portal
* NASA : National Aeronautics and Space Administration
(미시건대학 Python 코세라 과정中 일부 발췌)
'Biusiness Insight > Data Science' 카테고리의 다른 글
Data Science 기본 역량 + Numpy, Pandas 활용 기초 (0) | 2021.10.03 |
---|---|
mAP, IOU란 + Object Detection 성능 평가 지표의 이해 및 예시 (1) | 2021.10.02 |
Machine Learning Cheat Sheets (0) | 2017.06.27 |
카카오 AI 리포트 (Vol.1~3) (0) | 2017.05.20 |
Confusion matrix와 주요 성능지표 산출식 (0) | 2017.05.05 |