본문 바로가기

Biusiness Insight/Data Science

분석/참고용 데이터 소스

반응형

일반 데이터셋 목록 (예: 자동차 속도와 경고 신호, 국내 고양이 체중 등)

Long general-purpose list of datasets

https://vincentarelbundock.github.io/Rdatasets/datasets.html

Rdatasets

 

아카데믹 토렌트 사이트 (위키피디아, 메일, 트위터, 학술 정보 등)

The Academic Torrents site has a growing number of datasets, including a few text collections that might be of interest (Wikipedia, email, twitter, academic, etc.) for current or future projects.

http://academictorrents.com/browse.php?cat=6

 

 

구글 북스 N그램 말뭉치

Google Books n-gram corpus

- 외부 링크 : http://books.google.com/ngrams

- 데이터 세트 ; 외부 링크 : http://aws.amazon.com/datasets/8172056142375670

- 일반적인 크롤링 (現 60억 개 웹 문서, 81TB)

Google Books Ngram

 

아마존(Amazon) S3 공개 데이터셋

http://aws.amazon.com/datasets/41740

 

커먼 크롤 데이터 세트 (컴퓨터 클러스터약 60억개 웹문서)

Common Crawl

https://commoncrawl.atlassian.net/wiki/display/CRWL/About+the+Data+Set

 

Common Crawl

옐프(Yelp) 오픈 데이터 셋 (상점 정보, 고객 리뷰 등을 포함한 옐프 데이터)

Yelp Open Dataset 

https://www.yelp.com/dataset

Yelp Open Data

 

인터넷 아카이브 데이터 (1990년대부터)

Internet Archive (huge, ever-growing archive of the Web going back to 1990s) external link:

JSON API for archive.org services and metadata

http://archive.org/help/json.php

 

Internet Archive

 

위키데이터

WikiData

https://www.wikidata.org/wiki/Wikidata:Main_Page

 

 

음식 데이터베이스 

Open Food Facts ; the free food products database

http://world.openfoodfacts.org/data

Open Food Facts

 

미국 데이터 ; 다양한 인구조사 데이터

Data USA - a variety of census data

https://datausa.io/

 

 

미국 정부 공개데이터 ; 75개 기관 및 하위기관 데이터

U.S. Government open data - datasets from 75 agencies and subagencies

https://data.gov/

U.S. Data.Gov

 

대한민국 정부 공공데이터 포털

http://data.go.kr/

Korea Data.Go.Kr

 

우주 및 지구과학 데이터 ; 미국항공우주국 데이터베이스 

NASA's Data Portal

https://data.nasa.gov/

 

* NASA : National Aeronautics and Space Administration

NASA's Data Portal

 

 

(미시건대학 Python 코세라 과정中 일부 발췌)

 

반응형