那些公开的数据源
据说数据是财富。虽然国内现有的公开数据比较少,但是还是想慢慢收集一些公开的数据,来做一些事情。也就找了找,整理了下。
一、测试数据集
1、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
2、样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
3、各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/[url=http://bbs.pinggu.org/thread-2969767-1-1.html
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
4、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
5、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
6、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
7、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
(1)A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
(2)A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
(3)A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
8、reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
二. 收集数据集的网站
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon从2008年开始就为开发者提供几十TB的开发数据。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
5. 其他一些数据下载的网站
这些网站已经从各种地方收集了相当多的数据。有时更容易从这里找到好东西。
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
Programmable Web:这是一个探索各类API的好地方。
infofochimps:提供了一个数据集市,其中有大量的公开数据资源和API资源。类别非常广泛,从Twitter到地理位置数据。用户甚至可以上传自己的数据。
Data Market:这也是一个好地方,数据包括了经济,医疗保健,食品和农业,汽车行业相关的数据。
Google Public data explorer:谷歌公共数据浏览容纳大量的数据,从世界发展指标、经合组织和人类发展指标,主要是有关经济数据。
Junar:这也是一个很好的提供的数据抓取和传送服务的网站。
Buzzdata:这是一个提供数据共享服务的网站,它允许用户上传自己的数据和连接。
6、在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html/
7、以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
8、进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
三.行业数据
1、跟互联网有关的数据集
(1)Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
(2)1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。
(3)Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
(4)AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
(5)livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
2、政府数据
Data.gov:这是美国政府收集的数据资源。声称有多达40万个数据集,包括了原始数据和地理空间格式数据。使用这些数据集需要注意的是:你要进行必要的清理工作,因为许多数据是字符型的或是有缺失值。
Socrata:它是探索政府相数据的另一个好地方。Socrata的一个了不起的地方是,他们有不错的可视化工具,使研究数据更为容易。
一些城市都有自己的数据门户网站设置,可供访问者浏览城市的相关数据。例如,在旧金山数据网站,你可以获得很多数据,从犯罪统计到城市的停车位。
联合国有关网站,例如世界卫生组织提供了丰富的数据资源,从死亡率到世界饥饿统计数字。
美国人口普查局也有相当多的生活数据,例如收入、种族、教育、人口和商业信息。
3、社交网络数据
通常情况下要得到社交数据,需要依赖社交网站本身提供的API数据。
Twitter:你可以访问Twitter API,但其用途相当有限,Twitter API有一个获取数据的限制。如果需要更多信息,可以去看看Gnip或者PeopleBrowsr,DataSift。
Foursquare:他们有自己的API,你也可以通过Infochimps得到它。
Facebook:Facebook的图形API是Facebook的最佳资源。
Face.com:一个提供面部识别数据的工具。
4、气象数据
Wunderground:这里提供了详细的天气信息,可以用邮政编码或城市名称来搜索历史数据。它提供了温度、风速、降水等信息。
Weatherbase:有详细的天气统计数据,近27000个城市的温度,降雨和湿度。
气候监测数据: http://cdiac.ornl.gov/ftp/ndp026b
5、体育数据
下面三个网站都提供球队、球员、教练和经理的全面信息。
足球:http://www.pro-football-reference.com/
棒球:http://www.baseball-reference.com/
篮球:http://www.basketball-reference.com/
ESPN最近也推出了自己的API,但你必须是一个合作伙伴才可以获得他们的数据。
6、高校和科研
针对在某一领域的学者工作进行搜索是获取数据的有效方法。如果你想在一份研究报告中用一份相关数据,最好的办法是直接联系有关专业的大学教授。
加州大学洛杉矶分校提供了一些在其课程中使用的数据集:http://statistics.ucla.edu/
7、金融数据
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
关于基金的数据挖掘的网站:http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
8、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
9、新闻资料
The New York Times:它有一个很好的API和资源管理器访问任何出版物中的文章。
The Guardian Data Blog:卫报的数据博客会定期提供一些数据可视化的文章,其数据可通过Google文档格式下载。
下面是笔者的补充:
世界银行数据:http://data.worldbank.org/
美联储数据:https://research.stlouisfed.org/fred2/
联合国数据:http://data.un.org/
国际货币基金数据:http://www.imf.org/external/data.htm
中央情报局数据:https://www.cia.gov/library/publications/the-world-factbook/
美国地理调查局数据:http://waterdata.usgs.gov/nwis
世界经合组织数据:http://stats.oecd.org/
10、数据源手册。该书主要介绍了几十种非常有用的API和相关网站,值得一读。
四、海量图像数据集
1、ImageNet
http://www.image-net.org/
包含1400万的图像。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100万的图像集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1亿600万的图像
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100万的图像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2亿图像
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频
10、TRECVID
http://trecvid.nist.gov/
11、Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z
12、2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
五、其他
1.、100多个有趣的数据集
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics
2.、如果还找不到就用这个,慢慢翻
https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
参考:
[1] http://bbs.pinggu.org/forum.php?mod=viewthread&tid=2969767&page=1&fromuid=4073313
[2] http://www.zhihu.com/question/19969760/answer/13512324
[3] http://www.r-bloggers.com/lang/chinese/988
一、测试数据集
1、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
2、样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
3、各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/[url=http://bbs.pinggu.org/thread-2969767-1-1.html
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
4、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
5、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
6、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
7、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
(1)A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
(2)A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
(3)A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
8、reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
二. 收集数据集的网站
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon从2008年开始就为开发者提供几十TB的开发数据。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
5. 其他一些数据下载的网站
这些网站已经从各种地方收集了相当多的数据。有时更容易从这里找到好东西。
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
Programmable Web:这是一个探索各类API的好地方。
infofochimps:提供了一个数据集市,其中有大量的公开数据资源和API资源。类别非常广泛,从Twitter到地理位置数据。用户甚至可以上传自己的数据。
Data Market:这也是一个好地方,数据包括了经济,医疗保健,食品和农业,汽车行业相关的数据。
Google Public data explorer:谷歌公共数据浏览容纳大量的数据,从世界发展指标、经合组织和人类发展指标,主要是有关经济数据。
Junar:这也是一个很好的提供的数据抓取和传送服务的网站。
Buzzdata:这是一个提供数据共享服务的网站,它允许用户上传自己的数据和连接。
6、在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html/
7、以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
8、进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
三.行业数据
1、跟互联网有关的数据集
(1)Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
(2)1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。
(3)Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
(4)AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
(5)livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
2、政府数据
Data.gov:这是美国政府收集的数据资源。声称有多达40万个数据集,包括了原始数据和地理空间格式数据。使用这些数据集需要注意的是:你要进行必要的清理工作,因为许多数据是字符型的或是有缺失值。
Socrata:它是探索政府相数据的另一个好地方。Socrata的一个了不起的地方是,他们有不错的可视化工具,使研究数据更为容易。
一些城市都有自己的数据门户网站设置,可供访问者浏览城市的相关数据。例如,在旧金山数据网站,你可以获得很多数据,从犯罪统计到城市的停车位。
联合国有关网站,例如世界卫生组织提供了丰富的数据资源,从死亡率到世界饥饿统计数字。
美国人口普查局也有相当多的生活数据,例如收入、种族、教育、人口和商业信息。
3、社交网络数据
通常情况下要得到社交数据,需要依赖社交网站本身提供的API数据。
Twitter:你可以访问Twitter API,但其用途相当有限,Twitter API有一个获取数据的限制。如果需要更多信息,可以去看看Gnip或者PeopleBrowsr,DataSift。
Foursquare:他们有自己的API,你也可以通过Infochimps得到它。
Facebook:Facebook的图形API是Facebook的最佳资源。
Face.com:一个提供面部识别数据的工具。
4、气象数据
Wunderground:这里提供了详细的天气信息,可以用邮政编码或城市名称来搜索历史数据。它提供了温度、风速、降水等信息。
Weatherbase:有详细的天气统计数据,近27000个城市的温度,降雨和湿度。
气候监测数据: http://cdiac.ornl.gov/ftp/ndp026b
5、体育数据
下面三个网站都提供球队、球员、教练和经理的全面信息。
足球:http://www.pro-football-reference.com/
棒球:http://www.baseball-reference.com/
篮球:http://www.basketball-reference.com/
ESPN最近也推出了自己的API,但你必须是一个合作伙伴才可以获得他们的数据。
6、高校和科研
针对在某一领域的学者工作进行搜索是获取数据的有效方法。如果你想在一份研究报告中用一份相关数据,最好的办法是直接联系有关专业的大学教授。
加州大学洛杉矶分校提供了一些在其课程中使用的数据集:http://statistics.ucla.edu/
7、金融数据
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
关于基金的数据挖掘的网站:http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
8、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
9、新闻资料
The New York Times:它有一个很好的API和资源管理器访问任何出版物中的文章。
The Guardian Data Blog:卫报的数据博客会定期提供一些数据可视化的文章,其数据可通过Google文档格式下载。
下面是笔者的补充:
世界银行数据:http://data.worldbank.org/
美联储数据:https://research.stlouisfed.org/fred2/
联合国数据:http://data.un.org/
国际货币基金数据:http://www.imf.org/external/data.htm
中央情报局数据:https://www.cia.gov/library/publications/the-world-factbook/
美国地理调查局数据:http://waterdata.usgs.gov/nwis
世界经合组织数据:http://stats.oecd.org/
10、数据源手册。该书主要介绍了几十种非常有用的API和相关网站,值得一读。
四、海量图像数据集
1、ImageNet
http://www.image-net.org/
包含1400万的图像。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100万的图像集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1亿600万的图像
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100万的图像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2亿图像
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频
10、TRECVID
http://trecvid.nist.gov/
11、Stack Overflow Dump Files
7.3G stackoverflow.com-Posts.7z
573.1K stackoverflow.com-Tags.7z
153.0M stackoverflow.com-Users.7z
2.2G stackoverflow.com-Comments.7z
12、2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
五、其他
1.、100多个有趣的数据集
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics
2.、如果还找不到就用这个,慢慢翻
https://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public
参考:
[1] http://bbs.pinggu.org/forum.php?mod=viewthread&tid=2969767&page=1&fromuid=4073313
[2] http://www.zhihu.com/question/19969760/answer/13512324
[3] http://www.r-bloggers.com/lang/chinese/988
-
太甲真人 赞了这篇日记 2020-03-06 20:00:09
-
小匠 赞了这篇日记 2019-04-04 17:11:30
-
Tomor 赞了这篇日记 2018-07-06 15:51:28
-
活到老学到老 赞了这篇日记 2018-05-23 16:52:58
-
蘑菇 赞了这篇日记 2018-03-13 19:28:26
-
鹰唳 赞了这篇日记 2017-11-23 10:12:09
-
Salmon 赞了这篇日记 2017-11-02 07:50:34
-
shadow 赞了这篇日记 2017-10-19 22:32:32
-
匿名的人 赞了这篇日记 2017-09-12 17:54:48
-
ⒼⒶⓈ 赞了这篇日记 2017-04-12 08:07:01
-
纳荻 赞了这篇日记 2017-03-25 13:03:00
-
whitebb 赞了这篇日记 2017-03-19 21:17:21
-
sky的天空 赞了这篇日记 2017-01-20 23:07:56
-
无用 赞了这篇日记 2016-10-11 11:38:38
-
大啸 赞了这篇日记 2016-04-13 02:43:12
-
永远只是个歌名 赞了这篇日记 2016-01-21 17:50:41
-
南风天 赞了这篇日记 2015-12-04 20:08:03
-
死亡和指南针 赞了这篇日记 2015-11-16 14:18:55
-
天边一朵云 赞了这篇日记 2015-11-12 21:11:33
-
不服不忿 赞了这篇日记 2015-11-12 14:32:20
-
時分針左旋 赞了这篇日记 2015-11-12 13:17:30
-
暴风雪的守门人 赞了这篇日记 2015-11-12 13:05:26