从文本处理到自动驾驶：机器学习最常用的50大免费数据集_程序员

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

金华新闻网

2018-06-18 01:51:07

0次

机器学习领域里有哪些开放数据集?Gengo 近日发布了一份高质量免费数据集列表，其搜索范围不仅包含内容广泛(如 Kaggle)，也包括高度特化的(如自动驾驶汽车专用数据集)数据集种类。

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

首先，在选择数据集时要记住几个重要标准：

数据集不能是混乱的，因为你不希望花费大量时间整理数据。

数据集不应该有过多的行或者列，这样才能容易处理。

数据越干净越好——清理大型数据集可能会非常耗时。

该数据集可以用于回答一些有趣的问题。

这样的话，让我们看看能找到点什么?

一、查找数据集

1. Kaggle：一个数据科学竞赛网站，其中包含大量外部贡献的有趣数据集。你可以在它长长的列表中(https://www.kaggle.com/datasets)找到各种小众数据集，从拉面的评分、篮球数据，到西雅图的宠物牌照。

2. UCI Machine Learning Repository：它是网络中最古老的数据集源之一，是寻找各种有趣数据集的第一选择。在这里，尽管数据集都是用户自行贡献的，但清洁程度仍然很高。此外，你可以直接从 UCI Machine Learning Repository 上下载数据，无需注册。

二、通用数据集

公共政府数据集

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

3. Data.gov：这个网站可以从多个美国政府机构下载数据，从政府预算到学校成绩。不过要注意：其中的大部分数据需要进一步研究。

链接：https://www.data.gov/

4. Food Environment Atlas：包含有关本地食物选择如何影响美国饮食习惯的数据。

链接：https://catalog.data.gov/dataset/food-environment-atlas-f4a22

5. School system finances：美国学校系统财务状况调查。

链接：https://catalog.data.gov/dataset/annual-survey-of-school-system-finances

6. Chronic disease data：美国各地慢性病指标数据。

链接：https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi-e50c9

7. The US National Center for Education Statistics：美国和世界各地教育机构和教育人口统计数据。

链接：https://nces.ed.gov/

8. The UK Data Centre：英国最大的社会、经济和人口数据收集。

链接：https://www.ukdataservice.ac.uk/

9. Data USA：美国公共数据的全面可视化。

链接：

金融类

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

10. Quandl：很好的财经数据来源——有助于建立预测经济指标或股票价格的模型。

链接：https://www.quandl.com/

11. World Bank Open Data：涵盖人口统计和世界各地大量经济和发展指标的数据集。

链接：https://data.worldbank.org/

12. IMF Data：国际货币基金组织公布有关国际金融、债务利率、外汇储备、商品价格和投资的数据。

链接：https://www.imf.org/en/Data

13. Financial Times Market Data：世界金融市场的最新信息，包括股票价格指数、商品和外汇。

链接：https://markets.ft.com/data/

14. Google Trends：观察和分析有关互联网搜索活动和世界各地新闻故事趋势的数据。

链接：?q=google&ctab=0&geo=all&date=all&sort=0

15. AmericanEconomic Association (AEA)：寻找美国宏观经济数据的来源。

链接：https://www.aeaweb.org/resources/data/us-macro-regional

三、机器学习数据集

图像

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

16. Labelme：注释图像的大数据集。

链接：

17. ImageNet：著名的 ImageNet，由斯坦福大学教授李飞飞等人发起，它是面向新算法的真实图像数据集。根据 WordNet 层次结构来组织，其中层次结构的每个节点都由成百上千个图像来描述。

链接：

18. LSUN：场景理解和许多辅助任务(房间布局估计、显著性预测等)。

链接：

19. MS COCO：ImageNet 之外另一个常用的图像数据集，包含通用图像理解和注释。

链接：

20. COIL100：100 个不同的物体在 360°旋转中以每个角度成像。

链接：

21. Visual Genome：非常详细的视觉知识库，配有约 100K 个图像的注释。

链接：

22. Google's Open Images：Creative Commons 下的 900 万个图片的网址集合，「已经标注了跨越 6000 多个类别的标签」。

链接：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

23. Labelled Faces in the Wild：13000 张贴有标签的人脸图像，用于开发涉及人脸识别的应用。

链接：

24. Stanford Dogs Dataset：包含 20580 个图像和 120 个不同品种的狗类别。

链接：

25. Indoor Scene Recognition：非常具体的数据集，适用于大多数场景识别模型，因为后者在「外部」表现更好。包含 67 个室内类别，总共 15620 个图像。

链接：

情感分析

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

26. Multidomain Sentiment analysis dataset：有点旧的一个数据集，以亚马逊的产品评论为特色。

链接：~mdredze/datasets/sentiment/

27. IMDB reviews：用于二进制情感分类的较旧的、相对较小的数据集，具有 25000 个电影评论。

链接：~amaas/data/sentiment/

28. Stanford Sentiment Treebank：带有情感注释的标准情感数据集。

链接：https://nlp.stanford.edu/sentiment/code.html

29. Sentiment140：一个流行的数据集，使用 16 万条预先删除表情符号的推文

链接：

30. Twitter US Airline Sentiment：2015 年 2 月以来美国航空公司的推特数据，分为正面、负面和中性。

链接：https://www.kaggle.com/crowdflower/twitter-airline-sentiment

自然语言处理

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

31. Enron Dataset：Enron 公司高层管理人员的电子邮件数据，整理成文件夹。

链接：https://www.cs.cmu.edu/~./enron/

32. Amazon Reviews：包含来自亚马逊长达 18 年的约 3500 万条评论。数据包括产品和用户信息、评级和明文审查。

链接：https://snap.stanford.edu/data/web-Amazon.html

33. Google Books Ngrams：Google 书籍中的词汇集合。

链接：https://aws.amazon.com/cn/datasets/google-books-ngrams/

34. Blogger Corpus：从 blogger . com 收集的 681288 篇博客文章。每个博客至少包含 200 个常用英语单词。

链接：~koppel/BlogCorpus.htm

35. Wikipedia Links data：维基百科全文。数据集包含 400 多万篇文章中的近 19 亿字。你可以根据单词、短语或段落本身的一部分进行搜索。

链接：https://code.google.com/p/wiki-links/downloads/list

36. Gutenberg eBooks List：古腾堡计划电子书注释清单。

链接：:Offline_Catalogs

37. Hansards text chunks of Canadian Parliament：加拿大第 36 届国会记录 130 万对文本。

链接：https://www.isi.edu/natural-language/download/hansard/

38. Jeopardy：机智问答节目 Jeopardy 中存档的 20 多万个问题。

链接：https://www.reddit.com/r/datasets/comments/1uyd0t/200000jeopardyquestionsinajsonfile/

39. SMS Spam Collection in English：由 5574 条英文短信垃圾邮件组成的数据集

链接：~tiago/smsspamcollection/

40. Yelp Reviews：Yelp 发布的开放数据集包含 500 多万条评论。

链接：https://www.yelp.com/dataset

41. UCI's Spambase：大型垃圾邮件数据集，可用于垃圾邮件过滤。

链接：https://archive.ics.uci.edu/ml/datasets/Spamb (https://archive.ics.uci.edu/ml/datasets/Spambase)

自动驾驶

从文本处理到自动驾驶：机器学习最常用的50大免费数据集

#p#分页标题#e#

42. Berkeley DeepDrive BDD100k：目前最大的自动驾驶人工智能数据集。包含 100000 多段视频，内容涉及一天中不同时间和天气条件下 1100 多小时的驾驶体验。注释图像来自纽约和旧金山地区。

链接：

43. Baidu Apolloscapes：百度 Apollo 计划开放的大规模自动驾驶数据集。它定义了 26 个不同语义项目，如汽车、自行车、行人、建筑物、路灯等。

链接：

44. Comma.ai：7 小时以上的公路行驶体验。详细信息包括车速、加速度、转向角和 GPS 坐标。

链接：https://archive.org/details/comma-dataset

45. Oxford's Robotic Car：一年内在英国牛津同一条路线重复 100 多次的行驶。数据集捕捉天气、交通和行人的不同组合，以及建筑和道路工程等长期变化。

链接：

46. Cityscape Dataset：记录 50 个不同城市街道场景的大型数据集。

链接：https://www.cityscapes-dataset.com/

47. CSSAD Dataset：该数据集可用于自主车辆的感知和导航。数据集在发达国家的道路上出现严重偏差。

链接：

48. KUL Belgium Traffic Sign Dataset：比利时佛兰德区数以千计截然不同的超过 10000 个的交通标志标注。

链接：~timofter/traffic_signs/

49. MIT AGE Lab：在 AgeLab 收集的 1000 多个小时的多传感器驱动数据集样本。

链接：

50. LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets：此数据集包括交通标志、车辆检测、交通灯和轨迹模式。

链接：

原文链接：https://gengo.ai/articles/the-50-best-free-datasets-for-machine-learning/

【本文是51CTO专栏机构“机器之心”的原创文章，微信公众号“机器之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

【编辑推荐】

从概念到应用：一文搞定数据科学和机器学习的最常见面试题

普通程序员如何变身年薪百万的机器学习工程师?（文末有送书）

数据分析与机器学习如何为业务安全赋能？

从人脸识别到情感分析，这有50个机器学习实用API！

机器学习、人工智能与网络安全的未来

有帮助

没帮助

上一篇： 【内含福利】“谁是英雄，不服来战”，2018 WCTF世界黑客大师赛线上挑战赛及分享会报名开启

下一篇：2018年最值得关注的11大信息安全认证

栏目索引