这里是普通文章模块栏目内容页
Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

大数据文摘作品

编译:李雷、元元、小鱼

数据科学的功能是在数据中寻找有用的观点并加以应用。然而,数据科学并非凭空而来。在向分析目标迈进的过程中,数据从业者可能面临阻碍其进展的各种挑战。

本文探讨了数据从业者在分析数据时遇到的挑战类型。为了研究这个问题,本文分析了Kaggle 2017年数据科学和机器学习状况调查报告(Kaggle 2017 State of Data Science and Machine Learning)中的数据。这是一项针对16,000多名数据从业者展开的专项调查(数据收集于2017年8月)。

Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

Kaggle的调查数据显示,数据科学家面临的最常见挑战包括脏数据(36%),缺乏数据科学人才(30%)和缺乏管理支持(27%)。

数据来源:

https://www.kaggle.com/kaggle/kaggle-survey-2017

工作中的障碍与挑战

Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

数据从业者过去一年所面临的挑战

在调查中10153名受访者被问到,“在过去的一年中,你工作中遇到了哪些障碍或挑战?(可多选)。”结果如上图所示,排名前十的挑战是:

脏数据(36%的受访者提及此项)

缺乏数据科学人才(30%)

公司政策(27%)

缺乏明确的研究问题(22%)

数据无法访问(22%)

结果未被决策者使用(18%)

向其他人解释数据科学(16%)

隐私问题(14%)

缺乏专业领域知识(14%)

小公司请不起数据科学团队(13%)

结果显示,平均每个数据从业者就会遇到上图中的三项挑战(3是中位值)。不同职位所遇到的挑战数量不同。自认为是数据科学家(Data Scientist)或预测建模师(Predictive Modeler)的数据从业者称遇到了其中的四项挑战。自认为是程序员的数据从业者称只遇到了其中的某一项挑战。

挑战分组

我想将这20项挑战进行分组,把通常一起出现的挑战归为一组,因此我对数据进行了主成分分析(0表示未经历此项挑战;1表示经历过此项挑战)。我发现了一个相当清晰的、由5个主要成分构成的分组方案,其中特定挑战往往会与其他相关挑战一起出现。

Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

数据从业者遇到的挑战的主成分分析。

图中表格数据是方差极大正交旋转后的成分矩阵,得分大于等于0.40的成分以粗体显示。

上图中五个主要成分(挑战分组)是:

分析结果未被用于决策:这组挑战还包括公司政策、无法将研究结果纳入决策过程以及缺乏管理支持。

数据隐私、真实性、无法访问:这组挑战围绕数据本身展开,包括数据清洗的复杂程度、可访问性以及隐私问题。

扩展/部署工具的局限性:这组挑战与用于提取结果、部署模型以及将解决方案扩展到完整数据库的工具相关。

缺乏资金:资金缺乏引起的挑战会影响组织机构在外部数据源、数据科学人才以及可能的领域专业知识方面的购买力。

提出的错误问题:这组挑战包括难以对数据科学项目的结果保持合理的期望,并且对数据分析没有明确目的或方向。

结论

数据从业者在数据科学和机器学习工作方面会遇到一些挑战。一年中平均每个数据从业者可能会遇到其中三项挑战。最常见的数据科学和机器学习挑战包括脏数据,缺乏数据科学人才,缺乏管理支持以及缺乏数据分析明确的方向或目的。

原文链接:

【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】

大数据文摘二维码

戳这里,看该作者更多好文

【编辑推荐】

数据科学速成课:给Python新手的实操指南

机器学习入门之HelloWorld(Tensorflow)

一文打尽人工智能和机器学习网络资源,反正我已经收藏了!

招人难留人难?你可能犯了招聘数据科学家的这十宗罪

外媒速递:进军艺术圈:AI与机器学习再度发威

收藏
0
有帮助
0
没帮助
0