大数据文摘作品
编译:李雷、元元、小鱼
数据科学的功能是在数据中寻找有用的观点并加以应用。然而,数据科学并非凭空而来。在向分析目标迈进的过程中,数据从业者可能面临阻碍其进展的各种挑战。
本文探讨了数据从业者在分析数据时遇到的挑战类型。为了研究这个问题,本文分析了Kaggle 2017年数据科学和机器学习状况调查报告(Kaggle 2017 State of Data Science and Machine Learning)中的数据。这是一项针对16,000多名数据从业者展开的专项调查(数据收集于2017年8月)。
Kaggle的调查数据显示,数据科学家面临的最常见挑战包括脏数据(36%),缺乏数据科学人才(30%)和缺乏管理支持(27%)。
数据来源:
https://www.kaggle.com/kaggle/kaggle-survey-2017
工作中的障碍与挑战
数据从业者过去一年所面临的挑战
在调查中10153名受访者被问到,“在过去的一年中,你工作中遇到了哪些障碍或挑战?(可多选)。”结果如上图所示,排名前十的挑战是:
脏数据(36%的受访者提及此项)
缺乏数据科学人才(30%)
公司政策(27%)
缺乏明确的研究问题(22%)
数据无法访问(22%)
结果未被决策者使用(18%)
向其他人解释数据科学(16%)
隐私问题(14%)
缺乏专业领域知识(14%)
小公司请不起数据科学团队(13%)
结果显示,平均每个数据从业者就会遇到上图中的三项挑战(3是中位值)。不同职位所遇到的挑战数量不同。自认为是数据科学家(Data Scientist)或预测建模师(Predictive Modeler)的数据从业者称遇到了其中的四项挑战。自认为是程序员的数据从业者称只遇到了其中的某一项挑战。
挑战分组
我想将这20项挑战进行分组,把通常一起出现的挑战归为一组,因此我对数据进行了主成分分析(0表示未经历此项挑战;1表示经历过此项挑战)。我发现了一个相当清晰的、由5个主要成分构成的分组方案,其中特定挑战往往会与其他相关挑战一起出现。
数据从业者遇到的挑战的主成分分析。
图中表格数据是方差极大正交旋转后的成分矩阵,得分大于等于0.40的成分以粗体显示。
上图中五个主要成分(挑战分组)是:
分析结果未被用于决策:这组挑战还包括公司政策、无法将研究结果纳入决策过程以及缺乏管理支持。
数据隐私、真实性、无法访问:这组挑战围绕数据本身展开,包括数据清洗的复杂程度、可访问性以及隐私问题。
扩展/部署工具的局限性:这组挑战与用于提取结果、部署模型以及将解决方案扩展到完整数据库的工具相关。
缺乏资金:资金缺乏引起的挑战会影响组织机构在外部数据源、数据科学人才以及可能的领域专业知识方面的购买力。
提出的错误问题:这组挑战包括难以对数据科学项目的结果保持合理的期望,并且对数据分析没有明确目的或方向。
结论
数据从业者在数据科学和机器学习工作方面会遇到一些挑战。一年中平均每个数据从业者可能会遇到其中三项挑战。最常见的数据科学和机器学习挑战包括脏数据,缺乏数据科学人才,缺乏管理支持以及缺乏数据分析明确的方向或目的。
原文链接:
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】
戳这里,看该作者更多好文
【编辑推荐】
数据科学速成课:给Python新手的实操指南
机器学习入门之HelloWorld(Tensorflow)
一文打尽人工智能和机器学习网络资源,反正我已经收藏了!
招人难留人难?你可能犯了招聘数据科学家的这十宗罪
外媒速递:进军艺术圈:AI与机器学习再度发威