没有找到合适的产品?
联系客服协助选型:023-68661681
提供3000多款全球软件/控件产品
针对软件研发的各个阶段提供专业培训与技术咨询
根据客户需求提供定制化的软件开发服务
全球知名设计软件,显著提升设计质量
打造以经营为中心,实现生产过程透明化管理
帮助企业合理产能分配,提高资源利用率
快速打造数字化生产线,实现全流程追溯
生产过程精准追溯,满足企业合规要求
以六西格玛为理论基础,实现产品质量全数字化管理
通过大屏电子看板,实现车间透明化管理
对设备进行全生命周期管理,提高设备综合利用率
实现设备数据的实时采集与监控
利用数字化技术提升油气勘探的效率和成功率
钻井计划优化、实时监控和风险评估
提供业务洞察与决策支持实现数据驱动决策
转帖|行业资讯|编辑:陈俊吉|2016-09-26 10:35:26.000|阅读 795 次
概述:本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍。
# 界面/图表报表/文档/IDE等千款热门软控件火热销售中 >>
相关链接:
本文来自于KDnuggets所做的十大算法调查,对于数据工程师常用的算法进行排名,并对其在2011-2016年间的变化进行介绍。
基于调查,KDnuggets总结出了数据科学家最常使用的十大,它们分别是:
▲Regression 回归算法
▲Clustering 聚类算法
▲ Decision Trees/Rules 决策树
▲Visualization 可视化
▲k-Nearest Neighbor 邻近算法
▲PCA (Principal Component Analysis) 主成分分析算法
▲Statistics 统计算法
▲Random Forests 随机森林算法
▲Time series/Sequence 时间序列
▲Text Mining 文本挖掘
其中,受访者表示平均使用了8.1个算法,相比2011年类似的调查大幅提高了。
与2011年的类似调查对比我们发现最流行的算法还是。相对来说最大的增长是由 (pct2016 /pct2011 - 1) 测定的以下算法:
Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
时间序列,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
回归算法,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%
另外,2016年最流行的新算法分别是:
K-近邻,46%
主成分分析,43%
随机森林算法,38%
优化,24%
神经网络 - 深度学习,19%
奇异值分解,16%
下降最多的分别是:
关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
增量模型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
不同领域使用的算法比例
我们注意到几乎所有人都在使用监督学习算法。
政府和工业界数据科学家比学生或者学术研究院使用更多不同的算法,而且工业界数据科学家更倾向于使用元算法。
下面,我们继续通过雇员的类型来分析最流行的10个算法和深度学习。
为了让这些差异更容易观看,我们针对特定雇员类型相关的平均算法使用量设计了一个算法。
Bias(Alg,Type)=Usage(Alg,Type)/Usage(Alg,All) - 1.
我们注意到:
工业界数据科学家更倾向于使用回归算法、可视化、统计算法、随机森林算法以及时间序列
政府/非盈利组织更倾向于使用可视化、主成分分析算以及时间序列
学术界研究人员更倾向于使用主成分分析算法和深度学习
学生一般使用的算法较少,但是它们会做更多的文本挖掘以及深度学习
另外,参与投票的读者主要来自于
美国/加拿大, 40%
欧洲, 32%
亚洲, 18%
拉丁美洲, 5.0%
非洲/中东, 3.4%
澳大利亚/新西兰, 2.2%
在 2011 年的调查中,我们将产业/政府分在了同一组,将学术研究人员/学生分在了第二组,另外通过算法对于业界/政府的“亲切度”进行了计算:
N(Alg,Ind_Gov) / N(Alg,Aca_Stu)
------------------------------- - 1
N(Ind_Gov) / N(Aca_Stu)
亲切度为 0 的算法表示其在产业/政府和学术研究人员/学生之间的使用情况对等。IG亲切度越高表示该算法越被产业界普遍使用,反之越“学术”。
其中,最“产业”的算法是:
增量模型Uplift modeling,2.01
异常检测Anomaly Detection,1.61
生存分析Survival Analysis,1.39
因子分析Factor Analysis,0.83
时间序列Time series/Sequences,0.69
关联规则Association Rules,0.5
其中增量模型Uplift modeling又一次成了最“产业”的算法,但是令人惊讶的是其使用率确很低—只有3.1%,几乎是这次调查中使用率最低的算法。
最“学术”的算法是:
神经网络Neural networks - regular, -0.35
朴素贝叶斯Naive Bayes, -0.35
支持向量机SVM, -0.24
深度学习Deep Learning, -0.19
EM, -0.17
下图是所有算法以及它们在产业界/学术界的亲切度:
数据科学家最常使用的算法 工业界 vs 学术界
2016数据科学家使用的算法调查汇总
汇总表格中各项含义分别是:
N:根据使用度排名
Algorithm:算法名称,
类型:S - 监督,U - 无监督,M - 元,Z - 其他,
%指代调查中使用这种算法的调查者比例
Change—变动(%2016 年/2011% - 1),
Industry Affinity—产业亲切度(前文中提到)
via:雷锋网
详情请咨询!
客服热线:023-66090381
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,如果存在内容上的异议请邮件反馈至chenjj@dpuzeg.cn
Parasoft Jtest以其强大的“度量+去重”功能组合,为开发者提供了一种高效、可靠的解决方案。通过深入洞察代码的本质,优化代码结构,Jtest不仅有助于提升开发效率,还能显著提高代码质量,减少软件缺陷的产生。
Parasoft C/C++test 通过静态分析、安全漏洞检测和行业标准合规检查,帮助开发者在编码阶段即时锁定缺陷,大幅减少后期返工,确保了代码安全性与行业合规性,真正实现开发效率与产品质量的双重提升。
MineRP选择了Tech Soft 3D的HOOPS Visualize作为其平台的图形引擎。HOOPS Visualize以其卓越的性能、丰富的功能和优质的技术支持,成为MineRP平台可视化模块的核心。
作为一款领先的3D图形软件开发工具包(SDK),HOOPS Visualize为CAD、CAE、CAM、BIM等领域的应用程序提供了卓越的可视化能力。
工业4.0优选产品 | 商业智能和绩效管理软件领导者,帮助企业成为业绩最佳的分析驱动型企业
SPSS Modeler工业4.0优选产品 | 在历史数据中发现规律以预测未来事件,做出更好的决策,实现更好的成效
IBM BigInsights for Apache Hadoop经济高效地存储、管理和分析大数据
IBM InfoSphere Streams高效捕获和分析动态数据的软件平台
InfoSphere DataStage助您发现、充实、集成和管理数据的整个生命周期
服务电话
重庆/ 023-68661681
华东/ 13452821722
华南/ 18100878085
华北/ 17347785263
客户支持
技术支持咨询服务
服务热线:400-700-1020
邮箱:sales@dpuzeg.cn
关注我们
地址 : 重庆市九龙坡区火炬大道69号6幢