大数据时代,机器学习算法该如何升级? 怎么判断自己是否适合做程序员 一分钟告诉你什么是区块链 一个时代一个机会,DeFi的起点X-DeFi,如何玩转X-DeFi? RTX3080显卡已被用于挖矿!映众辟谣:工程师测试散热 2020-09-15 比特币相当于房地产,怎样利用比特币获得流动现金? 区块链安全事件与代码审计 fisco bcos solidity销毁合约,删除合约的方法 Linux 中 Golang 的安装和环境配置 Golang interface{} 转换为某个结构体 区块链知识系列 - Raft 共识 OpenHarmony开发者文档开源计划,快快加入吧 融合创新提升服务,大数据搭建信息网 长三角税收一体化按下“快进键” 河钢集团与海尔集团签署物联网生态战略合作协议 1一个拥有万物互联神话,让我们看物联网是如何蓬勃发展的? 重庆大数据产业研究院成立,首批专家服务团名单公布 百分点大数据技术团队:互联网舆情系统的架构实践 水泥大数据研究院郑建辉:四季度水泥价格仍有望冲击去年高位 中国物联网与绿色智慧城市发展论坛召开 欧普照明点亮智慧道路之光 Android & Kotlin:Retrofit + Hilt 实现 看妹子app Android - 控件抖动效果 DevEco studio 一直加载gradle android如何获取调试版及发布版安全码SHA1 Android手机获取IP地址的两种方法 Android Activity 启动过程详解(上) 思维破局:挣钱其实没那么难,关键是方式要对 大数据赋能全产业链 为市民提供“一杯好奶” 运用大数据实现节能减排精准化 2020最新拼多多Java面试版,五面拿到28K的Offer 中国电信(安徽)大数据产业园落户南岗科技园 打造华东区域云计算领头羊 深度解读!阿里腾讯滴滴字节首选,新一代大数据引擎Flink厉害在哪?附学习礼包 网络编程5:socket服务端和客户端代码实现 微信小程序 蓝牙重连异常 errCode:10004,errMsg:notifyBLECharacteristicValueChange:fail setNot 蓝桥杯--第八届省赛试题-电子钟程序设计 【TCP回声服务器】一篇文章帮助你看懂TCP! 关于国标GB28181流媒体协议视频平台EasyGBS设备无法接入平台的问题排查 机器学习16 -- Lifelong Learning 终生学习 Vuex中发送mock请求返回数据 JS 正则表达式详解 学习笔记 花了30分钟,给女朋友们写了个最近抖音很火的3D立体动态相册 这 16 个 CSS 伪类,助你提升布局效率! Mysql系列第八讲 详解排序和分页(order by & limit)及存在的坑 SQL语句的一些应用语句 介绍三个开发技术小知识点 数据库系统概论(1) Mysql备份和恢复的类型,备份恢复的几种方法! --个人整理 MySql数据库基本操作(一) 前八月融合创新提升服务,大数据搭建信息网 长三角税收一体化按下“快进键” 一些建议:给当年刚做程序员的我
您的位置:首页 >物联网 >

大数据时代,机器学习算法该如何升级?

文 /杨晓宁

随着产业界数据量的爆炸式增长,大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性,对于大数据环境下的应用问题,传统的小数据上的机器学习算法很多已不再适用。因此,研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。

传统机器学习的问题主要包括如下4个方面:理解并模拟人类的学习过程;针对计算机系统和人类用户之间的自然语言接口的研究;针对不完全的信息进行推理的能力,及自动规划的问题;构造可发现新事物的程序。

传统机器学习面临的一个新挑战是如何处理大数据。由于现有的机器学习算法是基于内存的,大数据却无法装载进计算机内存,故现有的诸多算法不能处理大数据。如何让新机器学习算法适应大数据处理需求,是大数据时代的研究热点之一。

数据分治与并行处理策略是大数据处理的基本策略,尤其是近年来在分布式和并行计算有很大发展的情况下,分治策略显得尤为重要。一般来说,数据中不同样本对学习结果的重要程度并不相同,一些冗余和噪音数据不仅造成大量的存储耗费,降低学习运行效率,还会影响学习进度,因此更倾向于依据一定的性能标准(如保持样本分布、拓扑结构以及保持分类精度等)选择代表性样本形成原样本空间的子集,之后在子集上构造学习方法,完成学习任务。

在数据挖掘、文档分类和多媒体索引等新兴领域中,所面临的数据往往是大数据集,其中包含的属性和记录数据都很大,导致处理算法的执行效率低下,通过属性选择可剔除无关属性,增加分析任务的有效性,从而提高模型精度,减少运行时间。

鲁棒是Robust的译音,是在异常和危险情况下系统生存的能力。比如说,计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下,能否不死机、不崩溃,也指控制系统在一定结构、大小的参数摄动下,维持其他某些性能的特性。

在监督学习中面临的挑战是如何处理大数据,面临的两大瓶颈是计算密集几乎不能用于大规模数据集,鲁棒和非参数的置信区间的拟合预测往往是未知的。

国内外学者已开始对机器学习算法进行改进,针对大规模数据的分类问题,在增量核主成分分析和基于共轭梯度的最小二乘支持向量机算法基础上,大数据领域专家卡姆等提出适用于大数据特征提取和分类算法。该算法所需内存较少,无需存储较大矩阵,可更好地解决大规模数据分类问题。类似改进还有很多,常用的改进方法有随机梯度下降、小批量梯度下降、在线学习等。

(作者单位:北京弘治锐龙教育科技有限公司)

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。