菲洛嘉青春动能素135HA FILLMED® NCTF 135HA LED指示灯的常见故障分析 智微智能 Elkhartlake K075终端,零售产业新选择 天空蓝拓客管理系统详细介绍版 muso公链项目 天使计划 是什么?[秘] 独家揭秘最前沿的家装“黑科技”——掌赋 天博体育欧洲杯特辑,东道主法兰西的失意2016 亚马逊的送货侦察员 学习听起来像挡泥板 Google Comics Factory使ML变得容易 笑着说-男性或女性 Amazon Rekognition中更好的人脸检测 关于Spaun的真相-大脑模拟 两个聊天机器人彼此聊天-有趣又怪异 GANPaint:将AI用于艺术 WCF和WF给予社区 从耳朵到脸 所有神经网络的深层缺陷 蠕虫在尾巴上平衡杆子 Kickstarter上的OpenCV AI套件 TensorFlow-Google的开源AI和计算引擎 众包取代新闻工作者 Google的DeepMind学会玩街机游戏 哑机器人V智能机器人 .NET与.NET 5融为一体 Google的深度学习-语音识别 LInQer将.NET LINQ移植到Javascript 机器人TED演讲-新的图灵测试? GAN的发明者加入苹果 您的智能手机会监视您键入的内容 人工智能帮助改善国际象棋 Zalando Flair NLP库已更新 TensorFlow 1.5包含移动版本 AlphaGo输了一场比赛-比分3-1 虚拟机器学习峰会 Microsoft开源AI调试工具 SharePoint走向移动 F#4.0发出文化变革的信号 克里斯蒂拍卖AI艺术品 人工智能如何区分 Facebook在蒙特利尔的新AI实验室 Mozilla想要您的声音 微软使用极深的神经网络赢得ImageNet 建立AI合作伙伴关系 .NET Core 3-Microsoft几乎回到了起点 神经网络-更好的销售商? Google使用AI查找您的住所 虹膜-适用于Android的Siri证明苹果没有优势 TensorFlow 2提供更快的模型训练 深度学习研究人员将为Google工作
您的位置:首页 >程序人生 >

雅虎发布记录机器学习数据集

已经为开发人员提供了13 TB的匿名用户新闻项目交互数据,供开发人员在机器学习应用程序中使用。

这是有史以来可供一般使用的最大数据集。它开始于用户新闻交互数据,通过记录从2015年2月到2015年5月约2000万Yahoo用户的用户新闻项交互来收集。数据集包含约1000亿个事件。Yahoo新闻提要数据集是从Yahoo的多个属性的新闻提要中提取的,包括Yahoo主页,Yahoo News,Yahoo Sports,Yahoo Finance,Yahoo Movies和Yahoo Real Estate。

雅虎实验室

Yahoo Labs的Suju Rajan谈到数据集时说:

“我们的目标是促进大规模机器学习和推荐系统领域的独立研究,并帮助平衡工业研究和学术研究之间的竞争环境。该数据集可作为Yahoo Labs Webscope数据共享程序的一部分获得,该程序是科学有用的数据集的参考库,其中包括供非商业用途使用的匿名用户数据。”

除了交互数据外,雅虎还为匿名用户的子集提供了一系列的人口统计信息。人口统计信息包括年龄范围,性别和广义地理数据。在项目一侧,数据集包含新闻文章的标题,摘要和关键短语。交互数据带有相关的本地时间时间戳,并且还包含有关用于访问新闻源的设备的部分信息。拉詹这样说:

“允许在上下文推荐和时态数据挖掘中进行有趣的工作。”

数据集已经促使Yahoo在基于因子分解机器概念的可扩展推荐系统上进行工作,并在一份基于用户在内容项目上花费的时间来调查用户参与度的研究论文中。Yahoo Research还一直在使用这些数据来研究行为建模,推荐系统,大规模和分布式机器学习,排名,在线算法,内容建模和时间序列挖掘领域。

希望这些数据将被需要广泛的“真实世界”数据集的学术界的研究人员,数据科学家和机器学习爱好者使用。研究人员认为,该数据集可以成为大规模机器学习和推荐系统的基准。

雅虎实验室

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。