亚马逊开源了一个称为Athena Glue服务日志(AGSlogger)的Python库,该库使将日志格式解析为AWS Glue进行分析变得更加容易,并且旨在与AWS服务日志一起使用。
使用Amazon Simple Storage Service(S3)存储日志的组织通常希望使用Amazon Athena(无服务器查询引擎)在S3上查询数据来查询日志。亚马逊表示,许多客户使用Athena查询日志,以进行服务和应用程序故障排除,性能分析以及安全审核。
新开放源代码的Python库Athena Glue服务日志(AGSlogger)具有预定义的模板,用于解析和优化各种流行的日志格式。通过AGSLogger,您可以定义模式,管理分区以及转换数据,作为AWS Glue中提取,转换,加载(ETL)作业的一部分。这个想法是,开发人员将能够将该库与AWS Glue ETL作业一起使用,从而为您提供处理日志数据的通用框架。
该库旨在进行AWS Service日志的初始转换,然后在将日志交付到S3时继续对其进行转换。尽管可以使用Athena来查询日志,但出于成本和性能方面的考虑,最好将日志转换为分区的Parquet文件。该库具有用于多种类型服务日志的Glue Jobs,这些日志将创建源表和目标表,将源数据转换为分区的Parquet文件,并维护源表和目标表的新分区。
该库支持多种日志类型:
应用程序负载均衡器经典负载均衡器AWS CloudTrailAmazon CloudFrontS3访问Amazon VPC流一旦从基于行的日志文件转换为基于列的Parquet,就可以使用Athena查询数据.Apache Parquet是最初为Apache Hadoop开发的一种开源的面向列的存储格式,但现在得到了更广泛的使用。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。