Kubernetes在容器编排市场中占主导地位,通常用于托管微服务。但是,微服务的每个实例都会生成大量日志事件,这些日志事件很快就会变得难以管理。更糟糕的是,当出现问题时,由于服务间的复杂交互以及不可预知的故障模式,很难找到根本原因。
目前,我们有这么多日志工具?是否有一个完美的工具可以满足所有需求,并使监视,日志记录和故障原因分析尽可能地高效和快速?
大多数Kubernetes日志管理工具都是ELK的变体,具有相似的功能并且具有同样的局限性。这些工具可帮助你访问日志和搜索信息。但要,这些工具大多数还需要解析日志规则和警报规则才能正常工作。
接下来,我开始为你介绍2020年Kubernetes最佳日志管理工具。
我将Zebrium放在首位,因为我发现该工具有潜力成为Kubernetes日志管理中的下一个重要工具。
这家新成立的初创公司,最近入选“ Gartner 2020年值得关注的25家初创企业”和“福布斯AI 50:美国最有前途的人工智能公司”。
Zebrium最近还帮助Sweetwater将事件跟踪时间从3小时减少到只有几分钟。Zebrium甚至可以发现以前未发现的软件问题。这是一项出色的功能,因为它可以帮助你在问题出现之前就发现问题。
那么,什么使Zebrium在竞争中脱颖而出?Zebrium使用人工智能(AI)来发现问题以及自动发现,而所有其他工具都依赖于用户手动添加规则。Zebrium也可以用作独立的日志管理平台,也可以与ELK Stack或其他日志管理器集成。
这听起来像梦想成真,所以我在一个非常简单的项目上进行了测试。在此测试中,Zebrium能够自动检测到网络超时的问题。我没有为此建立任何规则,也没有手动监视系统。Zebrium通过其基于ML的算法解决了这个问题,并立即通知我。
官网链接: https://www.zebrium.com/
Sematext是用于日志管理和应用程序性能监视的解决方案。Sematex提供了系统状态的可见性。
Sematext不仅限于K8s日志记录,还可以提供监视和警报功能。收集到的日志,会自动根据不同的已知日志格式进行解析/结构化,并且用户还可以提供自定义的日志模式。
Sematext还公开了Elasticsearch API,因此你也可以使用任何与Elasticsearch配合使用的工具,例如Filebeat和Logstash与Sematex。
Sematext可以创建特定规则,以监视特定情况并捕获异常。借助Sematex全面的实时仪表板,用户可以控制和监视所有服务。
K8s日志监视工具列表中的第三位不是ELK,而是Loki。
Loki是一个受Prometheus启发的,支持多租户和高度可用的日志聚合工具。该工具有助于收集日志,但是用户需要为其手动建立规则。
Loki与Grafana,Prometheus和Kubernetes合作。Loki可以使你的内部流程更有效率。例如,它节省了Paytm Insider 75%的日志记录和监视成本。
Loki不会索引你的日志内容,而是仅索引每个事件流的一组标签,因此效率很高。
官网链接:https://grafana.com/oss/loki/
ELK名列第四。一般而言,ELK可能是最著名的日志管理开源工具。ELK是Elasticsearch,Logstash和Kibana的首字母缩写。每个组件负责日志记录过程的不同部分。
Elasticsearch是一个功能强大且可扩展的搜索系统,Logstash聚合并处理日志,而Kibana提供了一个数据分析和可视化的界面,可帮助用户理解数据。它们共同为K8s提供了全面的日志记录解决方案。
请注意,ELK堆栈还有许多其他变体(例如EFK Stack -Elasticsearch,Fluentd和Kibana)。
ELK被Adobe,T-Mobile和Walmart等许多大公司使用,因此你可以相信它的健壮性。通常,这是一个可靠且经过验证的工具。
但是,由于它的复杂性和所需的大量资源,我将其放在第四位。
官网链接:https://www.elastic.co/cn/what-is/elk-stack
Google Operations(也称为Stackdriver)是在Google环境中用于监视,故障排除和提高应用程序性能的工具。
它收集整个Google Cloud和你的应用程序的指标,日志信息和软件跟踪信息。Google Operations与AWS上的CloudWatch等效,并且与CloudWatch一样,它是一个具有日志记录和监视的解决方案。
Cloud Logging与GKE紧密集成,默认情况下会添加到你创建的每个GKE群集中。你的日志存储在Logging的数据存储中,并为搜索和可视化编制索引。
Cloud Logging支持灵活的查询,并且可以与Google基础架构中的其他工具无缝集成。
官网链接:https://cloud.google.com/products/operations
CloudWatch是Amazon Web Services的产品。
它从AWS中收集数据,并在单个自动化仪表板中将其可视化。这使你可以查看日志和指标并将它们相互关联,以了解问题的根本原因。
用户可以使用CloudWatch自己专用的查询语言来分析日志,该语言支持聚合,过滤器和正则表达式。你还可以通过Lambda将日志发送到Elasticsearch。
总体而言,如果你已经在使用Amazon服务,则CloudWatch是一个不错的选择。它也可以用于混合云体系结构,并使用代理或API来监视软件资源。AirWatch,Deliveroo,9GAG等许多知名品牌都在使用CloudWatch。
官网链接:https://aws.amazon.com/cloudwatch/
Fluentd是跨平台的开源数据收集器,提供了统一的日志记录层(但它不是独立的日志管理器)。
Fluentd是一个颇受欢迎的工具,拥有Atlassian,Microsoft和Amazon等5,000多个用户。Fluentd有很高的可靠性和性能。
此外,Fluentd还创建了一个统一的日志记录层,可帮助你更有效地使用数据。该工具可以像LINE一样帮助你 每秒处理120,000条记录。
首先,我应该解释一下为什么我没有将Prometheus 列入名单,原因是本文专注于日志管理工具,而Prometheus是处理指标而不支持日志。
因此,如果你讨厌手动搜索日志,或者讨厌构建和管理警报规则,则应尝试使用基于AI和ML的算法的Zebrium。这可能会节省大量时间,并使你摆脱创建大量规则的繁琐任务。
但是,如果你正在寻找更主流的东西,并且知道要创建哪个警报规则(或者你不信任AI),请尝试使用Loki或Sematext,如果你以前没有使用过日志监视工具,它们将是非常适合你的高效工具。如果你已经在使用Grafana或Sematext Cloud / Enterprise的产品,它们将特别有用。
如果你在项目中使用Google的GCP产品,则Google Operations的可能是一个很好的选择。
如果你的日志有多个或特殊的来源,请尝试使用Fluentd及其统一的日志记录层。
当然,如果你是AWS用户,则CloudWatch将是你的自然选择。
译文链接:https://dzone.com/articles/7-best-log-management-tools-for-kubernetes-2020