日志系统：ELK搭建与使用

📅 2026-02-28 📁 技术分享 ⏱️ 10 分钟

系列七：基础设施篇 · 第4篇

凌晨三点，线上服务突然报警。你被叫起来排查问题，却发现关键的错误信息根本没记录。或者，日志记了，但要在几十 GB 的日志文件里大海捞针……

日志系统就像是系统的"黑匣子"，记录着每一刻发生的事情。当问题出现时，它能带你穿越回事故现场，还原事情真相。

今天我们来聊聊日志系统的设计原理，看看它是如何成为问题的"时光机"的。

一、日志的价值

在深入技术细节之前，我们先理解日志到底有多重要。

1.1 日志的四大用途

这是日志最直接的用途。当系统出现异常时，日志是第一手的诊断资料：

错误发生时系统的状态是什么？
请求经过了哪些服务和组件？
哪一步出了问题，错误信息是什么？

没有日志，排查问题就像在黑暗中摸索。

日志不仅是事后分析的工具，也是实时监控的数据源：

错误率突然飙升 → 触发告警
慢请求日志增多 → 性能问题预警
关键业务日志异常 → 业务风险提示

日志不仅记录技术信息，也记录业务信息：

用户行为分析：哪些功能最受欢迎
业务指标统计：日活、转化率、留存
运营效果评估：活动带来的流量和收入

安全相关的事件必须记录在案：

登录登出记录
敏感操作日志
权限变更历史
异常访问行为

这些日志是安全事件追溯和合规审计的重要依据。

1.2 好日志 vs 坏日志

2024-01-15 03:14:22 ERROR - Error occurred
2024-01-15 03:14:23 INFO - Processing...
2024-01-15 03:14:24 ERROR - Something went wrong

这些日志几乎没有任何价值：不知道什么错误、发生在哪个模块、影响的是什么请求。

2024-01-15 03:14:22.123 ERROR [order-service] [traceId:abc123] 
[userId:10086] Order creation failed: inventory check timeout, 
productId=789, retryCount=3

时间戳精确到毫秒
日志级别清晰
包含服务/模块标识
有链路追踪 ID
有关联的业务标识
错误原因具体
关键参数完整

二、日志的分级与规范

不是所有日志都生而平等。我们需要对日志进行分级，在"信息完整性"和"存储成本"之间找到平衡。

2.1 日志级别

业界通用的日志级别从低到高：

最详细的日志级别，用于开发调试：

详细的中间状态
变量值的变化
算法执行步骤

生产环境通常关闭 DEBUG 日志，只在排查问题时临时开启。

记录系统正常运行的关键事件：

服务启动/关闭
请求处理的开始和结束
重要业务事件（订单创建、支付完成）
定时任务的执行

INFO 日志是了解系统运行状态的主要来源。

记录潜在的问题，但不影响系统正常运行：

配置使用了默认值
请求处理接近超时阈值
缓存命中率过低
重试了一次但最终成功

WARN 是"需要关注但不需要立即处理"的信号。

记录错误事件，影响业务但不影响系统整体可用性：

请求处理失败
外部服务调用失败
数据校验不通过
业务规则校验失败

ERROR 通常需要人工关注和处理。

最严重的级别，系统无法继续运行：

无法连接数据库
内存溢出
关键配置缺失
服务无法启动

FATAL 往往意味着需要立即重启或紧急修复。

2.2 日志级别的使用原则

INFO 是生产环境的最佳默认级别：

DEBUG 太详细，日志量太大，影响性能
WARN 及以上太粗糙，丢失关键信息

日志级别应该支持动态调整：

排查问题时，临时调高到 DEBUG
日志量过大时，临时调低到 WARN
调整无需重启服务

常见误区：

用 ERROR 记录预期内的业务异常（应该用 WARN 或 INFO）
用 INFO 记录大量调试信息（应该用 DEBUG）
滥用 WARN，导致真正的问题被淹没

2.3 结构化日志

传统的文本日志不便于机器解析，结构化日志应运而生：

2024-01-15 03:14:22 ERROR Order 12345 creation failed for user 10086

{
  "timestamp": "2024-01-15T03:14:22.123Z",
  "level": "ERROR",
  "service": "order-service",
  "traceId": "abc123",
  "spanId": "def456",
  "userId": 10086,
  "orderId": 12345,
  "message": "Order creation failed",
  "error": {
    "type": "InventoryCheckTimeout",
    "retryCount": 3
  }
}

结构化日志的优势：

机器友好：便于日志平台解析和索引
字段可检索：按任意字段查询和聚合
类型明确：数字是数字，时间是时间
扩展灵活：新增字段不影响现有逻辑

三、日志系统的设计原理

要设计一个好的日志系统，需要理解其核心原理和架构模式。日志系统本质上是一个数据管道，从产生到最终使用，经历采集、传输、处理、存储、检索五个阶段。

3.1 整体架构设计

一个完整的日志系统架构可以看作一条"数据流水线"：

┌─────────────────────────────────────────────────────────────────────────┐
│                           日志数据流水线                                  │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│  ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌────────┐│
│  │  产生    │ → │  采集    │ → │  传输    │ → │  处理    │ → │  存储  ││
│  │ (应用)   │   │ (Agent)  │   │ (队列)   │   │ (ETL)    │   │ (ES)   ││
│  └──────────┘   └──────────┘   └──────────┘   └──────────┘   └────────┘│
│        ↓              ↓              ↓              ↓              ↓   │
│    日志输出       文件/网络       消息缓冲       格式转换       持久化    │
│    SDK封装        位置追踪       削峰填谷       字段提取       建立索引   │
│    异步写入       多行合并       可靠传输       脱敏清洗       冷热分离   │
│                                                                         │
│  ┌──────────────────────────────────────────────────────────────────┐  │
│  │                         检索与分析层                               │  │
│  │  ┌──────────┐   ┌──────────┐   ┌──────────┐   ┌──────────┐       │  │
│  │  │  查询    │   │  聚合    │   │  告警    │   │  可视化  │       │  │
│  │  │ (DSL)    │   │ (统计)   │   │ (规则)   │   │ (仪表盘) │       │  │
│  │  └──────────┘   └──────────┘   └──────────┘   └──────────┘       │  │
│  └──────────────────────────────────────────────────────────────────┘  │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

这个架构的核心设计原则是解耦：每个阶段独立演进，互不影响。

3.2 日志采集原理

日志采集是整个系统的"入口"，需要解决三个核心问题：

日志文件是持续增长的，采集器需要像"尾巴"一样跟随文件末尾（所以叫 tail）。这看似简单，实际有几个技术难点：

位置记录：采集器重启后要知道从哪里继续读。通常将读取位置（文件 inode + offset）记录到独立的位置文件中：

# position.db
/var/log/app.log::inode=123456::offset=9876543

文件滚动（Log Rotation）：日志文件会定期滚动（app.log → app.log.1），采集器需要识别新文件并切换。这通过比较文件 inode 实现：同一个文件名，inode 变了就是新文件。

多行日志合并：Java 堆栈是典型的多行日志：

2024-01-15 03:14:22 ERROR Exception occurred
java.lang.NullPointerException
    at com.example.OrderService.create(OrderService.java:123)
    at com.example.OrderController.createOrder(OrderController.java:45)

采集器需要用正则匹配日志首行（通常以时间戳开头），将后续行合并到同一条日志中。

采集器需要在两个极端之间找平衡：

实时推送：每条日志立即发送，延迟低但网络开销大
批量推送：攒够 N 条或等待 T 秒再发送，效率高但延迟增加

生产环境的做法是批量 + 超时：攒够 1000 条或等待 5 秒，哪个先到触发发送。这样在正常情况下批量高效，低流量时也不会太慢。

网络故障、下游服务不可用是常态。采集器需要：

本地缓冲：发送失败的日志暂存本地队列
指数退避重试：失败后 1s、2s、4s... 逐步增加重试间隔
降级策略：队列满时可丢弃低级别日志（先丢 DEBUG，再丢 INFO）

3.3 日志传输原理

日志传输层是整个系统的"缓冲区"，核心是消息队列。

假设你有一个电商系统，大促时日志量暴增 10 倍：

没有队列：日志直接写入 ES，ES 扛不住写入压力，直接挂掉
有队列：日志先进 Kafka，Kafka 抗住峰值，ES 慢慢消费

消息队列实现了削峰填谷：上游流量突增时队列积压，下游按自己的节奏消费。

特性	Kafka	NSQ	RabbitMQ
吞吐量	极高（10万+/秒）	高（万级/秒）	中等（万级/秒）
延迟	毫秒级	毫秒级	微秒级
持久化	磁盘顺序写	磁盘	内存/磁盘
消费模式	拉取	推拉结合	推送
运维复杂度	高	低	中
适用场景	大规模日志	中小规模	事务性消息

日志场景的特点是写多读少、吞吐优先，Kafka 是最常见的选择。

Kafka 通过 Topic 分区实现并行处理：

Topic: app-logs
├── Partition 0 → Consumer 1 (处理 order-service 日志)
├── Partition 1 → Consumer 2 (处理 payment-service 日志)
└── Partition 2 → Consumer 3 (处理 user-service 日志)

按 service 字段分区，同一服务的日志进入同一分区，保证时序性。

3.4 日志处理原理

日志进入存储前，通常需要"清洗"和"加工"。这个阶段叫 ETL（Extract-Transform-Load）。

字段提取：从日志内容中提取结构化字段

原始日志: 2024-01-15 03:14:22 ERROR [order-service] Order failed
提取后: {time: "...", level: "ERROR", service: "order-service", message: "..."}

数据脱敏：隐藏敏感信息

原始: 手机号 13812345678 登录成功
脱敏: 手机号 138****5678 登录成功

字段富化：补充上下文信息

原始: IP=192.168.1.100
富化: IP=192.168.1.100, region=北京, isp=电信

格式统一：将不同格式转为统一格式

Nginx 日志 → JSON
Java 日志 → JSON
Go 日志 → JSON

Logstash：功能强大，插件丰富，但资源消耗大（JVM）
Fluentd：轻量级，Ruby 实现，资源占用小
Vector：Rust 实现，高性能，配置简单
Flink：流式处理，适合复杂的实时分析

小规模用 Fluentd/Vector，大规模复杂处理用 Flink。

3.5 日志存储原理

存储是日志系统的"心脏"，决定了检索能力和成本。

Elasticsearch 的核心是倒排索引。打个比方：

想象一本教科书，你想找"日志"这个词出现的位置：

正排索引（传统目录）：按章节顺序，告诉你每章讲什么。要找"日志"，你得翻遍整本书。
倒排索引（书后索引）：告诉你"日志"出现在第 12、45、78 页。直接定位。

技术实现：

文档 1: "日志系统很重要"
文档 2: "系统设计要合理"

倒排索引:
"日志"   → [文档1]
"系统"   → [文档1, 文档2]
"很重要" → [文档1]
"设计"   → [文档2]
"要"     → [文档2]
"合理"   → [文档2]

搜索"日志系统"时，找到"日志"和"系统"的文档列表，取交集，得到文档 1。

列式存储（ClickHouse）：同一列数据类型相同，压缩比高
时间分区：按天/小时分区，删除旧数据直接删分区
冷热分离：热数据 SSD，冷数据 HDD 或对象存储
数据副本：多副本保证可靠性，但也增加成本

四、日志采集架构实践

理解了原理，我们来看具体的架构实践。

4.1 架构演进路径

最简单的架构，适合初创团队：

┌──────────────┐
│   应用服务    │
└──────┬───────┘
       │ 直接写入
       ▼
┌──────────────┐
│ Elasticsearch │
└──────┬───────┘
       │
       ▼
┌──────────────┐
│    Kibana    │
└──────────────┘

应用通过 Elasticsearch 客户端直接写入 ES。

优点：简单，组件少缺点：应用和 ES 耦合，ES 故障影响应用

引入文件和 Agent，解耦应用和日志系统：

┌──────────────┐
│   应用服务    │
└──────┬───────┘
       │ 写文件
       ▼
┌──────────────┐
│  日志文件     │
└──────┬───────┘
       │ Filebeat
       ▼
┌──────────────┐
│ Logstash     │
└──────┬───────┘
       │
       ▼
┌──────────────┐
│ Elasticsearch │
└──────┬───────┘
       │
       ▼
┌──────────────┐
│    Kibana    │
└──────────────┘

这是经典的 ELK 架构。

加入消息队列，抗流量峰值：

应用 → 文件 → Filebeat → Kafka → Logstash → ES → Kibana

Kafka 作为缓冲，即使 ES 短暂不可用，日志也不会丢失。

超大规模需要多集群：

                    ┌──→ Kafka Cluster 1 → ES Cluster 1
应用 → Filebeat ────┼──→ Kafka Cluster 2 → ES Cluster 2
                    └──→ Kafka Cluster 3 → ES Cluster 3

按业务或租户分区，避免单点瓶颈。

4.2 Kubernetes 环境采集

容器化环境带来新挑战：容器是临时的，Pod 销毁后日志也没了。

每个节点运行一个 Agent Pod，采集该节点所有容器的日志：

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: filebeat
spec:
  template:
    spec:
      containers:
      - name: filebeat
        image: docker.elastic.co/beats/filebeat:8.0.0
        volumeMounts:
        - name: varlog
          mountPath: /var/log
        - name: varlibdockercontainers
          mountPath: /var/lib/docker/containers
      volumes:
      - name: varlog
        hostPath:
          path: /var/log
      - name: varlibdockercontainers
        hostPath:
          path: /var/lib/docker/containers

优点：资源开销小，配置集中缺点：所有容器共用配置，灵活性差

每个应用 Pod 伴随一个日志采集容器：

apiVersion: v1
kind: Pod
metadata:
  name: app-with-logging
spec:
  containers:
  - name: app
    image: my-app:latest
    volumeMounts:
    - name: logs
      mountPath: /var/log/app
  - name: log-agent
    image: fluent/fluent-bit:latest
    volumeMounts:
    - name: logs
      mountPath: /var/log/app
  volumes:
  - name: logs
    emptyDir: {}

优点：每个应用独立配置缺点：资源开销大（每个 Pod 都有采集容器）

应用直接通过 SDK 写入日志系统，不落本地文件：

// 使用 Logstash 提供的 Log4j Appender
log4j.appender.LOGSTASH=net.logstash.log4j.JSONEventAwareLogstashAppender
log4j.appender.LOGSTASH.host=kafka.logging.svc.cluster.local
log4j.appender.LOGSTASH.port=9092

优点：无本地依赖，容器销毁不影响缺点：网络故障可能丢日志，需要做好缓冲

4.3 采集方案选择建议

场景	推荐方案	理由
传统 VM 部署	Filebeat + Kafka	成熟稳定，资源开销小
Kubernetes	DaemonSet Fluent Bit	集中管理，运维简单
资源敏感	Vector（替代 Logstash）	内存占用低，性能好
多云环境	应用直写 + 本地缓冲	避免跨云文件访问

五、ELK/EFK 实战案例

理论讲了很多，来看一个完整的实战案例。

5.1 ELK 架构部署

假设我们有一个中等规模的系统：

20 个服务实例
日均日志量 100GB
保留 7 天热数据，30 天温数据

Elasticsearch：3 节点集群（3 master + 3 data）
Kibana：1 节点
Logstash：2 节点（做负载均衡）
Kafka：3 节点集群
Filebeat：部署在每个应用服务器

# elasticsearch.yml
cluster.name: logging-cluster
node.name: node-1
node.roles: [master, data]

# 索引设置
index.number_of_shards: 3
index.number_of_replicas: 1

# 堆内存设置（不超过 32GB）
-Xms16g
-Xmx16g

# 冷热分离
node.attr.data_type: hot  # 热节点
# node.attr.data_type: warm  # 温节点

# logstash.conf
input {
  kafka {
    bootstrap_servers => "kafka1:9092,kafka2:9092,kafka3:9092"
    topics => ["app-logs"]
    consumer_threads => 4
  }
}

filter {
  json {
    source => "message"
  }
  
  # 解析时间戳
  date {
    match => ["timestamp", "ISO8601"]
    target => "@timestamp"
  }
  
  # 手机号脱敏
  gsub => [
    "message", "(1[3-9]\d)\d{4}(\d{4})", "\1****\2"
  ]
  
  # 添加地理位置
  geoip {
    source => "client_ip"
    target => "geoip"
  }
}

output {
  elasticsearch {
    hosts => ["es1:9200", "es2:9200", "es3:9200"]
    index => "app-logs-%{+YYYY.MM.dd}"
  }
}

# filebeat.yml
filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /var/log/app/*.log
  multiline:
    pattern: '^\d{4}-\d{2}-\d{2}'
    negate: true
    match: after
  fields:
    service: ${SERVICE_NAME}
    env: production
  fields_under_root: true

output.kafka:
  hosts: ["kafka1:9092", "kafka2:9092", "kafka3:9092"]
  topic: "app-logs"
  partition.round_robin:
    reachable_only: true
  required_acks: 1

5.2 EFK 架构（Fluentd 替代 Logstash）

EFK = Elasticsearch + Fluentd + Kibana，更适合容器化环境。

# fluent.conf
<source>
  @type tail
  path /var/log/containers/*.log
  pos_file /var/log/fluentd-containers.log.pos
  tag kubernetes.*
  format json
  read_from_head true
</source>

<filter kubernetes.**>
  @type kubernetes_metadata
  @id filter_kube_metadata
  kubernetes_url "#{ENV['KUBERNETES_SERVICE_HOST']}:#{ENV['KUBERNETES_SERVICE_PORT']}"
</filter>

<match kubernetes.**>
  @type elasticsearch
  host "#{ENV['ELASTICSEARCH_HOST']}"
  port "#{ENV['ELASTICSEARCH_PORT']}"
  logstash_format true
  logstash_prefix app-logs
  include_tag_key true
</match>

# fluent-bit.conf
[INPUT]
    Name              tail
    Path              /var/log/containers/*.log
    Parser            docker
    Tag               kube.*

[FILTER]
    Name                kubernetes
    Match               kube.*
    Kube_URL            https://kubernetes.default.svc:443
    Merge_Log           On

[OUTPUT]
    Name            es
    Match           *
    Host            elasticsearch
    Port            9200
    Logstash_Format On
    Logstash_Prefix app-logs

5.3 索引生命周期管理

日志数据会无限增长，需要自动管理生命周期。

PUT _ilm/policy/logs-policy
{
  "policy": {
    "phases": {
      "hot": {
        "min_age": "0ms",
        "actions": {
          "rollover": {
            "max_size": "50gb",
            "max_age": "1d"
          },
          "set_priority": {
            "priority": 100
          }
        }
      },
      "warm": {
        "min_age": "7d",
        "actions": {
          "shrink": {
            "number_of_shards": 1
          },
          "forcemerge": {
            "max_num_segments": 1
          },
          "allocate": {
            "require": {
              "data_type": "warm"
            }
          },
          "set_priority": {
            "priority": 50
          }
        }
      },
      "cold": {
        "min_age": "30d",
        "actions": {
          "allocate": {
            "require": {
              "data_type": "cold"
            }
          },
          "set_priority": {
            "priority": 0
          }
        }
      },
      "delete": {
        "min_age": "90d",
        "actions": {
          "delete": {}
        }
      }
    }
  }
}

这个配置实现：

Hot 阶段（0-7天）：高性能 SSD，支持频繁查询
Warm 阶段（7-30天）：迁移到普通磁盘，压缩优化
Cold 阶段（30-90天）：很少查询，低优先级
Delete 阶段（90天后）：自动删除

六、日志分析方案

日志存进去了，怎么用好它是关键。

6.1 常用查询模式

traceId: "abc123"

查看一个请求的完整链路。

level: ERROR 
AND @timestamp: [now-1h TO now]
<table>
<thead><tr>
</tr></thead><tbody>
</tbody></table>

过去 1 小时各服务的错误数量。

duration_ms: >1000
AND service: "order-service"
<table>
<thead><tr>
</tr></thead><tbody>
</tbody></table>

订单服务中各 API 的平均/最大耗时。

userId: 10086
AND level: INFO
AND message: ("登录" OR "下单" OR "支付")

追踪用户 10086 的关键操作。

6.2 聚合分析实战

需求：分析订单接口的 P50、P95、P99 延迟趋势。

ES 查询：

GET app-logs-*/_search
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {"term": {"service": "order-service"}},
        {"range": {"@timestamp": {"gte": "now-7d"}}}
      ]
    }
  },
  "aggs": {
    "over_time": {
      "date_histogram": {
        "field": "@timestamp",
        "calendar_interval": "1h"
      },
      "aggs": {
        "p50": {"percentiles": {"field": "duration_ms", "percents": [50]}},
        "p95": {"percentiles": {"field": "duration_ms", "percents": [95]}},
        "p99": {"percentiles": {"field": "duration_ms", "percents": [99]}}
      }
    }
  }
}

需求：找出过去 1 小时出现最频繁的错误。

GET app-logs-*/_search
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {"term": {"level": "ERROR"}},
        {"range": {"@timestamp": {"gte": "now-1h"}}}
      ]
    }
  },
  "aggs": {
    "error_types": {
      "terms": {
        "field": "error.type.keyword",
        "size": 10
      }
    }
  }
}

6.3 Kibana 可视化

系统健康总览

- 错误率趋势图（折线图）

- 各服务日志量（饼图） - 实时错误流（数据表）

性能监控

- P95 延迟趋势（折线图）

- 慢请求 TOP 10（条形图） - 接口响应分布（直方图）

业务分析

- 订单量趋势（面积图）

- 用户活跃度（指标图） - 异常交易（数据表）

安全监控

- 登录失败趋势（折线图）

- 异常 IP 访问（地图） - 敏感操作记录（数据表）

七、告警机制设计

日志不仅要存储和查询，还要主动发现问题。

7.1 告警系统架构

┌──────────────────────────────────────────────────────────────┐
│                        告警系统架构                            │
├──────────────────────────────────────────────────────────────┤
│                                                              │
│  ┌─────────────┐   ┌─────────────┐   ┌─────────────┐        │
│  │   日志源    │   │   指标源    │   │   事件源    │        │
│  │  (ES/Loki)  │   │ (Prometheus)│   │  (Webhook)  │        │
│  └──────┬──────┘   └──────┬──────┘   └──────┬──────┘        │
│         │                 │                 │                │
│         └─────────────────┼─────────────────┘                │
│                          ▼                                  │
│                  ┌───────────────┐                          │
│                  │   规则引擎    │                          │
│                  │  (Alert规则)  │                          │
│                  └───────┬───────┘                          │
│                          │                                  │
│         ┌────────────────┼────────────────┐                 │
│         ▼                ▼                ▼                 │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│  │   阈值判断   │  │   趋势分析   │  │   异常检测   │         │
│  │  (数量>N)   │  │  (环比/同比) │  │  (ML/AI)   │         │
│  └─────────────┘  └─────────────┘  └─────────────┘         │
│         │                │                │                 │
│         └────────────────┼────────────────┘                 │
│                          ▼                                  │
│                  ┌───────────────┐                          │
│                  │   告警路由    │                          │
│                  │ (分组/收敛)   │                          │
│                  └───────┬───────┘                          │
│                          │                                  │
│         ┌────────────────┼────────────────┐                 │
│         ▼                ▼                ▼                 │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐         │
│  │   邮件      │  │   钉钉/飞书  │  │   SMS      │         │
│  └─────────────┘  └─────────────┘  └─────────────┘         │
│                                                              │
└──────────────────────────────────────────────────────────────┘

7.2 告警规则设计

最简单直接：超过阈值就告警。

# 错误率告警
name: error_rate_high
condition:
  query: "level:ERROR"
  time_window: 5m
  threshold: 100
  operator: ">"
actions:
  - type: feishu
    webhook: "https://open.feishu.cn/..."
    message: "⚠️ 错误率过高：5分钟内错误数超过100"

与历史数据对比，识别异常波动。

# 环比告警
name: error_spike
condition:
  query: "level:ERROR"
  compare_with: "1h_ago"
  increase_threshold: 50%
actions:
  - type: feishu
    message: "⚠️ 错误数环比增长超过50%"

多条件组合，减少误报。

# 服务可用性告警
name: service_availability
condition:
  - query: "level:ERROR AND service:order-service"
    threshold: 10
    time_window: 1m
  - query: "level:INFO AND service:order-service"
    threshold: 5
    time_window: 1m
    operator: "<"
logic: "AND"
actions:
  - type: sms
    recipients: ["13812345678"]
    message: "🚨 订单服务可用性下降"

7.3 告警收敛与降噪

告警风暴是最头疼的问题：一个问题触发 100 条告警，谁也处理不了。

相同类型的告警合并：

原始告警：
- 10:00 order-service ERROR: timeout
- 10:01 order-service ERROR: timeout
- 10:02 order-service ERROR: timeout
- ...

收敛后：
- 10:10 order-service ERROR: timeout (出现 15 次)

低级别告警被高级别告警抑制：

如果 FATAL 告警触发 → 抑制同一服务的 ERROR 告警
如果 ERROR 告警触发 → 抑制同一服务的 WARN 告警

告警触发后，一段时间内不再重复告警：

silence:
  duration: 30m
  comment: "已处理，等待恢复"

7.4 ElastAlert 实战

ElastAlert 是 Yelp 开源的 ES 告警工具，配置简单。

pip install elastalert

# config.yaml
rules_folder: rules
run_every:
  minutes: 1
buffer_time:
  minutes: 5
es_host: elasticsearch
es_port: 9200

# rules/error_frequency.yaml
name: Error Frequency Alert
type: frequency
index: app-logs-*
num_events: 50
timeframe:
  minutes: 5
filter:
- term:
    level: "ERROR"
alert:
- "feishu"
feishu_webhook_url: "https://open.feishu.cn/open-apis/bot/v2/hook/xxx"

# rules/blacklist.yaml
name: Blacklist Alert
type: blacklist
index: app-logs-*
compare_key: user.ip
blacklist:
- "192.168.1.100"  # 已知恶意IP
- "10.0.0.50"
include:
- user.ip
- user.name
- action
alert:
- "email"
email: "security@example.com"

7.5 告警最佳实践

不同级别的告警走不同渠道：

级别	条件	通知渠道	响应时间
P0	服务不可用	电话 + SMS + 飞书	5分钟
P1	错误率超过阈值	飞书 + 邮件	15分钟
P2	性能下降	飞书	1小时
P3	潜在风险	邮件	1天

配置告警时设置值班人员
轮换值班，避免疲劳
非紧急告警只通知值班人员

每周回顾告警数据：

哪些告警是有效的（真正发现了问题）
哪些是误报（需要调整阈值）
哪些问题没有告警（需要新增规则）

对于已知问题，设计自愈流程：

# 自动重启服务
name: auto_restart
condition:
  query: "level:FATAL AND service:payment-service"
  threshold: 3
  time_window: 2m
actions:
  - type: webhook
    url: "http://k8s-api/restart?service=payment-service"
  - type: feishu
    message: "payment-service 已自动重启"

八、性能优化与成本控制

日志系统是"烧钱大户"，需要做好优化。

8.1 写入优化

单条写入 vs 批量写入性能差 10 倍以上：

// 差：每条日志单独写
for (Log log : logs) {
    esClient.index(log);
}

// 好：批量写入
BulkRequest bulk = new BulkRequest();
for (Log log : logs) {
    bulk.add(new IndexRequest("app-logs").source(log));
}
esClient.bulk(bulk);

日志写入不应该阻塞业务线程：

// 使用内存队列异步写
ExecutorService executor = Executors.newFixedThreadPool(4);
BlockingQueue<Log> queue = new LinkedBlockingQueue<>(10000);

// 业务线程只入队
queue.offer(log);

// 后台线程批量消费
executor.submit(() -> {
    List<Log> batch = new ArrayList<>();
    while (true) {
        queue.drainTo(batch, 1000);
        if (!batch.isEmpty()) {
            esClient.bulk(batch);
            batch.clear();
        }
    }
});

8.2 存储优化

不同阶段的数据使用不同存储：

Hot（0-3天）：NVMe SSD，3副本
Warm（3-30天）：SATA SSD，2副本
Cold（30-90天）：HDD，1副本
Frozen（>90天）：对象存储 S3，无副本

ES 默认使用 LZ4 压缩，可以切换到 DEFLATE 获得更高压缩比：

PUT app-logs-*
{
  "settings": {
    "index": {
      "codec": "best_compression"
    }
  }
}

压缩比提升 15-20%，但 CPU 消耗增加。

减少不必要的字段索引
关闭不需要的 text 字段的 fielddata
使用 keyword 类型替代 text（精确匹配场景）

8.3 查询优化

ES 按时间分区，查询时尽量指定时间范围：

// 好：指定时间范围
{
  "query": {
    "bool": {
      "filter": [
        {"range": {"@timestamp": {"gte": "now-1h"}}}
      ]
    }
  }
}

// 差：全量扫描
{
  "query": {
    "match_all": {}
  }
}

filter 不计算得分，可以利用缓存：

// 好：使用 filter
{
  "query": {
    "bool": {
      "filter": [
        {"term": {"level": "ERROR"}},
        {"term": {"service": "order-service"}}
      ]
    }
  }
}

// 差：使用 query（会计算相关性得分）
{
  "query": {
    "bool": {
      "must": [
        {"term": {"level": "ERROR"}},
        {"term": {"service": "order-service"}}
      ]
    }
  }
}

ES 默认只允许查询前 10000 条结果。深度分页使用 search_after：

// 第一页
GET app-logs/_search
{
  "size": 100,
  "sort": [{"@timestamp": "desc"}]
}

// 下一页（使用上一页最后一条的排序值）
GET app-logs/_search
{
  "size": 100,
  "sort": [{"@timestamp": "desc"}],
  "search_after": ["2024-01-15T03:14:22.123Z"]
}

8.4 成本估算

以日均 100GB 日志、保留 30 天为例：

原始数据：100GB × 30 = 3TB
压缩后（约 40%）：1.2TB
2 副本：2.4TB
云存储费用（约 ¥0.35/GB/月）：2.4TB × 0.35 × 1024 ≈ ¥860/月

ES 集群（3节点，8核16G）：约 ¥2000/月
Kafka 集群（3节点，4核8G）：约 ¥1000/月

减少保留天数（30天 → 7天）
降低副本数（2副本 → 1副本）
冷数据存对象存储
过滤无用日志（健康检查、静态资源）

九、日志系统选型对比

市面上的日志系统越来越多，怎么选？

9.1 主流方案对比

方案	优点	缺点	适用场景
ELK	功能全面、生态成熟、社区活跃	资源消耗大、运维复杂	中大规模企业
EFK	容器友好、Fluentd 轻量	功能不如 Logstash 丰富	Kubernetes 环境
Loki	架构简单、成本低、与 Grafana 集成	全文检索弱、不适合复杂分析	云原生、小团队
ClickHouse	高性能、低成本、聚合强	全文检索弱、学习曲线陡	日志分析、报表
Graylog	开箱即用、告警功能强	社区版功能有限	中小团队

9.2 选型建议

十、总结

日志系统是基础设施中"存在感最低但价值最高"的组件之一。平时你可能感觉不到它的存在，但当问题发生时，它就是你的救命稻草。

问题排查：快速定位和解决问题
监控告警：实时感知系统健康状态
业务分析：从日志中挖掘业务价值
安全审计：追溯和取证的重要依据

日志规范：统一格式、合理分级、结构化输出
采集架构：可靠采集、解耦应用、灵活扩展
存储选择：根据场景选择合适的存储引擎
检索能力：平衡索引成本和查询性能
生命周期管理：冷热分离、自动归档

数据流水线：采集 → 传输 → 处理 → 存储 → 检索
解耦原则：每个阶段独立演进，通过队列解耦
削峰填谷：Kafka 抗住峰值，下游按节奏消费
冷热分离：热数据高性能，冷数据低成本

记录有价值的信息，不要记流水账
结构化日志，便于机器处理
链路追踪，串联完整请求
合理分级，动态调整
安全脱敏，保护隐私
告警收敛，避免告警风暴

批量写入，提升吞吐
异步写入，避免阻塞业务
冷热分离，降低存储成本
查询优化，减少资源消耗

好的日志系统就像是系统的"黑匣子"——希望永远用不到它，但当需要时，它能救你的命。

系列七 · 第1篇：服务注册与发现
系列七 · 第2篇：负载均衡
系列七 · 第3篇：配置中心
系列七 · 第4篇：日志系统（本文）
系列七 · 第5篇：服务网关（待续）

返回文章列表返回首页

💬 评论 (0)

0/500

排序：