使用 Ansible 大规模管理 OpenTelemetry Collector

博客文章在发布后不会更新。这篇文章已经发布一年多了,其内容可能已过时,部分链接可能无效。在依赖任何信息之前,请务必核实。

您可以将 OpenTelemetry Collector 的部署规模扩展到多个 Linux 主机,通过 Ansible 来运行,作为您可观测性架构中的 网关代理。OpenTelemetry Collector 的这种双重能力,可以强大地收集和转发指标、追踪和日志到分析和可视化平台。

我们概述了一种使用 Ansible 在整个基础设施中部署和管理 OpenTelemetry Collector 可扩展实例的策略。在接下来的示例中,我们将使用 Grafana 作为指标的目标后端。

先决条件

在开始之前,请确保您满足以下要求

  • 在您的基本系统上安装了 Ansible
  • SSH 访问两个或更多 Linux 主机
  • 已配置 Prometheus 来收集您的指标

安装 Grafana Ansible collection

从 4.0 版本开始,OpenTelemetry Collector role 通过 Grafana Ansible collection 提供。

要安装 Grafana Ansible collection,请运行此命令

ansible-galaxy collection install grafana.grafana

创建 Ansible inventory 文件

接下来,收集与您的 Linux 主机相关的 IP 地址和 URL,并创建一个 inventory 文件。

  1. 创建 Ansible inventory 文件。

    Ansible inventory 文件(名为 inventory)将每个主机 IP 列在单独一行上,如下所示(显示 8 个主机)

    10.0.0.1    # hostname = ubuntu-01
    10.0.0.2    # hostname = ubuntu-02
    10.0.0.3    # hostname = centos-01
    10.0.0.4    # hostname = centos-02
    10.0.0.5    # hostname = debian-01
    10.0.0.6    # hostname = debian-02
    10.0.0.7    # hostname = fedora-01
    10.0.0.8    # hostname = fedora-02
    
  2. inventory 文件同一目录下创建一个 ansible.cfg 文件,并包含以下值

    [defaults]
    inventory = inventory  # Path to the inventory file
    private_key_file = ~/.ssh/id_rsa   # Path to private SSH Key
    remote_user=root
    

使用 OpenTelemetry Collector Ansible role

接下来,定义一个 Ansible playbook,将您选择或创建的 OpenTelemetry Collector role 应用到您的主机上。

在与您的 ansible.cfginventory 文件相同的目录中创建一个名为 deploy-opentelemetry.yml 的文件

- name: Install OpenTelemetry Collector
  hosts: all
  become: true

  tasks:
    - name: Install OpenTelemetry Collector
      ansible.builtin.include_role:
        name: grafana.grafana.opentelemetry_collector
      vars:
        otel_collector_receivers:
          hostmetrics:
            collection_interval: 60s
            scrapers:
              cpu: {}
              disk: {}
              load: {}
              filesystem: {}
              memory: {}
              network: {}
              paging: {}
              process:
                mute_process_name_error: true
                mute_process_exe_error: true
                mute_process_io_error: true
              processes: {}

        otel_collector_processors:
          batch:
          resourcedetection:
            detectors: [env, system]
            timeout: 2s
            system:
              hostname_sources: [os]
          transform/add_resource_attributes_as_metric_attributes:
            error_mode: ignore
            metric_statements:
              - context: datapoint
                statements:
                  - set(attributes["deployment.environment"],
                    resource.attributes["deployment.environment"])
                  - set(attributes["service.version"],
                    resource.attributes["service.version"])

        otel_collector_exporters:
          prometheusremotewrite:
            endpoint: https://<prometheus-url>/api/prom/push
            headers:
              Authorization: 'Basic <base64-encoded-username:password>'

        otel_collector_service:
          pipelines:
            metrics:
              receivers: [hostmetrics]
              processors:
                [
                  resourcedetection,
                  transform/add_resource_attributes_as_metric_attributes,
                  batch,
                ]
              exporters: [prometheusremotewrite]

前面的配置将为 OpenTelemetry Collector 配置,以收集 Linux 主机的指标。

运行 Ansible playbook

通过运行以下命令将 OpenTelemetry Collector 部署到您的主机上

ansible-playbook deploy-opentelemetry.yml

在后端检查您的指标

在您的 OpenTelemetry Collector 开始将指标发送到 Prometheus 后,请按照以下步骤在 Grafana 中可视化它们

设置 Grafana

  1. 安装 Docker:确保您的系统上已安装 Docker。

  2. 运行 Grafana Docker 容器:使用以下命令启动 Grafana 服务器,它将获取最新的 Grafana 镜像

    docker run -d -p 3000:3000 --name=grafana grafana/grafana
    
  3. 访问 Grafana:在您的 Web 浏览器中打开 https://:3000。默认登录用户名和密码均为 admin

  4. 首次登录时,请根据提示更改密码 — 选择一个安全的密码!

有关其他安装方法和更详细的说明,请参阅 官方 Grafana 文档

添加 Prometheus 作为数据源

  1. 在 Grafana 中,导航到 Connections > Data Sources
  2. 点击 Add data source 并选择 Prometheus
  3. 在设置中,输入您的 Prometheus URL,例如 http://<your_prometheus_host>,以及任何其他必需的详细信息。
  4. 选择 Save & Test

探索您的指标

  1. 转到 Explore 页面

  2. 在 Query editor 中,选择您的数据源并输入以下查询

    100 - (avg by (cpu) (irate(system_cpu_time{state="idle"}[5m])) * 100)
    

    此查询计算过去 5 分钟内,每个 CPU 核心未处于“空闲”状态的平均 CPU 时间百分比。

  3. 探索其他指标并创建仪表板,以深入了解您系统的性能。

这篇博文演示了如何通过 Ansible 配置和部署多个 OpenTelemetry Collector 到不同的 Linux 主机上,以及如何在 Grafana 中可视化收集到的遥测数据。如果您觉得这很有用,可以查看 OpenTelemetry Collector role 的 GitHub 仓库以获取详细的配置选项。如果您有任何疑问,可以通过我的 GitHub 个人资料 @ishanjainn 中的联系方式与我联系。