使用 Ansible 大规模管理 OpenTelemetry Collector
博客文章在发布后不会更新。这篇文章已经发布一年多了,其内容可能已过时,部分链接可能无效。在依赖任何信息之前,请务必核实。
您可以将 OpenTelemetry Collector 的部署规模扩展到多个 Linux 主机,通过 Ansible 来运行,作为您可观测性架构中的 网关 和 代理。OpenTelemetry Collector 的这种双重能力,可以强大地收集和转发指标、追踪和日志到分析和可视化平台。
我们概述了一种使用 Ansible 在整个基础设施中部署和管理 OpenTelemetry Collector 可扩展实例的策略。在接下来的示例中,我们将使用 Grafana 作为指标的目标后端。
先决条件
在开始之前,请确保您满足以下要求
- 在您的基本系统上安装了 Ansible
- SSH 访问两个或更多 Linux 主机
- 已配置 Prometheus 来收集您的指标
安装 Grafana Ansible collection
从 4.0 版本开始,OpenTelemetry Collector role 通过 Grafana Ansible collection 提供。
要安装 Grafana Ansible collection,请运行此命令
ansible-galaxy collection install grafana.grafana
创建 Ansible inventory 文件
接下来,收集与您的 Linux 主机相关的 IP 地址和 URL,并创建一个 inventory 文件。
创建 Ansible inventory 文件。
Ansible inventory 文件(名为
inventory)将每个主机 IP 列在单独一行上,如下所示(显示 8 个主机)10.0.0.1 # hostname = ubuntu-01 10.0.0.2 # hostname = ubuntu-02 10.0.0.3 # hostname = centos-01 10.0.0.4 # hostname = centos-02 10.0.0.5 # hostname = debian-01 10.0.0.6 # hostname = debian-02 10.0.0.7 # hostname = fedora-01 10.0.0.8 # hostname = fedora-02在
inventory文件同一目录下创建一个ansible.cfg文件,并包含以下值[defaults] inventory = inventory # Path to the inventory file private_key_file = ~/.ssh/id_rsa # Path to private SSH Key remote_user=root
使用 OpenTelemetry Collector Ansible role
接下来,定义一个 Ansible playbook,将您选择或创建的 OpenTelemetry Collector role 应用到您的主机上。
在与您的 ansible.cfg 和 inventory 文件相同的目录中创建一个名为 deploy-opentelemetry.yml 的文件
- name: Install OpenTelemetry Collector
hosts: all
become: true
tasks:
- name: Install OpenTelemetry Collector
ansible.builtin.include_role:
name: grafana.grafana.opentelemetry_collector
vars:
otel_collector_receivers:
hostmetrics:
collection_interval: 60s
scrapers:
cpu: {}
disk: {}
load: {}
filesystem: {}
memory: {}
network: {}
paging: {}
process:
mute_process_name_error: true
mute_process_exe_error: true
mute_process_io_error: true
processes: {}
otel_collector_processors:
batch:
resourcedetection:
detectors: [env, system]
timeout: 2s
system:
hostname_sources: [os]
transform/add_resource_attributes_as_metric_attributes:
error_mode: ignore
metric_statements:
- context: datapoint
statements:
- set(attributes["deployment.environment"],
resource.attributes["deployment.environment"])
- set(attributes["service.version"],
resource.attributes["service.version"])
otel_collector_exporters:
prometheusremotewrite:
endpoint: https://<prometheus-url>/api/prom/push
headers:
Authorization: 'Basic <base64-encoded-username:password>'
otel_collector_service:
pipelines:
metrics:
receivers: [hostmetrics]
processors:
[
resourcedetection,
transform/add_resource_attributes_as_metric_attributes,
batch,
]
exporters: [prometheusremotewrite]
调整配置以匹配您打算收集的具体遥测数据以及您计划将其转发到的目标。此配置片段是一个基本示例,用于收集主机指标并转发到 Prometheus。
前面的配置将为 OpenTelemetry Collector 配置,以收集 Linux 主机的指标。
运行 Ansible playbook
通过运行以下命令将 OpenTelemetry Collector 部署到您的主机上
ansible-playbook deploy-opentelemetry.yml
在后端检查您的指标
在您的 OpenTelemetry Collector 开始将指标发送到 Prometheus 后,请按照以下步骤在 Grafana 中可视化它们
设置 Grafana
安装 Docker:确保您的系统上已安装 Docker。
运行 Grafana Docker 容器:使用以下命令启动 Grafana 服务器,它将获取最新的 Grafana 镜像
docker run -d -p 3000:3000 --name=grafana grafana/grafana访问 Grafana:在您的 Web 浏览器中打开 https://:3000。默认登录用户名和密码均为
admin。首次登录时,请根据提示更改密码 — 选择一个安全的密码!
有关其他安装方法和更详细的说明,请参阅 官方 Grafana 文档。
添加 Prometheus 作为数据源
- 在 Grafana 中,导航到 Connections > Data Sources。
- 点击 Add data source 并选择 Prometheus。
- 在设置中,输入您的 Prometheus URL,例如
http://<your_prometheus_host>,以及任何其他必需的详细信息。 - 选择 Save & Test。
探索您的指标
转到 Explore 页面
在 Query editor 中,选择您的数据源并输入以下查询
100 - (avg by (cpu) (irate(system_cpu_time{state="idle"}[5m])) * 100)此查询计算过去 5 分钟内,每个 CPU 核心未处于“空闲”状态的平均 CPU 时间百分比。
探索其他指标并创建仪表板,以深入了解您系统的性能。
这篇博文演示了如何通过 Ansible 配置和部署多个 OpenTelemetry Collector 到不同的 Linux 主机上,以及如何在 Grafana 中可视化收集到的遥测数据。如果您觉得这很有用,可以查看 OpenTelemetry Collector role 的 GitHub 仓库以获取详细的配置选项。如果您有任何疑问,可以通过我的 GitHub 个人资料 @ishanjainn 中的联系方式与我联系。