GPU 指标的语义约定
状态: 开发中
GPU 指标 hw.gpu.*
图形处理单元(独立)。
hw.type 必须设置为 "gpu"。
所有 GPU 指标都可以包含以下属性
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
Metric: hw.errors (GPU)
此指标是推荐的。
GPU 遇到的错误数量。
使用此指标时,必须设置以下属性
hw.type必须设置为"gpu"以指示错误来自 GPU。error.type应该设置为以下值之一,以指示错误的类型"corrected":GPU 检测到并已更正的错误。"uncorrected":GPU 检测到但无法更正的错误。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.errors | Counter | {error} | 组件遇到的错误数量。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.type | 必需 | 字符串 | 组件类型 [1] | battery; cpu; disk_controller | |
error.type | 有条件必填,仅当发生错误时 | 字符串 | 组件遇到的错误类型。[2] | uncorrected; zero_buffer_credit; crc; bad_sector | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
network.io.direction | 推荐 | 字符串 | 网络错误的网络流量方向。[3] | receive; transmit |
[1] hw.type: 描述了报告 hw.state 的硬件组件的类别。例如,hw.type=temperature 和 hw.state=degraded 将表示硬件组件的温度被报告为 degraded。
[2] error.type: error.type 应与组件报告的错误代码、错误的规范名称或其他低基数错误标识符相匹配。仪器化应记录其报告的错误列表。
[3] network.io.direction: 此属性仅在 hw.type 设置为 "network" 时使用,以指示错误的发生方向。
error.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
_OTHER | 当检测不到自定义值时使用的回退错误值。 |
hw.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
battery | Battery | |
cpu | CPU | |
disk_controller | 磁盘控制器 | |
enclosure | Enclosure | |
fan | Fan | |
gpu | GPU | |
logical_disk | 逻辑磁盘 | |
memory | Memory | |
network | 网络 | |
physical_disk | 物理磁盘 | |
power_supply | 电源 | |
tape_drive | 磁带机 | |
temperature | Temperature | |
voltage | Voltage |
network.io.direction 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
receive | receive | |
transmit | transmit |
Metric: hw.gpu.io
此指标是推荐的。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.gpu.io | Counter | 每个调用的最大内存使用量的分布。 | GPU 接收和传输的字节数。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
network.io.direction | 必需 | 字符串 | 网络 IO 操作方向。 | receive; transmit | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
network.io.direction 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
receive | receive | |
transmit | transmit |
Metric: hw.gpu.memory.limit
此指标是推荐的。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.gpu.memory.limit | UpDownCounter | 每个调用的最大内存使用量的分布。 | GPU 内存的大小。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
Metric: hw.gpu.memory.utilization
此指标是推荐的。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.gpu.memory.utilization | Gauge | 1 | 使用的 GPU 内存的比例。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
Metric: hw.gpu.memory.usage
此指标是推荐的。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.gpu.memory.usage | UpDownCounter | 每个调用的最大内存使用量的分布。 | 使用的 GPU 内存。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
Metric: hw.gpu.utilization
此指标是推荐的。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.gpu.utilization | Gauge | 1 | 花费在特定任务上的时间比例。 |
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.driver_version | 推荐 | 字符串 | 硬件组件的驱动程序版本 | 10.2.1-3 | |
hw.firmware_version | 推荐 | 字符串 | 硬件组件的固件版本 | 2.0.1 | |
hw.gpu.task | 推荐 | 字符串 | GPU 正在执行的任务类型 | decoder; encoder; general | |
hw.model | 推荐 | 字符串 | 硬件组件的描述性型号名称 | PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 | |
hw.serial_number | 推荐 | 字符串 | 硬件组件的序列号 | CNFCP0123456789 | |
hw.vendor | 推荐 | 字符串 | 硬件组件的供应商名称 | Dell; HP; Intel; AMD; LSI; Lenovo |
hw.gpu.task 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
decoder | 解码器 | |
encoder | 编码器 | |
general | 通用 |
Metric: hw.status (GPU)
此指标是推荐的。
运行状态:对于每种可能的状态,为 1(true)或 0(false)。
当使用此指标来表示 GPU 状态时,必须设置以下属性
hw.type必须设置为"gpu"以指示状态是针对 GPU 的。hw.state必须设置为以下值之一,以指示 GPU 状态"ok":GPU 正常运行。"degraded":GPU 运行的功能或性能有所下降。"failed":GPU 已发生故障,无法运行。"predicted_failure":GPU 目前运行正常,但预计很快会发生故障。
| 名称 | Instrument Type | Unit (UCUM) | 描述 | Stability | 实体关联 |
|---|---|---|---|---|---|
hw.status | UpDownCounter | 1 | 运行状态:对于每种可能的状态,为 1(true)或 0(false)。[1] |
[1]: hw.status 目前被指定为 UpDownCounter,但理想情况下应使用 StateSet(如 OpenMetrics 中定义的) 来表示。一旦 StateSet 在 OpenTelemetry 中被指定,此语义约定将进行更新。此计划的更改预计不会对用户查询其时间序列后端以检索 hw.status 值的方式产生任何影响。
Attributes
| 键 | Stability | 需求级别 | Value Type | 描述 | Example Values |
|---|---|---|---|---|---|
hw.id | 必需 | 字符串 | 硬件组件的标识符,在监控主机内是唯一的 | win32battery_battery_testsysa33_1 | |
hw.state | 必需 | 字符串 | 组件的当前状态 | degraded; failed; needs_cleaning | |
hw.type | 必需 | 字符串 | 组件类型 [1] | battery; cpu; disk_controller | |
hw.name | 推荐 | 字符串 | 硬件组件的一个易于识别的名称 | eth0 | |
hw.parent | 推荐 | 字符串 | 父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性) | dellStorage_perc_0 |
[1] hw.type: 描述了报告 hw.state 的硬件组件的类别。例如,hw.type=temperature 和 hw.state=degraded 将表示硬件组件的温度被报告为 degraded。
hw.state 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
degraded | 降级 | |
failed | 失败 | |
needs_cleaning | 需要清洁 | |
ok | OK | |
predicted_failure | 预测失败 |
hw.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。
| 值 | 描述 | Stability |
|---|---|---|
battery | Battery | |
cpu | CPU | |
disk_controller | 磁盘控制器 | |
enclosure | Enclosure | |
fan | Fan | |
gpu | GPU | |
logical_disk | 逻辑磁盘 | |
memory | Memory | |
network | 网络 | |
physical_disk | 物理磁盘 | |
power_supply | 电源 | |
tape_drive | 磁带机 | |
temperature | Temperature | |
voltage | Voltage |