GPU 指标的语义约定

状态: 开发中

GPU 指标 hw.gpu.*

图形处理单元(独立)。

hw.type 必须设置为 "gpu"

所有 GPU 指标都可以包含以下属性

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

Metric: hw.errors (GPU)

此指标是推荐的。

GPU 遇到的错误数量。

使用此指标时,必须设置以下属性

  • hw.type 必须设置为 "gpu" 以指示错误来自 GPU。
  • error.type 应该设置为以下值之一,以指示错误的类型
    • "corrected":GPU 检测到并已更正的错误。
    • "uncorrected":GPU 检测到但无法更正的错误。
名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.errorsCounter{error}组件遇到的错误数量。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.typeDevelopment必需字符串组件类型 [1]battery; cpu; disk_controller
error.typeStable有条件必填,仅当发生错误时字符串组件遇到的错误类型。[2]uncorrected; zero_buffer_credit; crc; bad_sector
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
network.io.directionDevelopment推荐字符串网络错误的网络流量方向。[3]receive; transmit

[1] hw.type: 描述了报告 hw.state 的硬件组件的类别。例如,hw.type=temperaturehw.state=degraded 将表示硬件组件的温度被报告为 degraded

[2] error.type: error.type 应与组件报告的错误代码、错误的规范名称或其他低基数错误标识符相匹配。仪器化应记录其报告的错误列表。

[3] network.io.direction: 此属性仅在 hw.type 设置为 "network" 时使用,以指示错误的发生方向。


error.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。

描述Stability
_OTHER当检测不到自定义值时使用的回退错误值。Stable

hw.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。

描述Stability
batteryBatteryDevelopment
cpuCPUDevelopment
disk_controller磁盘控制器Development
enclosureEnclosureDevelopment
fanFanDevelopment
gpuGPUDevelopment
logical_disk逻辑磁盘Development
memoryMemoryDevelopment
network网络Development
physical_disk物理磁盘Development
power_supply电源Development
tape_drive磁带机Development
temperatureTemperatureDevelopment
voltageVoltageDevelopment

network.io.direction 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。

描述Stability
receivereceiveDevelopment
transmittransmitDevelopment

Metric: hw.gpu.io

此指标是推荐的。

名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.gpu.ioCounter每个调用的最大内存使用量的分布。GPU 接收和传输的字节数。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
network.io.directionDevelopment必需字符串网络 IO 操作方向。receive; transmit
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

network.io.direction 具有以下已知值列表。如果其中一个适用,则必须使用相应的值;否则,可以使用自定义值。

描述Stability
receivereceiveDevelopment
transmittransmitDevelopment

Metric: hw.gpu.memory.limit

此指标是推荐的。

名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.gpu.memory.limitUpDownCounter每个调用的最大内存使用量的分布。GPU 内存的大小。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

Metric: hw.gpu.memory.utilization

此指标是推荐的。

名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.gpu.memory.utilizationGauge1使用的 GPU 内存的比例。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

Metric: hw.gpu.memory.usage

此指标是推荐的。

名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.gpu.memory.usageUpDownCounter每个调用的最大内存使用量的分布。使用的 GPU 内存。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

Metric: hw.gpu.utilization

此指标是推荐的。

名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.gpu.utilizationGauge1花费在特定任务上的时间比例。Development

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.driver_versionDevelopment推荐字符串硬件组件的驱动程序版本10.2.1-3
hw.firmware_versionDevelopment推荐字符串硬件组件的固件版本2.0.1
hw.gpu.taskDevelopment推荐字符串GPU 正在执行的任务类型decoder; encoder; general
hw.modelDevelopment推荐字符串硬件组件的描述性型号名称PERC H740P; Intel(R) Core(TM) i7-10700K; Dell XPS 15 Battery
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0
hw.serial_numberDevelopment推荐字符串硬件组件的序列号CNFCP0123456789
hw.vendorDevelopment推荐字符串硬件组件的供应商名称Dell; HP; Intel; AMD; LSI; Lenovo

hw.gpu.task 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。

描述Stability
decoder解码器Development
encoder编码器Development
general通用Development

Metric: hw.status (GPU)

此指标是推荐的。

运行状态:对于每种可能的状态,为 1(true)或 0(false)。

当使用此指标来表示 GPU 状态时,必须设置以下属性

  • hw.type 必须设置为 "gpu" 以指示状态是针对 GPU 的。
  • hw.state 必须设置为以下值之一,以指示 GPU 状态
    • "ok":GPU 正常运行。
    • "degraded":GPU 运行的功能或性能有所下降。
    • "failed":GPU 已发生故障,无法运行。
    • "predicted_failure":GPU 目前运行正常,但预计很快会发生故障。
名称Instrument TypeUnit (UCUM)描述Stability实体关联
hw.statusUpDownCounter1运行状态:对于每种可能的状态,为 1(true)或 0(false)。[1]Development

[1]: hw.status 目前被指定为 UpDownCounter,但理想情况下应使用 StateSet(如 OpenMetrics 中定义的) 来表示。一旦 StateSet 在 OpenTelemetry 中被指定,此语义约定将进行更新。此计划的更改预计不会对用户查询其时间序列后端以检索 hw.status 值的方式产生任何影响。

Attributes

Stability需求级别Value Type描述Example Values
hw.idDevelopment必需字符串硬件组件的标识符,在监控主机内是唯一的win32battery_battery_testsysa33_1
hw.stateDevelopment必需字符串组件的当前状态degraded; failed; needs_cleaning
hw.typeDevelopment必需字符串组件类型 [1]battery; cpu; disk_controller
hw.nameDevelopment推荐字符串硬件组件的一个易于识别的名称eth0
hw.parentDevelopment推荐字符串父组件的唯一标识符(通常是机箱或磁盘控制器的 hw.id 属性)dellStorage_perc_0

[1] hw.type: 描述了报告 hw.state 的硬件组件的类别。例如,hw.type=temperaturehw.state=degraded 将表示硬件组件的温度被报告为 degraded


hw.state 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。

描述Stability
degraded降级Development
failed失败Development
needs_cleaning需要清洁Development
okOKDevelopment
predicted_failure预测失败Development

hw.type 具有以下已知值列表。如果其中一个适用,则必须使用相应的;否则,可以使用自定义值。

描述Stability
batteryBatteryDevelopment
cpuCPUDevelopment
disk_controller磁盘控制器Development
enclosureEnclosureDevelopment
fanFanDevelopment
gpuGPUDevelopment
logical_disk逻辑磁盘Development
memoryMemoryDevelopment
network网络Development
physical_disk物理磁盘Development
power_supply电源Development
tape_drive磁带机Development
temperatureTemperatureDevelopment
voltageVoltageDevelopment