xuchef
diff --git a/‎docs/generated/metrics/metrics.yaml‎
Lines changed: 1300 additions & 1072 deletions b/‎docs/generated/metrics/metrics.yaml‎
Lines changed: 1300 additions & 1072 deletions
diff --git a/‎pkg/backup/schedule_exec.go‎
Lines changed: 16 additions & 0 deletions b/‎pkg/backup/schedule_exec.go‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎pkg/base/license.go‎
Lines changed: 6 additions & 0 deletions b/‎pkg/base/license.go‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎pkg/ccl/changefeedccl/metrics.go‎
Lines changed: 18 additions & 0 deletions b/‎pkg/ccl/changefeedccl/metrics.go‎
Lines changed: 18 additions & 0 deletions
diff --git a/‎pkg/ccl/serverccl/statusccl/tenant_status_test.go‎
Lines changed: 4 additions & 2 deletions b/‎pkg/ccl/serverccl/statusccl/tenant_status_test.go‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎pkg/jobs/metrics.go‎
Lines changed: 115 additions & 30 deletions b/‎pkg/jobs/metrics.go‎
Lines changed: 115 additions & 30 deletions
@@ -574,6 +574,7 @@ func init() {
 		tree.ScheduledBackupExecutor.InternalName(),
 		func() (jobs.ScheduledJobExecutor, error) {
 			m := jobs.MakeExecutorMetrics(tree.ScheduledBackupExecutor.UserName())
+
 			pm := jobs.MakeExecutorPTSMetrics(tree.ScheduledBackupExecutor.UserName())
 			return &scheduledBackupExecutor{
 				metrics: backupMetrics{
@@ -584,6 +585,21 @@ func init() {
 						Help:        "The unix timestamp of the most recently completed backup by a schedule specified as maintaining this metric",
 						Measurement: "Jobs",
 						Unit:        metric.Unit_TIMESTAMP_SEC,
+						Essential:   true,
+						Category:    metric.Metadata_SQL,
+						HowToUse: `Monitor this metric to ensure that backups are
+						meeting the recovery point objective (RPO). Each node
+						exports the time that it last completed a backup on behalf
+						of the schedule. If a node is restarted, it will report 0
+						until it completes a backup. If all nodes are restarted,
+						max() is 0 until a node completes a backup.
+
+						To make use of this metric, first, from each node, take the maximum
+						over a rolling window equal to or greater than the backup frequency,
+						and then take the maximum of those values across nodes. For example
+						with a backup frequency of 60 minutes, monitor time() -
+						max_across_nodes(max_over_time(schedules_BACKUP_last_completed_time,
+						60min)).`,
 					}),
 					RpoTenantMetric: metric.NewExportedGaugeVec(metric.Metadata{
 						Name:        "schedules.BACKUP.last-completed-time-by-virtual_cluster",
 
@@ -41,13 +41,19 @@ var LicenseTTLMetadata = metric.Metadata{
 	Help:        "Seconds until license expiry (0 if no license present)",
 	Measurement: "Seconds",
 	Unit:        metric.Unit_SECONDS,
+	Essential:   true,
+	Category:    metric.Metadata_EXPIRATIONS,
+	HowToUse:    "See Description.",
 }
 
 var AdditionalLicenseTTLMetadata = metric.Metadata{
 	Name:        "seconds_until_license_expiry",
 	Help:        "Seconds until license expiry (0 if no license present)",
 	Measurement: "Seconds",
 	Unit:        metric.Unit_SECONDS,
+	Essential:   true,
+	Category:    metric.Metadata_EXPIRATIONS,
+	HowToUse:    "See Description.",
 }
 
 // GetLicenseTTL is a function which returns the TTL for the active cluster.
 
@@ -707,12 +707,18 @@ var (
 		Help:        "Total retryable errors encountered by all changefeeds",
 		Measurement: "Errors",
 		Unit:        metric.Unit_COUNT,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric tracks transient changefeed errors. Alert on "too many" errors, such as 50 retries in 15 minutes. For example, during a rolling upgrade this counter will increase because the changefeed jobs will restart following node restarts. There is an exponential backoff, up to 10 minutes. But if there is no rolling upgrade in process or other cluster maintenance, and the error rate is high, investigate the changefeed job.`,
 	}
 	metaChangefeedFailures = metric.Metadata{
 		Name:        "changefeed.failures",
 		Help:        "Total number of changefeed jobs which have failed",
 		Measurement: "Errors",
 		Unit:        metric.Unit_COUNT,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric tracks the permanent changefeed job failures that the jobs system will not try to restart. Any increase in this counter should be investigated. An alert on this metric is recommended.`,
 	}
 
 	metaEventQueueTime = metric.Metadata{
@@ -791,6 +797,9 @@ func newAggregateMetrics(histogramWindow time.Duration, lookup *cidr.Lookup) *Ag
 		Help:        "Messages emitted by all feeds",
 		Measurement: "Messages",
 		Unit:        metric.Unit_COUNT,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric provides a useful context when assessing the state of changefeeds. This metric characterizes the rate of changes being streamed from the CockroachDB cluster.`,
 	}
 	metaChangefeedEmittedBatchSizes := metric.Metadata{
 		Name:        "changefeed.emitted_batch_sizes",
@@ -811,6 +820,9 @@ func newAggregateMetrics(histogramWindow time.Duration, lookup *cidr.Lookup) *Ag
 		Help:        "Bytes emitted by all feeds",
 		Measurement: "Bytes",
 		Unit:        metric.Unit_BYTES,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric provides a useful context when assessing the state of changefeeds. This metric characterizes the throughput bytes being streamed from the CockroachDB cluster.`,
 	}
 	metaChangefeedFlushedBytes := metric.Metadata{
 		Name:        "changefeed.flushed_bytes",
@@ -850,6 +862,9 @@ func newAggregateMetrics(histogramWindow time.Duration, lookup *cidr.Lookup) *Ag
 			"Excludes latency during backfill",
 		Measurement: "Nanoseconds",
 		Unit:        metric.Unit_NANOSECONDS,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric provides a useful context when assessing the state of changefeeds. This metric characterizes the end-to-end lag between a committed change and that change applied at the destination.`,
 	}
 	metaAdmitLatency := metric.Metadata{
 		Name: "changefeed.admit_latency",
@@ -878,6 +893,9 @@ func newAggregateMetrics(histogramWindow time.Duration, lookup *cidr.Lookup) *Ag
 		Help:        "Number of currently running changefeeds, including sinkless",
 		Measurement: "Changefeeds",
 		Unit:        metric.Unit_COUNT,
+		Essential:   true,
+		Category:    metric.Metadata_CHANGEFEEDS,
+		HowToUse:    `This metric tracks the total number of all running changefeeds.`,
 	}
 	metaMessageSize := metric.Metadata{
 		Name:        "changefeed.message_size_hist",
 
@@ -51,7 +51,6 @@ func TestTenantStatusAPI(t *testing.T) {
 	defer s.Close(t)
 	defer s.SetupSingleFileLogging()()
 
-	skip.WithIssue(t, 146387)
 	// The liveness session might expire before the stress race can finish.
 	skip.UnderRace(t, "expensive tests")
 
@@ -73,6 +72,10 @@ func TestTenantStatusAPI(t *testing.T) {
 	tdb.Exec(t, "SET CLUSTER SETTING kv.closed_timestamp.target_duration = '10ms'")
 	tdb.Exec(t, "SET CLUSTER SETTING kv.closed_timestamp.side_transport_interval = '10 ms'")
 	tdb.Exec(t, "SET CLUSTER SETTING kv.rangefeed.closed_timestamp_refresh_interval = '10 ms'")
+	// If we happen to enable buffered writes metamorphically, we must have the
+	// split lock reliability enabled (which can be tweaked metamorphically too,
+	// #146387).
+	tdb.Exec(t, "SET CLUSTER SETTING kv.lock_table.unreplicated_lock_reliability.split.enabled = true")
 
 	t.Run("reset_sql_stats", func(t *testing.T) {
 		skip.UnderDeadlockWithIssue(t, 99559)
@@ -884,7 +887,6 @@ WHERE tablename = 'test' AND indexname = $1`
 		requireAfter(t, &resp.Statistics[0].Statistics.Stats.LastRead, &timePreRead)
 		indexName := resp.Statistics[0].IndexName
 		createStmt := cluster.TenantConn(0).QueryStr(t, getCreateStmtQuery, indexName)[0][0]
-		print(createStmt)
 		require.Equal(t, resp.Statistics[0].CreateStatement, createStmt)
 		requireBetween(t, timePreCreate, resp.Statistics[0].CreatedAt, timePreRead)
 	})
 
@@ -76,18 +76,45 @@ type JobTypeMetrics struct {
 // MetricStruct implements the metric.Struct interface.
 func (JobTypeMetrics) MetricStruct() {}
 
-func makeMetaCurrentlyRunning(typeStr string) metric.Metadata {
-	return metric.Metadata{
+func typeToString(jobType jobspb.Type) string {
+	return strings.ToLower(strings.Replace(jobType.String(), " ", "_", -1))
+}
+
+func makeMetaCurrentlyRunning(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
+	m := metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.currently_running", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs currently running in Resume or OnFailOrCancel state",
 			typeStr),
 		Measurement: "jobs",
 		Unit:        metric.Unit_COUNT,
 		MetricType:  io_prometheus_client.MetricType_GAUGE,
 	}
+
+	switch jt {
+	case jobspb.TypeAutoCreateStats:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `This metric tracks the number of active automatically generated statistics jobs that could also be consuming resources. Ensure that foreground SQL traffic is not impacted by correlating this metric with SQL latency and query volume metrics.`
+	case jobspb.TypeCreateStats:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `This metric tracks the number of active create statistics jobs that may be consuming resources. Ensure that foreground SQL traffic is not impacted by correlating this metric with SQL latency and query volume metrics.`
+	case jobspb.TypeBackup:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `See Description.`
+	case jobspb.TypeRowLevelTTL:
+		m.Essential = true
+		m.Category = metric.Metadata_TTL
+		m.HowToUse = `Monitor this metric to ensure there are not too many Row Level TTL jobs running at the same time. Generally, this metric should be in the low single digits.`
+	}
+
+	return m
 }
 
-func makeMetaCurrentlyIdle(typeStr string) metric.Metadata {
+func makeMetaCurrentlyIdle(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.currently_idle", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs currently considered Idle and can be freely shut down",
@@ -98,29 +125,59 @@ func makeMetaCurrentlyIdle(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaCurrentlyPaused(typeStr string) metric.Metadata {
-	return metric.Metadata{
+func makeMetaCurrentlyPaused(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
+	m := metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.currently_paused", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs currently considered Paused",
 			typeStr),
 		Measurement: "jobs",
 		Unit:        metric.Unit_COUNT,
 		MetricType:  io_prometheus_client.MetricType_GAUGE,
 	}
+	switch jt {
+	case jobspb.TypeAutoCreateStats:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `This metric is a high-level indicator that automatically generated statistics jobs are paused which can lead to the query optimizer running with stale statistics. Stale statistics can cause suboptimal query plans to be selected leading to poor query performance.`
+	case jobspb.TypeBackup:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `Monitor and alert on this metric to safeguard against an inadvertent operational error of leaving a backup job in a paused state for an extended period of time. In functional areas, a paused job can hold resources or have concurrency impact or some other negative consequence. Paused backup may break the recovery point objective (RPO).`
+	case jobspb.TypeChangefeed:
+		m.Essential = true
+		m.Category = metric.Metadata_CHANGEFEEDS
+		m.HowToUse = `Monitor and alert on this metric to safeguard against an inadvertent operational error of leaving a changefeed job in a paused state for an extended period of time. Changefeed jobs should not be paused for a long time because the protected timestamp prevents garbage collection.`
+	case jobspb.TypeRowLevelTTL:
+		m.Essential = true
+		m.Category = metric.Metadata_TTL
+		m.HowToUse = `Monitor this metric to ensure the Row Level TTL job does not remain paused inadvertently for an extended period.`
+	}
+	return m
 }
 
-func makeMetaResumeCompeted(typeStr string) metric.Metadata {
-	return metric.Metadata{
+func makeMetaResumeCompeted(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
+	m := metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.resume_completed", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which successfully resumed to completion",
 			typeStr),
 		Measurement: "jobs",
 		Unit:        metric.Unit_COUNT,
 		MetricType:  io_prometheus_client.MetricType_GAUGE,
 	}
+
+	switch jt {
+	case jobspb.TypeRowLevelTTL:
+		m.Essential = true
+		m.Category = metric.Metadata_TTL
+		m.HowToUse = `If Row Level TTL is enabled, this metric should be nonzero and correspond to the ttl_cron setting that was chosen. If this metric is zero, it means the job is not running`
+	}
+	return m
 }
 
-func makeMetaResumeRetryError(typeStr string) metric.Metadata {
+func makeMetaResumeRetryError(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.resume_retry_error", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which failed with a retriable error",
@@ -131,18 +188,32 @@ func makeMetaResumeRetryError(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaResumeFailed(typeStr string) metric.Metadata {
-	return metric.Metadata{
+func makeMetaResumeFailed(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
+	m := metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.resume_failed", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which failed with a non-retriable error",
 			typeStr),
 		Measurement: "jobs",
 		Unit:        metric.Unit_COUNT,
 		MetricType:  io_prometheus_client.MetricType_GAUGE,
 	}
+
+	switch jt {
+	case jobspb.TypeAutoCreateStats:
+		m.Essential = true
+		m.Category = metric.Metadata_SQL
+		m.HowToUse = `This metric is a high-level indicator that automatically generated table statistics is failing. Failed statistic creation can lead to the query optimizer running with stale statistics. Stale statistics can cause suboptimal query plans to be selected leading to poor query performance.`
+	case jobspb.TypeRowLevelTTL:
+		m.Essential = true
+		m.Category = metric.Metadata_TTL
+		m.HowToUse = `This metric should remain at zero. Repeated errors means the Row Level TTL job is not deleting data.`
+	}
+	return m
 }
 
-func makeMetaFailOrCancelCompeted(typeStr string) metric.Metadata {
+func makeMetaFailOrCancelCompeted(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.fail_or_cancel_completed", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which successfully completed "+
@@ -154,7 +225,8 @@ func makeMetaFailOrCancelCompeted(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaFailOrCancelRetryError(typeStr string) metric.Metadata {
+func makeMetaFailOrCancelRetryError(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.fail_or_cancel_retry_error", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which failed with a retriable "+
@@ -166,7 +238,8 @@ func makeMetaFailOrCancelRetryError(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaFailOrCancelFailed(typeStr string) metric.Metadata {
+func makeMetaFailOrCancelFailed(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name: fmt.Sprintf("jobs.%s.fail_or_cancel_failed", typeStr),
 		Help: fmt.Sprintf("Number of %s jobs which failed with a "+
@@ -178,7 +251,8 @@ func makeMetaFailOrCancelFailed(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaProtectedCount(typeStr string) metric.Metadata {
+func makeMetaProtectedCount(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name:        fmt.Sprintf("jobs.%s.protected_record_count", typeStr),
 		Help:        fmt.Sprintf("Number of protected timestamp records held by %s jobs", typeStr),
@@ -188,17 +262,28 @@ func makeMetaProtectedCount(typeStr string) metric.Metadata {
 	}
 }
 
-func makeMetaProtectedAge(typeStr string) metric.Metadata {
-	return metric.Metadata{
+func makeMetaProtectedAge(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
+	m := metric.Metadata{
 		Name:        fmt.Sprintf("jobs.%s.protected_age_sec", typeStr),
 		Help:        fmt.Sprintf("The age of the oldest PTS record protected by %s jobs", typeStr),
 		Measurement: "seconds",
 		Unit:        metric.Unit_SECONDS,
 		MetricType:  io_prometheus_client.MetricType_GAUGE,
 	}
+
+	switch jt {
+	case jobspb.TypeChangefeed:
+		m.Essential = true
+		m.Category = metric.Metadata_CHANGEFEEDS
+		m.HowToUse = `Changefeeds use protected timestamps to protect the data from being garbage collected. Ensure the protected timestamp age does not significantly exceed the GC TTL zone configuration. Alert on this metric if the protected timestamp age is greater than 3 times the GC TTL.`
+	}
+
+	return m
 }
 
-func makeMetaExpiredPTS(typeStr string) metric.Metadata {
+func makeMetaExpiredPTS(jt jobspb.Type) metric.Metadata {
+	typeStr := typeToString(jt)
 	return metric.Metadata{
 		Name:        fmt.Sprintf("jobs.%s.expired_pts_records", typeStr),
 		Help:        fmt.Sprintf("Number of expired protected timestamp records owned by %s jobs", typeStr),
@@ -271,21 +356,21 @@ func (m *Metrics) init(histogramWindowInterval time.Duration, lookup *cidr.Looku
 		if jt == jobspb.TypeUnspecified { // do not track TypeUnspecified
 			continue
 		}
-		typeStr := strings.ToLower(strings.Replace(jt.String(), " ", "_", -1))
 		m.JobMetrics[jt] = &JobTypeMetrics{
-			CurrentlyRunning:       metric.NewGauge(makeMetaCurrentlyRunning(typeStr)),
-			CurrentlyIdle:          metric.NewGauge(makeMetaCurrentlyIdle(typeStr)),
-			CurrentlyPaused:        metric.NewGauge(makeMetaCurrentlyPaused(typeStr)),
-			ResumeCompleted:        metric.NewCounter(makeMetaResumeCompeted(typeStr)),
-			ResumeRetryError:       metric.NewCounter(makeMetaResumeRetryError(typeStr)),
-			ResumeFailed:           metric.NewCounter(makeMetaResumeFailed(typeStr)),
-			FailOrCancelCompleted:  metric.NewCounter(makeMetaFailOrCancelCompeted(typeStr)),
-			FailOrCancelRetryError: metric.NewCounter(makeMetaFailOrCancelRetryError(typeStr)),
-			FailOrCancelFailed:     metric.NewCounter(makeMetaFailOrCancelFailed(typeStr)),
-			NumJobsWithPTS:         metric.NewGauge(makeMetaProtectedCount(typeStr)),
-			ExpiredPTS:             metric.NewCounter(makeMetaExpiredPTS(typeStr)),
-			ProtectedAge:           metric.NewGauge(makeMetaProtectedAge(typeStr)),
+			CurrentlyRunning:       metric.NewGauge(makeMetaCurrentlyRunning(jt)),
+			CurrentlyIdle:          metric.NewGauge(makeMetaCurrentlyIdle(jt)),
+			CurrentlyPaused:        metric.NewGauge(makeMetaCurrentlyPaused(jt)),
+			ResumeCompleted:        metric.NewCounter(makeMetaResumeCompeted(jt)),
+			ResumeRetryError:       metric.NewCounter(makeMetaResumeRetryError(jt)),
+			ResumeFailed:           metric.NewCounter(makeMetaResumeFailed(jt)),
+			FailOrCancelCompleted:  metric.NewCounter(makeMetaFailOrCancelCompeted(jt)),
+			FailOrCancelRetryError: metric.NewCounter(makeMetaFailOrCancelRetryError(jt)),
+			FailOrCancelFailed:     metric.NewCounter(makeMetaFailOrCancelFailed(jt)),
+			NumJobsWithPTS:         metric.NewGauge(makeMetaProtectedCount(jt)),
+			ExpiredPTS:             metric.NewCounter(makeMetaExpiredPTS(jt)),
+			ProtectedAge:           metric.NewGauge(makeMetaProtectedAge(jt)),
 		}
+
 		if opts, ok := getRegisterOptions(jt); ok {
 			if opts.metrics != nil {
 				m.JobSpecificMetrics[jt] = opts.metrics