Collector: Sequence of shutdown calls resulting in crash due to panic and leads to span loss #2379

Sreevani871 · 2020-08-10T05:55:39Z

Describe the bug
Present shutdown sequence calls of collector service is as follows
servers -> writers -> collector_queue_processors(with drain)

First closing storage writers and then draining the collector queue. Which resulting in collector accepting spans until the writers close operation done.
While draining collector queue on issue of collector close operation, collector is trying to write spans to storage since the writer is closed first it resulting in panic and leads to span loss.

To Reproduce
Steps to reproduce the behavior:

Continuously generate a high volume of traffic to collector service
Stop the collector service process by CTRL + C or soft kill the process.
We can see a panic with error message Send on closed channel and process exit in collector logs

Expected behavior
Ideal shutdown sequence order should be as follows
servers -> queue processors (with drain) -> writers

The text was updated successfully, but these errors were encountered:

Sreevani871 · 2020-08-10T06:06:34Z

Present Code
https://github.com/jaegertracing/jaeger/blob/master/cmd/collector/main.go#L97

svc.RunAndThen(func() {
				if closer, ok := spanWriter.(io.Closer); ok {
					err := closer.Close()
					if err != nil {
						logger.Error("failed to close span writer", zap.Error(err))
					}
				}

				if err := c.Close(); err != nil {
					logger.Error("failed to cleanly close the collector", zap.Error(err))
				}
			})

Fix:

svc.RunAndThen(func() {
				if err := c.Close(); err != nil {
					logger.Error("failed to cleanly close the collector", zap.Error(err))
				}
				if closer, ok := spanWriter.(io.Closer); ok {
					err := closer.Close()
					if err != nil {
						logger.Error("failed to close span writer", zap.Error(err))
					}
				}
			})

jpkrohling · 2020-08-10T15:11:32Z

Would you mind opening a PR with your suggested change?

Sreevani871 · 2020-08-10T17:23:03Z

Would you mind opening a PR with your suggested change?

Raised PR

Sreevani871 added the bug label Aug 10, 2020

ghost added the needs-triage label Aug 10, 2020

Sreevani871 mentioned this issue Aug 10, 2020

Fix shutdown order for collector components #2381

Merged

jpkrohling closed this as completed in #2381 Aug 11, 2020

Sreevani871 mentioned this issue Aug 13, 2020

[HAYS-657]New storage type: haystack added freshworks/jaeger#2

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Collector: Sequence of shutdown calls resulting in crash due to panic and leads to span loss #2379

Collector: Sequence of shutdown calls resulting in crash due to panic and leads to span loss #2379

Sreevani871 commented Aug 10, 2020

Sreevani871 commented Aug 10, 2020

jpkrohling commented Aug 10, 2020

Sreevani871 commented Aug 10, 2020

Collector: Sequence of shutdown calls resulting in crash due to panic and leads to span loss #2379

Collector: Sequence of shutdown calls resulting in crash due to panic and leads to span loss #2379

Comments

Sreevani871 commented Aug 10, 2020

Sreevani871 commented Aug 10, 2020

jpkrohling commented Aug 10, 2020

Sreevani871 commented Aug 10, 2020