Merge pull request #160 from icgc-argo-workflows/payload-gen-seq-experiment@0.7.1

edsu7 · web-flow · commit d4c113ec9ee6 · 2022-09-13T10:54:04.000-04:00
[release]
diff --git a/payload-gen-seq-experiment/main.nf b/payload-gen-seq-experiment/main.nf
@@ -26,7 +26,7 @@
 /* this block is auto-generated based on info from pkg.json where   */
 /* changes can be made if needed, do NOT modify this block manually */
 nextflow.enable.dsl = 2
-version = '0.7.0'
+version = '0.7.1'
 
 container = [
     'ghcr.io': 'ghcr.io/icgc-argo-workflows/data-processing-utility-tools.payload-gen-seq-experiment'
@@ -51,6 +51,7 @@ params.read_group_info_tsv = "NO_FILE2"
 params.file_info_tsv = "NO_FILE3"
 params.extra_info_tsv = "NO_FILE4"
 params.schema_url="NO_FILE5"
+params.metadata_payload_json="NO_FILE6"
 
 process payloadGenSeqExperiment {
   container "${params.container ?: container[params.container_registry ?: default_container_registry]}:${params.container_version ?: version}"
@@ -64,6 +65,7 @@ process payloadGenSeqExperiment {
     path read_group_info_tsv
     path file_info_tsv
     path extra_info_tsv
+    path metadata_payload_json
     val schema_url
 
   output:
@@ -74,13 +76,15 @@ process payloadGenSeqExperiment {
     args_read_group_info_tsv = !read_group_info_tsv.name.startsWith("NO_FILE") ? "-r ${read_group_info_tsv}" : ""
     args_file_info_tsv = !file_info_tsv.name.startsWith("NO_FILE") ? "-f ${file_info_tsv}" : ""
     args_extra_info_tsv = !extra_info_tsv.name.startsWith("NO_FILE") ? "-e ${extra_info_tsv}" : ""
+    args_metadata_payload_json= !metadata_payload_json.name.startsWith("NO_FILE") ? "-m ${metadata_payload_json}" : ""
     args_schema_url = !schema_url.startsWith("NO_FILE")  ? "-s ${schema_url}" : ""
     """
     main.py \
          ${args_experiment_info_tsv} \
          ${args_read_group_info_tsv} \
          ${args_file_info_tsv} \
          ${args_extra_info_tsv} \
+         ${args_metadata_payload_json} \
          ${args_schema_url}
     """
 }
@@ -94,6 +98,7 @@ workflow {
     file(params.read_group_info_tsv),
     file(params.file_info_tsv),
     file(params.extra_info_tsv),
+    file(params.metadata_payload_json),
     params.schema_url
   )
-}
+}
diff --git a/payload-gen-seq-experiment/main.py b/payload-gen-seq-experiment/main.py
@@ -23,7 +23,6 @@
    Edmund Su <edmund.su@oicr.on.ca>
  """
 
-
 import sys
 import uuid
 import json
@@ -173,7 +172,7 @@ def load_all_tsvs(exp_tsv, rg_tsv, file_tsv):
 
 def validate_args(args):
     if args.metadata_json and \
-            not (args.experiment_info_tsv or args.read_group_info_tsv or args.file_info_tsv):
+            not (args.experiment_info_tsv and args.read_group_info_tsv and args.file_info_tsv):
         return True
     elif not args.metadata_json and \
             (args.experiment_info_tsv and args.read_group_info_tsv and args.file_info_tsv):
@@ -182,18 +181,14 @@ def validate_args(args):
         sys.exit(textwrap.dedent(
             """
             Usage:
-                When '-m' is provided, no other arguments can be used
-                When '-m' is not provided, please provide all of these arguments: -x, -r and -f
+                When '-m' is provided, '-x','-r' and '-f' are ignored arguments can be used
+                When '-m' is not provided, please provide all of these arguments: '-x', '-r' and '-f'
                 Optionally '-s' a schema URL can be provided, which the payload will be validated against
             """
         ))
 
-def validatePayload(payload,args):
-    if args.schema_url:
-        url=args.schema_url
-    else:
-        url="https://submission-song.rdpc.cancercollaboratory.org/schemas/sequencing_experiment"
-    
+def validatePayload(payload,url):
+
     resp=requests.get(url)
     if not resp.status_code==200:
         sys.exit("Unable to retrieve schema. Please check URL\n")
@@ -208,7 +203,7 @@ def validatePayload(payload,args):
         
 
 
-def main(metadata, extra_info=dict()):
+def main(metadata,url,extra_info=dict()):
     empty_str_to_null(metadata)
 
     payload = {
@@ -290,8 +285,11 @@ def main(metadata, extra_info=dict()):
                     sys.exit(f"Field '%s' in file '%s' with value '%s' does not match expected regex pattern '^%s[0-9]{1,32}$'" % (optional_file_field,input_file.get('name'),input_file.get(optional_file_field),EGA_FIELDS[optional_file_field]))
 
     for rg in metadata.get("read_groups"):
-        rg.pop('type')  # remove 'type' field
-        rg.pop('submitter_sequencing_experiment_id')  # remove 'submitter_sequencing_experiment_id' field
+        if "type" in rg:
+            print(rg)
+            rg.pop('type')  # remove 'type' field
+        if "submitter_sequencing_experiment_id" in rg:
+            rg.pop('submitter_sequencing_experiment_id')  # remove 'submitter_sequencing_experiment_id' field
         payload['read_groups'].append(rg)
 
 
@@ -327,8 +325,8 @@ def main(metadata, extra_info=dict()):
                         existing_ele['info'].update(extra_info[item][ele_to_update])
                     else:
                         existing_ele.update(extra_info[item][ele_to_update])
-
-    validatePayload(payload,args)
+                         
+    validatePayload(payload,url)
     with open("%s.sequencing_experiment.payload.json" % str(uuid.uuid4()), 'w') as f:
         f.write(json.dumps(payload, indent=2))
 
@@ -351,9 +349,17 @@ def main(metadata, extra_info=dict()):
 
     validate_args(args)
 
+    if args.schema_url:
+        url=args.schema_url
+    else:
+        url="https://submission-song.rdpc.cancercollaboratory.org/schemas/sequencing_experiment"
+
     if args.metadata_json:
         with open(args.metadata_json, 'r') as f:
             metadata = json.load(f)
+        validatePayload(metadata,url)
+        with open("%s.sequencing_experiment.payload.json" % str(uuid.uuid4()), 'w') as f:
+            f.write(json.dumps(metadata, indent=2))
     else:
         # firstly TSV format conformity check, if not well-formed no point to continue
         tsv_confomity_check('experiment', args.experiment_info_tsv)
@@ -367,28 +373,28 @@ def main(metadata, extra_info=dict()):
                             args.file_info_tsv
                         )
 
-    extra_info = dict()
-    if args.extra_info_tsv:
-        with open(args.extra_info_tsv, 'r') as f:
-            for row in csv.DictReader(f, delimiter='\t'):
-            
-                for row_type in ['type','submitter_id','submitter_field','field_value']:
-                    if row_type not in row.keys():
-                        sys.exit(f"Incorrect formatting of : {args.extra_info_tsv}. {row_type} is missing") 
-
-                row_type = row['type']
-                row_id= row['submitter_id']
-                row_field= row['submitter_field']
-                row_val= row['field_value']
-    
-                if (row_type!="sample") and (row_type!="donor") and (row_type!="specimen") and (row_type!="files") and (row_type!="experiment"):
-                    sys.exit(f"Incorrect identifier supplied. Must be on the following : 'sample','donor','specimen','files','experiments'. Offending value: {type}, in file: {args.extra_info_tsv}")
-        
-                if row_type not in extra_info:
-                    extra_info[row_type]=dict()
-                if row_id not in extra_info[row_type]:
-                    extra_info[row_type][row_id]=dict()
-                extra_info[row_type][row_id][row_field]=row_val
+        extra_info = dict()
+        if args.extra_info_tsv:
+            with open(args.extra_info_tsv, 'r') as f:
+                for row in csv.DictReader(f, delimiter='\t'):
                 
-
-    main(metadata, extra_info)
+                    for row_type in ['type','submitter_id','submitter_field','field_value']:
+                        if row_type not in row.keys():
+                            sys.exit(f"Incorrect formatting of : {args.extra_info_tsv}. {row_type} is missing") 
+
+                    row_type = row['type']
+                    row_id= row['submitter_id']
+                    row_field= row['submitter_field']
+                    row_val= row['field_value']
+        
+                    if (row_type!="sample") and (row_type!="donor") and (row_type!="specimen") and (row_type!="files") and (row_type!="experiment"):
+                        sys.exit(f"Incorrect identifier supplied. Must be on the following : 'sample','donor','specimen','files','experiments'. Offending value: {type}, in file: {args.extra_info_tsv}")
+            
+                    if row_type not in extra_info:
+                        extra_info[row_type]=dict()
+                    if row_id not in extra_info[row_type]:
+                        extra_info[row_type][row_id]=dict()
+                    extra_info[row_type][row_id][row_field]=row_val
+                    
+
+        main(metadata,url, extra_info)
diff --git a/payload-gen-seq-experiment/pkg.json b/payload-gen-seq-experiment/pkg.json
@@ -1,6 +1,6 @@
 {
     "name": "payload-gen-seq-experiment",
-    "version": "0.7.0",
+    "version": "0.7.1",
     "description": "SONG payload generation for sequencing experiment",
     "main": "main.nf",
     "deprecated": false,
diff --git a/payload-gen-seq-experiment/tests/checker.nf b/payload-gen-seq-experiment/tests/checker.nf
@@ -17,7 +17,9 @@
   along with this program.  If not, see <http://www.gnu.org/licenses/>.
 
   Authors:
+    Linda Xiang
     Junjun Zhang
+    Edmund Su
 */
 
 /*
@@ -29,7 +31,7 @@
 /* this block is auto-generated based on info from pkg.json where   */
 /* changes can be made if needed, do NOT modify this block manually */
 nextflow.enable.dsl = 2
-version = '0.7.0'
+version = '0.7.1'
 
 container = [
     'ghcr.io': 'ghcr.io/icgc-argo-workflows/data-processing-utility-tools.payload-gen-seq-experiment'
@@ -48,6 +50,8 @@ params.read_group_info_tsv = "NO_FILE2"
 params.file_info_tsv = "NO_FILE3"
 params.extra_info_tsv = "NO_FILE4"
 params.schema_url = "NO_FILE5"
+params.metadata_payload_json = "NO_FILE6"
+
 params.expected_output = ""
 
 include { payloadGenSeqExperiment } from '../main'
@@ -68,7 +72,6 @@ process file_smart_diff {
     # Note: this is only for demo purpose, please write your own 'diff' according to your own needs.
     # remove date field before comparison eg, <div id="header_filename">Tue 19 Jan 2021<br/>test_rg_3.bam</div>
     # sed -e 's#"header_filename">.*<br/>test_rg_3.bam#"header_filename"><br/>test_rg_3.bam</div>#'
-
     diff <( cat ${output_file} | sed -e 's#"header_filename">.*<br/>#"header_filename"><br/>#' ) \
          <( ([[ '${expected_file}' == *.gz ]] && gunzip -c ${expected_file} || cat ${expected_file}) | sed -e 's#"header_filename">.*<br/>#"header_filename"><br/>#' ) \
     && ( echo "Test PASSED" && exit 0 ) || ( echo "Test FAILED, output file mismatch." && exit 1 )
@@ -83,6 +86,7 @@ workflow checker {
     file_info_tsv
     extra_info_tsv
     expected_output
+    metadata_payload_json
     schema_url
 
   main:
@@ -91,6 +95,7 @@ workflow checker {
       read_group_info_tsv,
       file_info_tsv,
       extra_info_tsv,
+      metadata_payload_json,
       schema_url
     )
 
@@ -108,6 +113,7 @@ workflow {
     file(params.file_info_tsv),
     file(params.extra_info_tsv),
     file(params.expected_output),
+    file(params.metadata_payload_json),
     params.schema_url
   )
 }
diff --git a/payload-gen-seq-experiment/tests/input/12c64309-4f21-4a86-8175-ca2340babadd.sequencing_experiment.payload.json b/payload-gen-seq-experiment/tests/input/12c64309-4f21-4a86-8175-ca2340babadd.sequencing_experiment.payload.json
@@ -0,0 +1,87 @@
+{
+  "analysisType": {
+    "name": "sequencing_experiment"
+  },
+  "studyId": "TEST-PRO",
+  "experiment": {
+    "submitter_sequencing_experiment_id": "TEST_EXP",
+    "sequencing_center": "EXT",
+    "platform": "ILLUMINA",
+    "platform_model": "HiSeq 2000",
+    "experimental_strategy": "WGS",
+    "sequencing_date": "2014-12-12"
+  },
+  "read_group_count": 3,
+  "read_groups": [
+    {
+      "submitter_read_group_id": "C0HVY.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8a",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    },
+    {
+      "submitter_read_group_id": "D0RE2.1",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8b",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    },
+    {
+      "submitter_read_group_id": "D0RH0.2",
+      "read_group_id_in_bam": null,
+      "platform_unit": "74_8c",
+      "is_paired_end": true,
+      "file_r1": "test_rg_3.bam",
+      "file_r2": "test_rg_3.bam",
+      "read_length_r1": 150,
+      "read_length_r2": 150,
+      "insert_size": 298,
+      "sample_barcode": null,
+      "library_name": "Pond-147580"
+    }
+  ],
+  "samples": [
+    {
+      "submitterSampleId": "HCC1143_BAM_INPUT",
+      "matchedNormalSubmitterSampleId": null,
+      "sampleType": "Total DNA",
+      "specimen": {
+        "submitterSpecimenId": "HCC1143_BAM_INPUT",
+        "tumourNormalDesignation": "Normal",
+        "specimenTissueSource": "Blood derived",
+        "specimenType": "Cell line - derived from normal"
+      },
+      "donor": {
+        "submitterDonorId": "HCC1143",
+        "gender": "Female"
+      }
+    }
+  ],
+  "files": [
+    {
+      "fileName": "test_rg_3.bam",
+      "fileSize": 14911,
+      "fileMd5sum": "178f97f7b1ca8bfc28fd5586bdd56799",
+      "fileType": "BAM",
+      "fileAccess": "controlled",
+      "dataType": "Submitted Reads",
+      "info": {
+        "data_category": "Sequencing Reads",
+        "ega_file_id": "EGAF000001"
+      }
+    }
+  ]
+}
diff --git a/payload-gen-seq-experiment/tests/input/submission_input.json b/payload-gen-seq-experiment/tests/input/submission_input.json
diff --git a/payload-gen-seq-experiment/tests/test-job-bam.json.nf.json b/payload-gen-seq-experiment/tests/test-job-bam.json.nf.json

Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,6 @@`
`1`	`1`	`{`
`2`	`2`	`"name": "payload-gen-seq-experiment",`
`3`		`- "version": "0.7.0",`
	`3`	`+ "version": "0.7.1",`
`4`	`4`	`"description": "SONG payload generation for sequencing experiment",`
`5`	`5`	`"main": "main.nf",`
`6`	`6`	`"deprecated": false,`