Name	Name	Last commit message	Last commit date
parent directory ..
__pycache__	__pycache__
files	files
ainsulin-seq-clean.txt	ainsulin-seq-clean.txt
analyze-insulin.py	analyze-insulin.py
binsulin-seq-clean.txt	binsulin-seq-clean.txt
calc_weight_json.py	calc_weight_json.py
cinsulin-seq-clean.txt	cinsulin-seq-clean.txt
lsinsulin-seq-clean.txt	lsinsulin-seq-clean.txt
net-charge.py	net-charge.py
preproinsulin-seq-clean.txt	preproinsulin-seq-clean.txt
preproinsulin-seq.txt	preproinsulin-seq.txt
readme.md	readme.md

Name

Last commit message

Last commit date

__pycache__

files

ainsulin-seq-clean.txt

analyze-insulin.py

binsulin-seq-clean.txt

calc_weight_json.py

cinsulin-seq-clean.txt

lsinsulin-seq-clean.txt

net-charge.py

preproinsulin-seq-clean.txt

preproinsulin-seq.txt

readme.md

Insulin Sequence Processing

This project is a simple Python exercise for practicing text processing, file handling, and validation logic.

📋 Overview

The script performs the following tasks:

Reads the raw preproinsulin sequence from a text file.
Cleans the sequence by removing all non-letter characters and converting it to lowercase.
Splits the cleaned sequence into parts:
- Signal peptide (24 amino acids)
- B chain (30 amino acids)
- C peptide (35 amino acids)
- A chain (21 amino acids)
Saves each part to its own file.
Validates that each file has the correct length.

How to Run

Place the raw sequence file named preproinsulin-seq.txt in the same directory as the script.
Run the script:

python analyze-insulin.py

Check the output files:
- preproinsulin-seq-clean.txt
- lsinsulin-seq-clean.txt
- binsulin-seq-clean.txt
- cinsulin-seq-clean.txt
- ainsulin-seq-clean.txt
Review the console output to confirm validation results.

Requirements

Python 3.x
No additional libraries required (only re from Python standard library).

Example Output

Cleaned sequence: 116 characters
lsinsulin-seq-clean.txt saved with 24 characters.
binsulin-seq-clean.txt saved with 30 characters.
cinsulin-seq-clean.txt saved with 35 characters.
ainsulin-seq-clean.txt saved with 21 characters.

=== Validation ===
❌ preproinsulin-seq-clean.txt: ERROR! 116/110 characters
✅ lsinsulin-seq-clean.txt: OK! 24/24 characters
✅ binsulin-seq-clean.txt: OK! 30/30 characters
✅ cinsulin-seq-clean.txt: OK! 35/35 characters
✅ ainsulin-seq-clean.txt: OK! 21/21 characters

⚠️ Note: If the cleaned sequence has more than 110 characters, review the raw input file for extra or invalid characters.

Key Concepts Practiced

Regular expressions for data cleaning.
String slicing to extract subsequences.
File operations: reading, writing, validating.
Error handling with try-except.

Author

Ícaro Torres — Software development student, always learning and improving Python skills.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

readme.md

Insulin Sequence Processing

📋 Overview

How to Run

Requirements

Example Output

Key Concepts Practiced

Author

FilesExpand file tree

sequenceCleaning

Directory actions

More options

Directory actions

More options

Latest commit

History

sequenceCleaning

Folders and files

parent directory

readme.md

Insulin Sequence Processing

📋 Overview

How to Run

Requirements

Example Output

Key Concepts Practiced

Author