Eyanosch Week 4

#Modify the gene sequence string so that it highlights or “tags” the special sequences within this gene:

cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/ <MINUS10BOX> & <\/MINUS10BOX> /" | sed 
"s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed "s/aaaaggtc.*tttttatt/ <TERMINATOR>
<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /10"
ttttcaccacaagaatgaatgttttcggcacatttctccccagagtgttataattgcggtcgcagagttggttacgctcattaccccgctgccgataaggaatttttcgcgtcaggtaacgcccatcgtttatctcaccgctcccttatacgttgcgcttttggtgcggcttagccgtgtgtt
ttcggagtaatgtgccgaacctgtttgttgcgatttagcgcgcaaatc <MINUS35BOX> tttact </MINUS35BOX> tatttacagaacttcgg <MINUS10BOX> cattat </MINUS10BOX> cttgcc <TSS>g</TSS>gttcaaattacggta
gtga <START CODON>tac</START CODON> ccca <RBS>gagg</RBS> attagatggccaaagaagacaatattgaaatgcaaggtaccgttcttgaaacgttgcctaataccatgttccgcgt
agagttagaaaacggtcacgtggttactgcacacatctccggtaaaatgcgcaaaaactacatccgcatcctgacgggcgacaaagtgactgttgaactgaccccgtacgacctgagcaaaggccgcattgtcttccgtagtcgc 
<STOP CODON>tga</STOP CODON> ttgttttaccgcctgatgggcgaagagaaagaacgagt <TERMINATOR>aaaaggtcggtttaaccggcctttttatt</TERMINATOR> ttat

The first part of this exercise was started inclass with my partner and Professor Dionisio assisting us. The -35 box, -10 box and TSS were finished. Although I ended up going back and editing my TSS seeing as how i counted from the wrong nucleotide in the -10 box when originally finding the TSS.
The start and stop codons were picked when I went back after looking at the codon sequences to see which 3 nucleotides coded for an actual codon during transcription
BY using sed and choosing a sequence of characters I could input the location markers fairly easily

#What is the exact mRNA sequence that is transcribed from this gene?

cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/ <MINUS10BOX> & <\/MINUS10BOX> /" | sed
"s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed "s/aaaaggtc.*tttttatt/ <TERMINATOR>&
<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /10" | sed "s/t/u/g" | sed "s/ <TSS>/\n/g" | sed 
"s/<\/TSS>/\n/g;s/ <START CODON>/\n/g;s/<\/START CODON> /\n/g;s/ <RBS>/\n/g;s/<\/RBS> /\n/g;s/ <STOP CODON>/\n/g;s/<\/STOP CODON> /\n/g;s/    
<TERMINATOR>/\n/g;s/<\/TERMINATOR> /\n/g" | sed "1D;11D"
g
guucaaauuacgguaguga
uac
ccca
gagg
auuagauggccaaagaagacaauauugaaaugcaagguaccguucuugaaacguugccuaauaccauguuccgcguagaguuagaaaacggucacgugguuacugcacacaucuccgguaaaaugcgcaaaaacuacauccgcauccugacgggcgacaaagug  acuguugaacugaccccguacgaccugagcaaaggccgc
auu
gucuuccguagucgcugauuguuuuaccgccugaugggcgaagagaaagaacgagu
aaaaggucgguuuaaccggccuuuuuauu

First I had to get rid of all the markers, the easiest way to do this was to create new lines of only the desired code and to erase the labels and excess code. This was done by creating a chain of sed commands to create a new list of lines. The format sed "y/actg/tgac/;s/t/u/g" was used

cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/ <MINUS10BOX> & <\/MINUS10BOX> /" | sed  
"s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed "s/aaaaggtc.*tttttatt/ <TERMINATOR>&
<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /10" | sed "s/t/u/g" | sed "s/ <TSS>/\n/g" | sed 
"s/<\/TSS>/\n/g;s/ <START CODON>/\n/g;s/<\/START CODON> /\n/g;s/ <RBS>/\n/g;s/<\/RBS> /\n/g;s/ <STOP CODON>/\n/g;s/<\/STOP CODON> /\n/g;s/ 
<TERMINATOR>/\n/g;s/<\/TERMINATOR> /\n/g" | sed "1D;11D" | sed ':a;N;$!ba;s/\n//g' | sed "s/.../& /g" | sed "s/aug/\n &/1" | sed "1D" | grep "uga"
aug gcc aaa gaa gac aau auu gaa aug caa ggu acc guu cuu gaa acg uug ccu aau acc aug uuc cgc gua gag uua gaa aac ggu cac gug guu acu gca cac auc ucc ggu aaa aug cgc aaa aac uac auc cgc 
auc cug acg ggc gac aaa gug acu guu gaa cug acc ccg uac gac cug agc aaa ggc cgc auu guc uuc cgu agu cgc uga uug uuu uac cgc cug aug ggc gaa gag aaa gaa cga gua aaa ggu cgg uuu aac cgg
ccu uuu uau u

Utilized grep function to find the stop codon, the same was done to remove the nucleotides before the start aug codon, ( sed "s/aug/\n&/1" ) takes the first aug to pop up and creates a new line infront of it. Sed "1D" then erases that line

eyanosch@ab201:/nfs/home/dondi/xmlpipedb/data$ cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/ 
<MINUS10BOX> & <\/MINUS10BOX> /" | sed "s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed 
"s/aaaaggtc.*tttttatt/ <TERMINATOR>&<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /1o" | sed "s/t/u/g" | 
sed "s/ <TSS>/\n/g" | sed "s/<\/TSS>/\n/g;s/ <START CODON>/\n/g;s/<\/START CODON> /\n/g;s/ <RBS>/\n/g;s/<\/RBS> /\n/g;s/ <STOP CODON>/\n/g;s/<\/STOP CODON> /\n/g;s/ 
<TERMINATOR>/\n/g;s/<\/TERMINATOR> /\n/g" | sed "1D;11D" | sed ':a;N;$!ba;s/\n//g' | sed "s/.../& /g" | sed "s/aug/\n &/1" | sed "1D" | grep "uga" | sed "s/uga/&\n/g"
aug gcc aaa gaa gac aau auu gaa aug caa ggu acc guu cuu gaa acg uug ccu aau acc aug uuc cgc gua gag uua gaa aac ggu cac gug guu acu gca cac auc ucc ggu aaa aug cgc aaa aac uac auc cgc
auc cug acg ggc gac aaa gug acu guu gaa cug acc ccg uac gac cug agc aaa ggc cgc auu guc uuc cgu agu cgc uga
uug uuu uac cgc cug aug ggc gaa gag aaa gaa cga gua aaa ggu cgg uuu aac cgg ccu uuu uau u

Utilized grep to find the stop codon and sed to create a new line after, which will then be erased by the sed "2D" function

cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/ <MINUS10BOX> & <\/MINUS10BOX> /" | sed 
"s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed "s/aaaaggtc.*tttttatt/ <TERMINATOR>
&<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /10" | sed "s/t/u/g" | sed "s/ <TSS>/\n/g" | sed    
"s/<\/TSS>/\n/g;s/ <START CODON>/\n/g;s/<\/START CODON> /\n/g;s/ <RBS>/\n/g;s/<\/RBS> /\n/g;s/ <STOP CODON>/\n/g;s/<\/STOP CODON> /\n/g;s/
<TERMINATOR>/\n/g;s/<\/TERMINATOR> /\n/g" | sed "1D;11D" | sed ':a;N;$!ba;s/\n//g' | sed "s/.../& /g" | sed "s/aug/\n &/1" | sed "1D" | grep "uga" | sed "s/uga/&\n/g" | sed "2D"
aug gcc aaa gaa gac aau auu gaa aug caa ggu acc guu cuu gaa acg uug ccu aau acc aug uuc cgc gua gag uua gaa aac ggu cac gug guu acu gca cac auc ucc ggu aaa aug cgc aaa aac uac auc cgc 
auc cug acg ggc gac aaa gug acu guu gaa cug acc ccg uac gac cug agc aaa ggc cgc auu guc uuc cgu agu cgc uga

#What is the amino acid sequence that is translated from this mRNA?

eyanosch@ab201:/nfs/home/dondi/xmlpipedb/data$ cat infA-E.coli-K12.txt | grep "[ct]at[at]at" | grep "tt[gt]ac[at]" | sed "s/tttact/ <MINUS35BOX> & <\/MINUS35BOX> /g" | sed "s/cattat/
<MINUS10BOX> & <\/MINUS10BOX> /" | sed "s/cttgcc/&\n/g" | sed "2s/g/ <TSS>&<\/TSS>/1" | sed ':a;N;$!ba;s/\n//g' | sed "s/gagg/ <RBS>&<\/RBS> /g" | grep "aaaaggt.*gcctttt" | sed
"s/aaaaggtc.*tttttatt/ <TERMINATOR>&<\/TERMINATOR> /g" | sed "s/tac/ <START CODON>&<\/START CODON> /7" | sed "s/tga/ <STOP CODON>&<\/STOP CODON> /10" | sed "s/t/u/g" |
sed "s/ <TSS>/\n/g" | sed "s/<\/TSS>/\n/g;s/ <START CODON>/\n/g;s/<\/START CODON> /\n/g;s/ <RBS>/\n/g;s/<\/RBS> /\n/g;s/ <STOP CODON>/\n/g;s/<\/STOP CODON> /\n/g;s/
<TERMINATOR>/\n/g;s/<\/TERMINATOR> /\n/g" | sed "1D;11D" | sed ':a;N;$!ba;s/\n//g' | sed "s/.../& /g" | sed "s/aug/\n &/1" | sed "1D" | grep "uga" | sed "s/uga/&\n/g" | sed "2D" | sed -f
genetic-code.sed
M A K E D N I E M Q G T V L E T L P N T M F R V E L E N G H V V T A H I S G K M R K N Y I R I L T G D K V T V E L T P Y D L S K G R I V F R S R

Amino Acid sequence translated from this mRNA
The code from last weeks assignment was useful in translating the mRNA to the Amino Acid sequence. by invoking sed -f genetic-code.sed the codons were read and translated to their corresponding Amino acid

--Eyanosch (talk) 23:38, 28 September 2015 (PDT)

Class Journals

Class Journal Week 10