`nnn
`oOo25
`toBs2a9a.© oy
`
`
`ze&$<0 bo
`2
`
`Geymn,
`
`thm©Zz=
`aeo.
`bdeiau3
`oy
`'
`©
`@Gs.1&
`ibed
`“3fhOr
`=
`“3
`ze.=§
`“ig
`
`eeae<
`
`
`oso5©S&S808
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`iloWWiOalaldSiNSG0)NxBo&an)2eZOox%s§a2>=~c8tuaonZGas&5wo“ite_=bcod‘giioeeagnMS3=NSlesan__Z_oO§3Ss8Zain ge0aos22oy.thebe
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`ie3tes&SEOS8“4BBE2feee—3ske6GBB“tdtbfmtatSmeSeo9eeES
`om47
`eGotia
`wn.26Of2=
`2.
`tdee
`oFpe
`c
`>52
`D®
`2
`
`
`oon
`
`
`'oALuayBedB8Ws
`—
`oo22
`6
`es)
`SB
`HEAog
`°o
`a»2°
`asa
`Oo5=
`tA“&,C4
`oo4342
`“an
`Fo
`oe>Lu
`—
`an
`ro
`on,
`BEES
`
`
`NmSSy a~Oopeeeees
`a
`cock
`Grd
`sn
`—
`re)©Bl
`
`went
`
`wg,tx
`Oo=
`OmoOn
`alcadcold|
`es
`OD
`on
`1te
`+ae
`@“a<fat
`i
`OO}=1<r
`4gnoesRANGA
`5oO
`a
`ool
`"era,
`Lb
`iAe
`
`SSaE3)©
`
`iO£9]=|ex)
`2
`
`S315
`
`oH2ad|Baa
`aks
`WuPd2rcNLOa©QSo6oeO
`
`
`cs
`tyhe
`2
`..
`iBEE
`a
`et
`inlSI)ea
`co
`EA
`Bak
`inIa3
`a
`:
`EanRey)
`co
`tomway
`ag
`eeAoO
`
`@
`
` ieSxREESESSNSUae8
`%
`on.
`xOe
`ee
`#%
`
`aayneae
`Anesas
`
`
`
`
`
`
`
`
`SaasSEREekuscdeeioedstg4Q'SREEEEaaaaaeoaiHoo“eekes
`
`
`
`
`
`
`AStoaSQO
`
`ealSIBI|aunt
`
`oewa7=8928E8eeerese|og<&eeesesis haePree
`
`
`
`
`
`
`Ngalgses31SiSS
`Saas
`
` /2BéTBooESge
`BREE
`<tc
`Z
`Oh,ayyro%
`
`4nd
`>
`eee
`
`G>
`eS8ogas
`28a33
`“3
`-
`BEREH
`a
`ala
`1}
`
`
`teQth,
`SO8So5amBo
`.oe
`a8es
`a
`“=
`S&S
`Naot
`a
`SSeen8
`
`qa4o38
`Le)5i2
`SH
`yoo3Oo
`—
`
`wlAZz
`we
`SaagEREAEet
`
`oO“gefan
`
`
`
`
`=SEPoNSSagesee
`ws
`
`
`wy,
`eeat
`vay
`ia
`
`3ioeLo)Basso
`
`ey.~&smQS<S8aNs
`
`LL
`<levyad
`aep©
`
`iag2Fa=<i
`
`
`
`
`
`(19)
`Bundesrepublik Deutschland
`Deutsches Patent- und Markenamt
`
`() DE 102 60 805 A1 2004.07.22
`
`(12)
`
`Offenlegungsschrift
`
`(21) Aktenzeichen: 102 60 805.9
`(22) Anmeldetag: 23.12.2002
`(43) Offenlegungstag: 22.07.2004
`
`(71) Anmelder:
`Geneart GmbH, 93053 Regensburg, DE
`
`(74) Vertreter:
`BOEHMERT & BOEHMERT, 28209 Bremen
`
`Prufungsantrag gemak § 44 PatG ist gestellt.
`
`
`
`(51) int ci.?2:; CO7H 21/00
`C12P 21/00, C12N 15/12, C12N 15/29,
`C12N 15/31, C12N 15/52
`
`(72) Erfinder:
`Raab, David, 93176 Beratzhausen, DE; Graf,
`Marcus, 93047 Regensburg, DE
`
`Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen
`
`(54) Bezeichnung: Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Prote-
`ins
`
`
`
`Eingabe der
`Aminosauresequenz
`
`der Lange N
` Beginne mit Aminosaure i=1
`
`Bilde erste KDS der Codonsfir die Aminoséureni
`a bisi+m-1
`
`¢————
`($$
`Bilde Testsequenz durch Aneinanderfiigen der
`bereits optimierten DNS - Sequenz und der KDS.
`
`(57) Zusammenfassung: Die Erfindung betrifft ein Verfah-
`ren zum Optimieren einer Nucleotidsequenz zur Expressi-
`on eines Proteins auf der Grundlage der Aminosaurense-
`quenz des Proteins, bei welchem fur einen bestimmten Be-
`reich eine Testsequenz mit m Optimierungspositionenfest-
`gelegt wird, auf denen die Codonbesetzung variiert wird,
`wobei mittels eienr Gutefunktion die optinale Codonbeset-
`zung auf diesen Optimierungspositionen ermittelt wird und
`ein oder mehrere Codons dieser optimalen Besetzung als
`Codons der optimierten Nucleotidsequenz festgelegt wer-
`den. Diese Schritte werden iteriert, wobei bei nachfolgen-
`den Iterationsschritten die in vorangehenden Schritten fest-
`gelegten Codonsder optimierten Nucleotidsequenz unver-
`andert bleiben. Die Erfindung betrifft weiterhin eine Vorrich-
`tung zur Durchftihrung dieses Verfahrens.
`
`
`
`
`
` Y
`nein
`
`gebildet ?
`
`
`Evalu:ere die Testsequenz nach benutzerdefinierten
`Kriterien und bestimme den Wert eine Gutefunktion
`durch VerrechnungderKriteriumsgewichtein einer
`Bewertungsfunktion
`
` nein
`
`
`Wert der Gittefunktion
`besserals gespeicherter
`Wert?
`
`Spe chere Wert der Gitefunktion und
`
`
`daszur Bildung der KDS verwendete
`Codonfur die Aminosaure i
`
`
`
`Alle méglichen KDS
`
`Bilde nachste mégliche KDS der Codonsfir die
`Aminosaureni bis i+m-1
`
`
`
`——
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Beschreibung
`
`[0001] Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren Verwendung
`zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressionssystem, zum Beispiel in einen
`Wirtsorganismus/eine Wirtszelle oder ein System fur eine In-vitro-Expression eingebracht werden, der bzw.die
`das entsprechende Protein exprimiert. Sie betrifft insoesondere Verfahren, bei denen eine synthetische Nuc-
`leotidsequenz fiir das jeweilige Expressionssystem, also zum Beispiel fur einen Organismus/fur eine Wirtszel-
`le, mit Hilfe eines Computers optimiert wird.
`[0002] Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Exprimieren der
`dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escherichia coli oder Hefe. Naturlich
`vorkommende Gene sind fur diesen Zweck allerdings haufig suboptimal. Da in einer DNS-Sequenz, die ein
`Protein exprimiert, jeweils ein Triplett von Basen (Codon) eine Aminosaure exprimiert,
`ist es mdglich, eine
`kUnstliche DNS-Sequenz zur Expression des gewUnschten Proteins zu synthetisieren und fur das Klonen und
`Exprimieren des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, dafg einer vorgege-
`benen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als Degeneriertheit des
`genetischen Codes bezeichnet. Unterschiedliche Organismen verwenden Codons fur die Expression einer
`Aminosaure mit unterschiedlicher Haufigkeit (sogenannte Codon usage). In der Regel gibt es in einem gege-
`benen Organismus ein Codon, das Uberwiegend verwendet wird und ein oder mehrere Codons, welche mit
`vergleichsweise geringer Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure
`verwendet werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet wer-
`den soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus angepafit sein. Eine
`weitere wichtige GrdfRe ist der GC-Gehalt (Gehalt der Basen Guanin und Cytosin in einer Sequenz). Weitere
`Faktoren, welche das Expressionsergebnis beeinflussen kénnen, sind DNS-Motive und Wiederholungen oder
`invers komplementare Wiederholungen in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem
`gegebenen Organismus bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwunscht sein
`kénnen. Beispiele sind cis-aktive Sequenzmotive wie Splei&stellen oder Transkriptionsterminatoren. Das un-
`beabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren oder ganz unterdru-
`cken oder sogar fur den Wirtsorganismus eine toxische Wirkung haben. Sequenzwiederholungen k6nnen zu
`einer geringeren genetischen Stabilitat fuhren und erschweren die Synthese repetitiver Abschnitte aufgrund
`der Gefahr von Fehlhybridisierungen. Invers komplementare Wiederholungen k6nnen zur Bildung von uner-
`wunschten Sekundarstrukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fuhren, wel-
`che die Transkription behindern und zu genetischer Instabilitat fuhren, bzw. die Translationseffizienz negativ
`beeinflussen kénnen.
`[0003] Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts optimiert sein
`und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers komplementaren Sequen-
`zwiederholungen verbundenen Probleme weitgehend vermeiden. Diese Erfordernisse lassen sich in der Regel
`jedochnicht gleichzeitig und in optimaler Weise erflllen. Beispielsweise kann eine Optimierung auf die optima-
`le Codon usage zu einer stark repetitiven Sequenz und einem erheblichen Abweichen von dem gewUnschten
`GC-Gehalt fuhren. Es gilt daher, einen méglichst optimalen Kompromif&S zwischen der Erfillung der verschie-
`denen Erfordernisse herbeizufUhren. Die grof&e Anzahl von Aminosauren in einem Protein fuhrt jedoch zu einer
`kombinatorischen Explosion der Zahl der méglichen DNS-Sequenzen, welche — im Prinzip — das gewUnschte
`Protein exprimieren k6nnen. Aus diesem Grund wurden verschiedene computergestutzte Verfahren zum Er-
`mitteln einer optimalen Codonsequenz vorgeschlagen.
`
`Stand der Technik
`
`[0004] P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben Unter-
`suchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher Strukturen einer DNS-Se-
`quenz. Hierbei wurden alle mdglichen degenerierten Nucleotidsequenzen generiert. Eine Bewertung der Se-
`quenzen hinsichtlich des Vorhandenseins von strukturellen Motiven und strukturbildender Abschnitte erfolgte
`durch einen Computer unter Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht of-
`fenbart.
`
`[0005] D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schlagt ein computerge-
`stutztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl von Abschnitten unterteilt wird,
`fur die jeweils eine GUtefunktion (Score) berechnetwird. In die Glitefunktion gehen u.a. die Codon usage, die
`Méglichkeit der Bildung von Haarnadelstrukturen und die Abweichungen von der gewUnschten Schmelztem-
`peratur ein. Der Wert der Gutefunktion fur die Gesamtsequenz bestimmt sich aus der Summe der Werte der
`Gutefunktion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird durch
`ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpositionen ausgewahlt, bei
`denen das Codon einer Ausgangssequenz durch ein statistisch ausgewahltes aquivalentes Codon ersetzt
`
`2/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`wird. Gleichzeitig werden in einer Iteration auch die Grenzen der Abschnitte neu definiert. Auf diese Weise wird
`eine vollstandige Gensequenz statistisch generiert. Ist der Wert der Giitefunktion fur die Gesamtsequenz klei-
`ner als die bisherige Sequenz, wird die neue Sequenz beibehalten. Ist er grdéRer, wird mit einer gewissen Wahr-
`scheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine Boltzmann-Statistik
`kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von Iterationen die Sequenz nicht andert,
`wird diese Sequenz als optimale Sequenz bewertet.
`[0006] Derartige statistische Verfahren haben den Nachteil, dafg sie stark von der Wahl der Konvergenzkrite-
`rien abhangen.
`
`Aufgabenstellung
`
`[0007] Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verfugung zu stel-
`len, welchessich mit relativ geringem Speicherplatz und relativ geringer Rechenzeit auf einem Computer im-
`plementieren lat und welches insbesondere Nachteile der statistischen Verfahren vermeidet.
`[0008] ErfindungsgemaR wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins gelést, welches die
`folgenden auf einem Computer durchgefuhrten Schritte umfaRt:
`— Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden Aminosauren in der
`Proteinsequenz entsprechen, wobei n eine naturliche Zahl und kleiner oder gleich N, der Zahl der Amino-
`sauren der Proteinsequenz, ist,
`— Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von m Codons, insbe-
`sondere von m aufeinanderfolgenden Codons, entsprechen, an denen die Besetzung mit einem Codon, be-
`zogen auf die Testsequenz, optimiert werden soll, wobei m = n und m <N ist,
`— Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz, indem an einer oder
`mehreren der m Optimierungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er-
`setzt wird, welches dieselbe Aminosaure exprimiert,
`— Bewerten jeder der Testsequenzen mit einer Gutefunktion und Ermitteln der hinsichtlich der Gutefunktion
`optimalen Testsequenz,
`— Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Optimierungspositionen
`befinden, als Ergebniscodons, welche die Codons der optimierten Nucleotidsequenz an den Positionen bil-
`den, die der Position der besagten p Codons in der Testsequenz entspricht, wobei p eine naturliche Zahl
`und p s mist,
`— Iterieren der vorangehenden Schritte, wobei in jedem lIterationsschritt die Testsequenz an den Positionen,
`welche Positionen von festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das
`entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen von Ergebniscodons
`verschieden sind.
`
`[0009] Gemaf der bevorzugten Ausfiihrungsform der Erfindung werden die vorangehend genannten Schritte
`so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit Ergebniscodons besetzt
`worden sind.
`[0010] ErfindungsgemaR wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen opti-
`miert. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in den nachfolgenden
`Iterationsschritten nicht mehr verandert und vielmehr bei den jeweiligen Optimierungsschritten als gegeben vo-
`rausgesetzt. Vorzugsweiseist die Anzahl der Ergebniscodons, welche auf diese Weise fur die weiteren Itera-
`tionen festgelegt und als vorgegeben behandelt werden, kleiner als die Anzahl m der Optimierungspositionen,
`an denen in einem Iterationsschritt die Codonsvariiert werden. Zumindest in der Mehrzahl der Iterationsschrit-
`te, bei einer besonderen Ausfuhrungsform bei allen Iterationsschritten auRer dem ersten, ist wiederum m klei-
`ner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lokale Effekte auf den m variierten
`Positionen, sondern auch langerreichweitige Korrelationen, z.B. im Zusammenhang mit der Entstehung von
`RNA-Sekundarstrukturen, zu berUcksichtigen.
`[0011] Gemak den derzeit bevorzugten Ausfulhrungsformen liegt m im Bereich von 3 bis 20, vorzugsweise im
`Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der Codons mit einem akzeptablen
`Aufwand an Speicher und Rechenzeit durchgefuhrt werden und gleichzeitig eine gute Optimierung der Se-
`quenz erreicht werden.
`[0012] Gemaf einer AusfUhrungsform muf m in den verschiedenen Iterationsschritten nicht gleich sein, son-
`dern kann vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es kann auch vorgesehen
`sein, in einem lIterationsschritt die Variation der Testsequenz fur verschiedene Werte von m durchzufUhren und
`ggf. nur das Optimierungsergebnis fur einen Wert von m zu beriicksichtigen, um Einflusse der Gréf&e m auf
`das Optimierungsergebnis zu reduzieren bzw. um zu Uberpriifen, ob eine VergréRerung der Zahl m zu einer
`
`3/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Anderung des Ergebnissesfihrt.
`[0013] GemafR der bevorzugten Ausfuhrungsform sind die m Optimierungspositionen oder zumindestein Teil
`davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, auf welchem die Codon-
`besetzung variiert wird.
`[0014] Die Erfindung kann insbesondere vorsehen, dal in zwei oder mehr aufeinanderfolgenden Iterations-
`schritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert werden, identisch sind. Sind
`die m Positionen zusammenhangend, bedeutet dies, da das Variationsfenster bei einem lIterationsschritt mit
`dem Variationsfenster eines vorangehenden Iterationsschrittes Uberlappt.
`[0015] Die Erfindung kann vorsehen, dafS in einem oder mehreren Iterationsschritten die m Optimierungspo-
`sitionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der opti-
`mierten Nucleotidsequenz festgelegt worden sind.
`[0016] Die Erfindung kann ebenfalls vorsehen, daf& in einem oder mehreren Iterationsschritten die p Codons,
`die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p aufeinanderfolgende Codons
`sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der optimier-
`ten Nucleotidsequenz in einem fruheren Schritt festgelegt worden sind.
`[0017] Die Erfindung kann vorsehen, dafs die Nucleotidsequenz von einem ihrer Enden her optimiert wird. Ins-
`besondere kann die Erfindung vorsehen, daf& in jedem Iterationsschritt die Lange der Testsequenz des vorhe-
`rigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unterschiedlichen Iterationen verschieden
`sein kann, vergréfert wird, bis n =Nist. Ist n = N und die Zahl derjenigen Positionen, die in der Testsequenz
`nicht mit Ergebniscodons besetzt sind, kleiner oder gleich dem Wert von m, der in den vorangehenden Iterati-
`onen verwendet wurde, oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen
`Iterationen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Iterationsschritt
`p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten Codons ist. Die als optimal
`aufgefundene Besetzung der Optimierungspositionen wird dann fur die Ergebniscodons an diesen Optimie-
`rungspositionen Ubernommen. Diesgilt insbesondere dann, wenn fur jede mdgliche Kombination von Beset-
`zungen der Optimierungspositionen eine Testsequenz generiert wird.
`[0018] Es kann jedoch auch vorgesehen sein, da der Bereich der Testsequenz innerhalb der gesamten Se-
`quenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einer Testsequenz in einem vorherigen
`Iterationsschritt unfaRt. Beispielsweise kann die Testsequenz selbst ein Fenster auf der Gesamtsequenz, z.B.
`ein Fenster fester Lange, bilden, das im Laufe der verschiedenen Iterationen auf der Gesamtsequenz verscho-
`ben wird.
`
`[0019] Gema® einer bevorzugten Ausfuhrungsform wird die Testsequenz nach jedem Schritt um p Codons
`verlangert, wobei insbesondere m fur alle Iterationsschritte konstant sein kann.
`[0020] Analog zu der vorangehend beschriebenen AusfUhrungsform der Erfindung kann auch vorgesehen
`sein, da die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. Dies Kann z.B. in der Art
`geschehen, da eine anfangliche Testsequenz, welche einem Bereich im Inneren der zu optimierenden Nuc-
`leotidsequenz entspricht, zunachst nach einer Seite sukzessiv vergr6fert wird, bis das Ende der zu optimie-
`renden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidsequenz er-
`reicht ist, und dann die Testsequenz zu der anderen Seite hin vergr6ert wird, bis dort das andere Ende der
`zu optimierenden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidse-
`quenz erreicht ist.
`[0021] Die Erfindung kann auch vorsehen, da die Testsequenzen in einem Iterationsschritt aus einer opti-
`mierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Seiten daran anschlieRen-
`den Variationsbereichen mit einer Lange von m, bzw. m, Codonsbesteht, wobei q +m, + m, =n gilt. Die Be-
`setzung der Variationsbereiche kann fur beide Variationsbereiche gemeinsam optimiert werden, indem die Co-
`dons auf den m, und m, Platzen gleichzeitig variiert und optimiert werden. Vorzugsweise werdenin einem sol-
`chen Fall in jedem lIterationsschritt p, und p, Codons in dem ersten und zweiten Variationsbereich festgelegt,
`welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch vorgesehen sein,
`dal die beiden Variationsbereiche unabhangig voneinander variiert und optimiert werden. Beispielsweise kann
`vorgesehen sein, dal die Besetzung nur in einem der beiden Variationsbereiche variiert wird und nur in dem
`einen Bereich Codons festgelegt werden, bevor die Variation und Optimierung in den zweiten Bereich stattfin-
`det. In diesem Fall werden die p, festgelegten Codonsin dem ersten Bereich bei der Optimierung des zweiten
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls geringe Korrelationen
`zwischen den beiden Bereichen zu erwarten sind.
`[0022] Gemafk dieser Ausfilhrungsform kann vorgesehen sein, daf& die Nucleotidsequenz von einem Punkt
`oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird.
`[0023] Die Erfindung kann insbesondere vorsehen, da in jedem Iterationsschritt der Bereich der Testse-
`quenz auf der Gesamtsequenz den Bereich der Testsequenzen in allen vorangehenden Iterationsschritten um-
`fat und der Bereich einer Testsequenz in zumindesteinigen der vorangehenden Iterationsschritte jeweils im
`Inneren oder jeweils am Rand des Bereichs der Testsequenz in dem aktuellen Iterationsschritt liegt.
`
`4/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`[0024] Die Erfindung kann vorsehen, daf& die Nucleotidsequenz auf verschiedenen Teilbereichen unabhangig
`optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der verschiedenen optimierten
`Teilsequenzen sein. Es kann auch vorgesehen sein, daf& zumindestein Teil der jeweiligen Ergebniscodons von
`zwei oder mehr optimierten Teilbereichen als Bestandteil einer Testsequenz in einer oder mehreren Iterationen
`verwendetwird.
`[0025] Gemafk einer bevorzugten Ausflhrungsform der Erfindung ist vorgesehen, dak in einem Iterations-
`schritt Testsequenzen mit allen méglichen Codonbesetzungen fur die m Optimierungspositionen aus der ers-
`ten Testsequenz generiert werden und die optimale Testsequenz unter allen mdglichen Testsequenzen, bei de-
`nen an einer oder mehreren der m Optimierungspositionen ein Codon durch ein anderes Codon, welches die-
`selbe Aminosaure exprimiert, ersetzt wurde, ermittelt wird.
`[0026] Gema® einer Ausfuhrungsform der Erfindung ist die zum Bewerten der Testsequenzen verwendete
`Gutefunktion bei allen oder zumindest der Mehrzahl der Iterationen gleich. Die Erfindung kann jedoch auch
`vorsehen, unterschiedliche Gutefunktionen in unterschiedlichen Iterationen, zum Beispiel in Abhangigkeit von
`der Lange der Testsequenzen, zu verwenden.
`[0027] Das erfindungsgemake Verfahren kann insbesonderedie folgenden Schritte umfassen:
`— Bewerten jeder Testsequenz mit einer Gutefunktion,
`— Ermitteln eines Extremwertes innerhalb der Werte der GUtefunktion fur alle in einem Iterationsschritt ge-
`nerierten Teilsequenzen,
`—Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichtsfunktion entspricht,
`als Ergebniscodons an den entsprechenden Positionen, wobei p eine natirliche Zahl und p < m ist.
`
`[0028] Die Gutefunktion kann so definiert sein, da& die Sequenz entweder umso naher an dem Optimum liegt,
`je grof&er der Wert der Gutefunktion ist, oder umso naher an dem Optimum liegt, je kleiner ihr Wert ist. Entspre-
`chend wird man bei dem Schritt des Ermittelns des Extremwertes das Minimum oder das Maximum der Gite-
`funktion unter den generierten Codonsequenzen ermitteln.
`[0029] Die Erfindung kann vorsehen, dag die Gutefunktion eines oder mehrere der folgenden Kriterien be-
`rucksichtigt: Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0030] Die Erfindung kann insbesondere vorsehen, da die Gutefunktion eines oder mehrere der folgenden
`Kriterien berucksichtigt:
`—cis-aktive Sequenz-Motive, insbesondere DNS/Protein-Interaktionsbindestellen und RNS/Protein-Interak-
`tionsbindestellen, bevorzugt Splei&motive, Transkriptionsfaktorbindestellen, Transkriptionsterminatoren-
`bindestellen, Polyadenylierungssignale, Endonucleaseerkennungssequenzen,
`immunomodulatorische
`DNS-Motive, Ribosomenbindestellen, Erkennungssequenzen fur rekombinationsaktive Enzyme, Erken-
`nungssequenzen fur DNS-modifizierende Enzyme, Erkennungssequenzen fur RNS-modifizierende Enzy-
`me, Sequenzmotive, die in einem vorgegebenen Organismus unterreprasentiert sind.
`
`[0031] Die Erfindung kann auch vorsehen, dafs die Gutefunktion eines oder mehrere der folgenden Kriterien
`berucksichtigt:
`— Ausschlu oder weitgehender Ausschluf von invers komplementaren Sequenzidentitaten von mehr als
`20 Nukleotiden zum Transkriptom eines vargegebenen Organismus,
`— Ausschlu oder weitgehender AusschluR von Hamologiebereichen von mehr als 1.000 Basenpaaren, be-
`vorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einer vorgegebenen DNS-Sequenz, zum
`Beispiel zu dem Genom eines vorgegebenen Organismus oder zu der DNS-Sequenz eines vorgegebenen
`Vektorkonstrukts.
`
`[0032] Das erste dieser beiden Kriterien betrifft den Ausschluf des als RNA-Indifferenz bekannten Mechanis-
`mus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exakter Identitat zu einer anderen
`RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten Kriterium soll verhindert werden, dal eine Rekom-
`bination, das hei&t ein Einbau der Sequenz in das Erbgut des Organismus, oder eine Mobilisierung von
`DNS-Sequenzen durch Rekombination mit anderen Vektoren stattfindet. Beide Kriterien kK6nnen als absolute
`Ausschlu&kriterien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfullt sind,
`werden nicht berucksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer im Zusammenhang mit
`Sequenzmotiven erlautert wird, vorsehen, da diesen Kriterien ein Gewicht zugeordnetist, das betragsmakig
`grdfRer ist als der gré&te Beitrag von Kriterien zu der Gutefunktion, welche keine Ausschlufkriterien sind.
`[0033] Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium vorsehen,
`dak keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit und/oder 99 % Identitat zu einer
`vorgegebenen DNS-Sequenz, zum Beispiel zu der entsprechenden Genomsequenz des vorgegebenen Orga-
`nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium
`kann entweder als absolutes AusschluRkriterium realisiert sein oder in einer Weise, dafg es einen sehr groRen
`
`5/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Beitrag zu der Gutefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht Ausschlu&kriterien sind,
`Uberwiegt.
`[0034]
`Insbesondere kann vorgesehen sein, daf& die Gutefunktion eine Funktion von verschiedenen Einzel-
`termen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus der folgenden Liste von
`Kriterien bewerten: Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, DNS-Motive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0035] Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Einzeltermen
`oder eine rationale Funktion von Einzeltermen sein. Die genannten Kriterien mussen nicht notwendigerweise
`vollstandig in der Gewichtsfunktion berucksichtigt werden. Es kann auch nur ein Teil der Kriterien in der Ge-
`wichtsfunktion verwendet werden.
`
`[0036] Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsgewichte ge-
`nannt.
`
`[0037] Die Erfindung kann vorsehen, da das Kriteriumsgewicht betreffend die Codon Usage (CU Score) pro-
`portional zu 2f,/f,.... ist, wobei
`—f,, die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codonsfur den betreffenden Organismus
`zur Expression der Aminosaure an der Stelle i der Aminosaurensequenz des zu exprimierenden Proteins
`ist und
`—ftomaxi die Haufigkeit des Codonsist, welches in dem entsprechenden Organismus am haufigsten die Ami-
`nosaure an der Stelle i exprimiert.
`
`[0038] Das Mak f,/fonad ist als ,Relative Adaptiveness" bekannt(vgl. P. M. Sharp, W. H. Li, Nucleic Acids Re-
`search 15 (3) (1987), 1281 bis 1295).
`[0039] Das lokale Gewicht des am haufigsten vorkommenden Codonswird dabei, unabhangig von der abso-
`luten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum Beispiel 1, gesetzt. Damit
`wird vermieden, daf& die Positionen, an denen nur wenige Codons zur Auswahl stehen, starker zu dem Ge-
`samtgewichtbeitragen als diejenigen, an denen eine gréfere Anzahl von Codons zur Expression der Amino-
`saure zur Auswahl stehen. Der Index i kann Uber die gesamten n Codons der Testsequenz oder einen Teil da-
`von laufen. Insbesondere kann in einer Ausfuhrungsform vorgesehen sein, dal’ i nur Uber die m Codons der
`Optimierungspositionen lauft.
`[0040] Die Erfindung kann vorsehen, daf& das Kriteriumsgewicht betreffend die Codonusage nur fur die m
`Ordnungspositionen verwendet wird.
`[0041] Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous Codon
`Usage; vgl. P. M. Sharp, W. H. Li, a.a.0.) verwendet werden. Die RSCU fur eine Codonposition ist definiert
`durch
`
`RSCU,= fid/(Efa)
`
`definiert, wobei die Summe im Nenner Uber alle Codons lauft, welche die Aminosaure an der Stelle i exprimie-
`ren und wobei d, die Zahl der Codons angibt, welche die besagte Aminosaure exprimieren. Um ein Kriterien-
`gewicht auf der Grundlage der RSCU zu definieren, kann vorgesehen sein, da die RSCU flr die jeweilige
`Testsequenz Uber alle Codons der Testsequenz oder einen Teil davon, insbesondere Uber die m-Codons der
`Optimierungspositionen, summiert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten
`Kriteriumsgewicht besteht darin, da bei dieser Gewichtung jede Codonposition mit dem Grad der Degene-
`riertheit, d;, gewichtet wird, so daf& solche Positionen, an denen mehr Codons zur Auswahl stehen, starker in
`das Kriteriumsgewicht eingehen als solche Positionen, an denen nur wenige Codons oder sogar nur ein einzi-
`ges Codon zur Auswahl stehen.
`[0042] Bei den vorangehend beschriebenen Kriteriumsgewichten fur die Codon-Usage wurde dasarithmeti-
`sche Mittel Uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`[0043] Es kann auch vorgesehen sein, dali das Kriteriumsgewicht betreffend die Codon-Usage proportional
`zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen RSCU ist, so dal also gilt
`
`CUScore = K(T,RSCU,)"*
`
`oder
`
`ici
`“cmaxi
`CUScore = K (f,/fomaa)”
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, Uber welche das Produkt gebildet
`wird. Auch hier kann das Produkt wieder Uber die gesamte Testsequenz oder einen Teil, insbesondere Uber
`die m Optimierungspositionen, gebildet werden.
`
`6/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nukleotidse-
`[0044]
`quenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verfugung,
`welches die folgenden auf einem Computer durchgefuhrten Schritte umfat:
`— Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinanderfolgende Aminosau-
`ren in der Proteinsequenz entsprechen, wobei n eine naturlich Zahl kleiner oder gleich N, der Zahl der Ami-
`nosauren der Proteinsequenz, ist,
`— Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer Gitefunktion, welche ein ge-
`ometrisches oder arithmetisches Mittel der Relative Adaptiveness oder der RSCU uber eine Anzahl von L
`Codonpositionen enthalt, wobei L kleiner oder gleichNist,
`— Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Ergebnis der besagten
`Bewertung.
`
`[0045] Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschriebenen
`Weise derart erfolgen, daf& die neuen Testsequenzen eine bestimmte Anzahl aufgrund der vorangehenden Ite-
`rationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, da eine bestimmte Testsequenz mit einer
`bestimmten Wahrscheinlichkeit, die von dem Wert der Giltefunktion abhangt, als Grundlage fur weitere Itera-
`tionen, insbesondere die weitere Erzeugung von Testsequenzen, verwendet wird, wie dies bei Monte-Car-
`lo-Verfahren der Fall ist.
`[0046] Wahrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungshaufigkeit
`im Transkriptom oder einem Gen-Referenzset des Expressionsorganismusdefiniert wird, kann die Gute eines
`bestimmten Codons alternativ auch durch die biophysikalischen Eigenschaften des Codons selbst beschrie-
`ben werden. So ist zum Beispiel bekannt, daf§ Cadons mit einer mittleren Codon-Anticodon-Bindungsenergie
`besonderseffizient translatiert werden. Als Maf fur die translatorische Effizienz einer Testsequenz kann daher
`zum Beispiel der P2-Index verwendet werden, welcher das Verhaltnis der Haufigkeit von Codons mit mittlerer
`Bindungsenergie und Codons mit extrem starker bzw. schwacher Bindungsenergie angibt. Alternativ kKonnen
`auch experimentell oder durch theoretische Berechnungen gewonnene Daten zur translatorischen Effizienz
`oder translationsgenauigkeit eines Codons zur Giitebewertung genutzt werden. Die oben genannten Bewer-
`tungskriterien kKOGnnen besonders dann von Vorteil sein, wenn die tRNA-Frequenzen des Expressionssystems
`nicht berUcksichtigt werden mussen, da diese wie zum Beispiel bei in Vitro-Translationssystemen vom Expe-
`rimentator festgelegt werden k6nnen.
`[0047] Die Erfindung kann vorsehen, dak das Kriteriumsgewicht betreffend den GC-Gehalt (GCScore) eine
`Funktion des Betrags der Differenz des ermittelten GC-Gehalts der Teilsequenz, GCG, zu dem optimalen
`GC-Genalt, GCG,,, ist, wobei unter dem GG-Gehalt derrelative Anteil von Guanin und Cytosin, zum Beispiel
`in Form eines bestimmten prozentualen Anteils, zu verstehen ist.
`[0048]
`Insbesondere kann dasKriteriumsgewicht GCScore die folgende Form haben:
`
`GCScore = |GCG - GCG,|*-h
`
`wobei
`GCG der tatsachliche GC-Gehalt der Testsequenz oder eines vorbestimmten Teils der Testsequenz, GCG,
`oder der