`
`
`....WofeV.ehWWWWW...tcicH.s........\.x....l..SW.....W....W...W.....“WWW.n............\.....W.....W...\\\.\3I.\\W.\\ma....‘wWWW......\.......W..Oa.......WW......“\Wm\\\.)s.lnu.#8.em}.\a.\\\W.......W...C».w:(t)‘5\\.....W.\..{\W...WW.....WW.kwtaOSd.........WW.........WWWWgrnC.tl..(9WWWWW...
`
`
`
`
`
`
`
`
`fixxxx.“WW.SW...n.Is.Ibrb.lMMW.“W:a“.V.......eD.sn.momobW.W.W.WW.W......W....
`
`..w...\.W...W...W...a.larr3CW..W..WWW......
`.\WWV.\Iaa.N....a
`
`......WWW.x...W...Inn.............1.....W...:..W..\.......W...W...W......WW.pp\\...We............QS.IuruIU(W.{W.M:.....\w“.«W.«W.W:W..s«C.W..\.WW..nCPD.WW.W....W...x..-....W..W....
`
`
`
`
`
`
`
`
`
`
`.“V“V\\\a.ls.W..W...W\(W.¢\L\W{Yum\.\....“
`
`
`\\\s..V\\\.i.$\\WAU4.IW}.
`....2...5...x.
`WWWS..1.ac...
`.............0...WW.C...............W3..K2......
`
`
`WWWW““wI].\\.\..
`..W....CGWWWR.
`WW.WNWan”.7.5G......
`..WW1/..\WW\do!“\WW......aA!W»...W..MGFWWW.
`
`
`
` ......WWWWWW...-......WWWWW“WW...8\WmMM0\\\.\\§H”Y9.1.am
`WWWVWW:.\\W
`5...W...WW...W.“
`
`
`......W......WWNNM.\“WK.WW.
`
`.._-WW...WW5.mflu
`
`
`«\\\.“Wu?“«was.Ido!
`\Ws\.W.sWWW...225wW...
`
`..........N1:F....
`
`.....
`
`..
`
`WWW4L.2
`
`€12N15f1’2
`
`5
`
`”Nu-3...«N\Wis..
`Qfix.hisE‘s.E‘s.“W!
`
`
`
`...W\\x.\¢\\
`
`\\
`
`
` WWW.5......WW..
`
`....W
`
`NWWWWWW.......
`
`...Q
`
`RAAB DAVID [DE]; GRAF MARCUS [DE] j;(RAAB, DAVID, ; GRAF,
`
`CiZN’fi/‘EQ; Cffififi‘ififlé; C12N’F5/227; C?2N15/2§;
`€12N’F5I3’5; C?2N?5/52; cgzpzwaa; G06F19l22;
`C12N151’12
`G05F19/18; (lPC1-7)
`C12N151'29;C12N15i31;C12N15]52;C12P21100
`{303’K‘E 4i43595
`{392’K14i5443
`
`GENEART GMBH [DE] :3; (GENEART GMBH)
`
`mmzmm
`
`DE2002160805 20021223
`
`DE2002160805 20021223
`
`AU2003294953 (59.41)_ AU2003294953 (flgl CA2511503 (A1)m
`DK1584058 (13;; EP1584€358 (9.2)". EP1584958 (.1811)_
`EP2363821 (Ag)- 332383821 (£33.)- JP2698512849 (a;
`JP4516640 (gag; USZGGTM‘EEE? (g1), US2013123483 (431)”
`US2016259885 (A1)- US$22457’8 (.33)..
`WW3}- (W)- Eess
`
`
`
`
`
`
`
`VWN“\\w\v\“$3.IcWWW“WNW..vkW.“W...\\\\.N.M(«55.....x..W..W!.90...WWW“WM\\+H&--“fl.“MWRu.A!....W
`
`{\W.W......W..Wae«W.x...
`
`
`..W.......WW0flW.W......a.W.......W...W....).t:a............
`
`
`.......WW......AnWWW..W....\W\R0\¢WW(\5..\.W§\\\.WWW........WWW.tO...WWW“.....Wa......W0S.\\AW\\\\We:55.\SWeW...NWu\\+«WNW“W“
`
`
`
`
`
`
`
`
`
`.3...AW...........W..WWWWWW.Sar”W....»...W......:....Was.x,..x»Ueo»\\.5...
`
`WNWWWWWNW\W.nVWW.“5.WuKhum....WN
`
`.EWSi“.NW.\..\...\..WWWCrpWWan..\mu........
`
`~\\Nfi“\“\w“\kn.N“WE.
`..xWw5.....WW.n...W...
`.JW.........
`
`
`
`
`
`
`
`
`.......W.....WWW.
`.\&.\\WIuI....WWWW
`
`
`\\ll~‘iih~‘iih
`
`
`
`
`
`
`
`
`
`(19)
`Bundesrepublik Deutschland
`Deutsches Patent- und Markenamt
`
`WDE 102 60 805 A1 2004.07.22
`
`(12>
`
`Offenlegungsschrift
`
`(21)Aktenzeichen: 102 60 805.9
`(22)Anmeldetag: 23.12.2002
`(43) Offenlegungstag: 22.07.2004
`
`(71 ) Anmelder:
`Geneart GmbH, 93053 Regensburg, DE
`
`(74) Vertreter:
`BOEHMERT & BOEHMERT, 28209 Bremen
`
`PrUfungsantrag geméfs § 44 PatG ist gestellt.
`
`
`
`(51) Int (31.7: C07H 21/00
`C12P 21/00, C12N 15/12, C12N 15I29,
`C12N 15I31, c12N 15I52
`
`(72) Erfinder:
`Raab, David, 93176 Beratzhausen, DE; Graf,
`Marcus, 93047 Regensburg, DE
`
`Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen
`
`(54) Bezeichnung: Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Prote-
`ins
`
`(57) Zusammenfassung: Die Erfindung betrifft ein Verfah-
`
`ren zum Optimieren einer Nucleotidsequenz zur Expressi-
`Eingabe der
`on eines Proteins auf der Grundlage der Aminoséurense-
`Aminosauresequenz
`der Lange N
`quenz des Proteins, bei welchem fUr einen bestimmten Be-
`
`reich eine Testsequenz mit m Optimierungspositionen fest-
`
`Beg'""em“"m‘”°‘a“'e‘=‘
`gelegt wird, auf denen die Codonbesetzung variiert wird,
`
`y
`wobei mittels eienr GUtefunktion die optimale Codonbeset—
`zung auf diesen Optimierungspositionen ermittelt wird und —, 3““ ”5‘6 KDS“;§‘§‘1°,”§_’T“iEAmmmwe”‘
`ein oder mehrere Codons dieser optimalen Besetzung als
`‘
`
`Codons der optimierten Nucleotidsequenz festgelegt wer— m
`den. Diese Schritte werden iteriert, wobei bei nachfolgen-
`nereitsomimienenDNs-Sequenzunauerxos
`den Iterationsschritten die in vorangehenden Schritten fest—
`—T——_“-
`gelegten Codons der optimierten Nucleotidsequenz unver—
`EKVELUAZSJ’Q:$313535:2:332:3ni‘152‘33m253
`éndert bleiben. Die Erfindung betrifft weiterhin eine Vorrich-
`“um"Verrechnggglggru"Kgiggnuk'gggewmhteineiner
`tung zur Durchfiihrung dieses Verfahrens.
`
`nein
`
`Wen der Gmefunktion
`besser als gespeioherier
`Wen?
`
`
`
`
`
`
`nein
`
`
`
`Spe chere Wen der Guterunktion und
`das zur Bildung der KDS verwendeie
`Codon fur dle Aminosaurm
`
`
`
`
`
`
`Alle mogkichen KDS
`gebildei 7
`
`Bilde nachste mégliche KDS der Codons fur die
`Aminosauren Ibis 1+m-1
`
`
`
`“fl
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Beschreibung
`
`[0001] Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren VenNendung
`zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressionssystem, zum Beispiel in einen
`Wirtsorganismus/eine Wirtszelle oder ein System fiir eine ln-vitro-Expression eingebracht werden, der bzw. die
`das entsprechende Protein exprimiert. Sie betrifft insbesondere Verfahren, bei denen eine synthetische Nuc-
`leotidsequenz fiir das jeweilige Expressionssystem, also zum Beispiel fiir einen Organismus/fiir eine Wirtszel-
`Ie, mit Hilfe eines Computers optimiert wird.
`[0002] Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Exprimieren der
`dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escherichia coli oder Hefe. NatUrIich
`vorkommende Gene sind fUr diesen Zweck allerdings haufig suboptimal. Da in einer DNS-Sequenz, die ein
`Protein exprimiert, jeweils ein Triplett von Basen (Codon) eine Aminosaure exprimiert,
`ist es moglich, eine
`ktinstliche DNS-Sequenz zur Expression des gewtinschten Proteins zu synthetisieren und fiir das Klonen und
`Exprimieren des Proteins zu venNenden. Ein Problem bei diesem Vorgehen besteht darin, daB einer vorgege-
`benen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als Degeneriertheit des
`genetischen Codes bezeichnet. Unterschiedliche Organismen venNenden Codons ftir die Expression einer
`Aminosaure mit unterschiedlicher Haufigkeit (sogenannte Codon usage). In der Regel gibt es in einem gege-
`benen Organismus ein Codon, das Liberwiegend verwendet wird und ein oder mehrere Codons, welche mit
`vergleichsweise geringer Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure
`venNendet werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus venNendet wer-
`den soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus angepaBt sein. Eine
`weitere wichtige GroBe ist der GC-Gehalt (Gehalt der Basen Guanin und Cytosin in einer Sequenz). Weitere
`Faktoren, welche das Expressionsergebnis beeinflussen konnen, sind DNS-Motive und Wiederholungen oder
`invers komplementare Wiederholungen in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem
`gegebenen Organismus bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht enNtinscht sein
`konnen. Beispiele sind cis-aktive Sequenzmotive wie SpleiBstellen oder Transkriptionsterminatoren. Das un-
`beabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren oder ganz unterdru-
`cken oder sogar fUr den Wirtsorganismus eine toxische Wirkung haben. Sequenzwiederholungen konnen zu
`einer geringeren genetischen Stabilitat fiihren und erschweren die Synthese repetitiver Abschnitte aufgrund
`der Gefahr von Fehlhybridisierungen. Invers komplementare Wiederholungen konnen zur Bildung von uner—
`wUnschten Sekundarstrukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene f'Lihren, wel—
`che die Transkription behindern und zu genetischer Instabilitat ftihren, bzw. die Translationseffizienz negativ
`beeinflussen konnen.
`
`[0003] Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts optimiert sein
`und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers komplementaren Sequen-
`zwiederholungen verbundenen Probleme weitgehend vermeiden. Diese Erfordernisse lassen sich in der Regel
`jedoch nicht gleichzeitig und in optimaler Weise erftillen. Beispielsweise kann eine Optimierung aufdie optima-
`le Codon usage zu einer stark repetitiven Sequenz und einem erheblichen Abweichen von dem gewiinschten
`GC-Gehalt fijhren. Es gilt daher, einen moglichst optimalen KompromiB zwischen der Erfijllung der verschie-
`denen Erfordernisse herbeizuftihren. Die groBe Anzahl von Aminosauren in einem Protein f'Lihrtjedoch zu einer
`kombinatorischen Explosion der Zahl der moglichen DNS-Sequenzen, welche — im Prinzip — das gewtinschte
`Protein exprimieren konnen. Aus diesem Grund wurden versohiedene computergestiitzte Verfahren zum Er-
`mitteln einer optimalen Codonsequenz vorgeschlagen.
`
`Stand der Technik
`
`[0004] PS. Sarkar und Samir K. Brahmaohari, Nucleic Acids Research 20 (1992), 5713 beschreiben Unter-
`suchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher Strukturen einer DNS-Se—
`quenz. Hierbei wurden alle moglichen degenerierten Nucleotidsequenzen generiert. Eine Bewertung der Se—
`quenzen hinsichtlich des Vorhandenseins von strukturellen Motiven und strukturbildender Abschnitte erfolgte
`durch einen Computer unterVenNendung einer Wissensbasis. Die VenNendung einer GUtefunktion ist nicht of—
`fenbart.
`
`[0005] BM. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 943 schlagt ein computerge-
`stiitztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl von Abschnitten unterteilt wird,
`f'Lir die jeweils eine GUtefunktion (Score) berechnet wird. |n die GUtefunktion gehen u.a. die Codon usage, die
`Moglichkeit der Bildung von Haarnadelstrukturen und die Abweichungen von der gew'Linschten Schmelztem-
`peratur ein. Der Wert der Gtitefunktion f'Lir die Gesamtsequenz bestimmt sich aus der Summe der Werte der
`GUtefunktion fiir die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird durch
`ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpositionen ausgewahlt, bei
`denen das Codon einer Ausgangssequenz durch ein statistisch ausgewahltes aquivalentes Codon ersetzt
`
`2/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`wird. Gleichzeitig werden in einer Iteration auch die Grenzen derAbsohnitte neu definiert. Aufdiese Weise wird
`eine vollstandige Gensequenz statistisch generiert. lst der Wert der Giitefunktion fiir die Gesamtsequenz klei-
`ner als die bisherige Sequenz, wird die neue Sequenz beibehalten. lst er groBer, wird mit einer gewissen Wahr—
`scheinlichkeit die neue Sequenz beibehalten. wobei diese Wahrscheinlichkeit durch eine Boltzmann-Statistik
`kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von lterationen die Sequenz nicht andert,
`wird diese Sequenz als optimale Sequenz bewertet.
`[0006] Derartige statistische Verfahren haben den Nachteil, daB sie stark von der Wahl der Konvergenzkrite-
`rien abhangen.
`
`Aufgabenstellung
`
`[0007] Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zurVerftigung zu stel-
`len, welches sich mit relativ geringem Speicherplatz und relativ geringer Rechenzeit auf einem Computer im-
`plementieren lam und welches insbesondere Nachteile der statistischen Verfahren vermeidet.
`[0008] Erfindungsgemalz wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins gelést, welches die
`folgenden auf einem Computer durchgeftihrten Schritte umfalSt:
`— Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden Aminosauren in der
`Proteinsequenz entsprechen, wobei n eine natijrliche Zahl und kleiner oder gleich N, der Zahl der Amino-
`sauren der Proteinsequenz, ist,
`— Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von m Codons, insbe-
`sondere von m aufeinanderfolgenden Codons, entsprechen, an denen die Besetzung mit einem Codon, be-
`zogen aufdie Testsequenz, optimiert werden soil, wobei m s n und m < N ist,
`— Generieren eineroder mehrererweiterer Testsequenzen aus der ersten Testsequenz, indem an einer oder
`mehreren der m Optimierungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er-
`setzt wird, welches dieselbe Aminosaure exprimiert,
`— Bewerten jeder der Testsequenzen mit einer GUtefunktion und Ermitteln der hinsichtlich der GUtefunktion
`optimalen Testsequenz,
`— Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Optimierungspositionen
`befinden, als Ergebniscodons, welche die Codons der optimierten Nucleotidsequenz an den Positionen bil—
`den, die der Position der besagten p Codons in der Testsequenz entspricht, wobei p eine natUrliche Zahl
`und p s m ist,
`— Iterieren dervorangehenden Schritte, wobei in jedem lterationsschritt die Testsequenz an den Positionen,
`welche Positionen von festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das
`entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen von Ergebniscodons
`verschieden sind.
`
`[0009] GemaB der bevorzugten Ausfijhrungsform der Erfindung werden die vorangehend genannten Schritte
`so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit Ergebniscodons besetzt
`worden sind.
`
`[0010] Erfindungsgemals wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen opti-
`miert. Die in einem lterationsschritt als optimal festgelegten p Ergebniscodons werden in den nachfolgenden
`lterationsschritten nicht mehr veréndert und vielmehr bei den jeweiligen Optimierungsschritten als gegeben vo-
`rausgesetzt. Vorzugsweise ist die Anzahl der Ergebniscodons, welche auf diese Weise ftir die weiteren ltera-
`tionen festgelegt und als vorgegeben behandelt werden, kleiner als die Anzahl m der Optimierungspositionen,
`an denen in einem lterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der lterationsschrit-
`
`te, bei einer besonderen Ausfijhrungsform bei allen lterationsschritten aulSer dem ersten, ist wiederum m klei—
`ner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lokale Effekte auf den m variierten
`Positionen, sondern auch langerreichweitige Korrelationen, z.B. im Zusammenhang mit der Entstehung von
`RNA—Sekundarstrukturen, zu berticksichtigen.
`[0011] GemaB den derzeit bevorzugten Ausftihrungsformen liegt m im Bereich von 3 bis 20, vorzugsweise im
`Bereich von 5 bis 10. Bei dieserWahl dieses Parameters kann die Variation der Codons mit einem akzeptablen
`Aufwand an Speicher und Rechenzeit durchgeftihrt werden und gleichzeitig eine gute Optimierung der Se-
`quenz erreicht werden.
`[0012] Gemafi einer Ausftihrungsform mull» m in den verschiedenen lterationsschritten nicht gleich sein, son-
`dern kann vielmehr auch in unterschiedlichen lterationsschritten verschieden sein. Es kann auch vorgesehen
`sein, in einem lterationsschritt die Variation der Testsequenz fiir verschiedene Werte von m durchzufiihren und
`ggf. nur das Optimierungsergebnis f'Lir einen Wert von m zu berijcksichtigen, um Einflijsse der GréBe m auf
`das Optimierungsergebnis zu reduzieren bzw. um zu Uberpriifen, ob eine Vergrolzerung der Zahl m zu einer
`
`3/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Anderung des Ergebnisses fiihrt.
`[0013] GemélS der bevorzugten Ausfiihrungsform sind die m Optimierungspositionen oder zumindest ein Teil
`davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, auf welchem die Codon-
`besetzung variiert wird.
`[0014] Die Erfindung kann insbesondere vorsehen, daB in zwei oder mehr aufeinanderfolgenden Iterations-
`schritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert werden, identisch sind. Sind
`die m Positionen zusammenhangend, bedeutet dies, daB das Variationsfenster bei einem Iterationsschritt mit
`dem Variationsfenster eines vorangehenden Iterationsschrittes Uberlappt.
`[0015] Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimierungspo—
`sitionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der opti—
`mierten Nucleotidsequenz festgelegt worden sind.
`[0016] Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p Codons,
`die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p aufeinanderfolgende Codons
`sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der optimier-
`ten Nucleotidsequenz in einem friiheren Schritt festgelegt worden sind.
`[0017] Die Erfindung kann vorsehen, dalS die Nucleotidsequenz von einem ihrer Enden heroptimiertwird. Ins-
`besondere kann die Erfindung vorsehen, dalS in jedem Iterationsschritt die Lange der Testsequenz des vorhe-
`rigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unterschiedlichen Iterationen verschieden
`sein kann, vergréBert wird, bis n = N ist. lst n = N und die Zahl derjenigen Positionen, die in der Testsequenz
`nicht mit Ergebniscodons besetzt sind, kleiner oder gleich dem Wert von m, der in den vorangehenden Iterati-
`onen venNendet wurde, oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen
`Iterationen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Iterationsschritt
`p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten Codons ist. Die als optimal
`aufgefundene Besetzung der Optimierungspositionen wird dann fiir die Ergebniscodons an diesen Optimie-
`rungspositionen Libernommen. Dies gilt insbesondere dann, wenn fiirjede mégliche Kombination von Beset—
`zungen der Optimierungspositionen eine Testsequenz generiert wird.
`[0018] Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesamten Se-
`quenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einerTestsequenz in einem vorherigen
`Iterationsschritt umfaBt. Beispielsweise kann die Testsequenz selbst ein Fenster aufder Gesamtsequenz, z.B.
`ein Fensterfester Lange, bilden, das im Laufe derverschiedenen Iterationen aufder Gesamtsequenz verscho—
`ben wird.
`
`[0019] GemaB einer bevorzugten Ausfiihrungsform wird die Testsequenz nach jedem Schritt um p Codons
`verlangert, wobei insbesondere m fiir alle Iterationsschritte konstant sein kann.
`[0020] Analog zu der vorangehend beschriebenen Ausfiihrungsform der Erfindung kann auch vorgesehen
`sein, dafS die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. Dies kann z.B. in der Art
`geschehen, dalS eine anfangliche Testsequenz, welche einem Bereich im Inneren der zu optimierenden Nuc-
`leotidsequenz entspricht, zunachst nach einer Seite sukzessiv vergréBert wird, bis das Ende der zu optimie-
`renden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidsequenz er-
`reicht ist, und dann die Testsequenz zu der anderen Seite hin vergréBert wird, bis dort das andere Ende der
`zu optimierenden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidse-
`quenz erreicht ist.
`[0021] Die Erfindung kann auch vorsehen, dais die Testsequenzen in einem Iterationsschritt aus einer opti-
`mierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Seiten daran anschlieBen-
`den Variationsbereichen mit einer Lange von m1 bzw. m2 Codons besteht, wobei q + m1 + m2 = n gilt. Die Be-
`setzung der Variationsbereiche kann fiir beide Variationsbereiche gemeinsam optimiertwerden, indem die Co-
`dons aufden m1 und m2 Platzen gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem sol-
`chen Fall in jedem Iterationsschritt p1 und p2 Codons in dem ersten und zweiten Variationsbereich festgelegt,
`welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch vorgesehen sein,
`daB die beiden Variationsbereiche unabhangig voneinandervariiert und optimiertwerden. Beispielsweise kann
`vorgesehen sein, dais die Besetzung nur in einem der beiden Variationsbereiche variiert wird und nur in dem
`einen Bereich Codons festgelegt werden, bevor die Variation und Optimierung in den zweiten Bereich stattfin—
`det. In diesem Fall werden die p1festge|egten Codons in dem ersten Bereich bei der Optimierung des zweiten
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls geringe Korrelationen
`zwischen den beiden Bereichen zu erwarten sind.
`
`[0022] Gemafi dieser Ausfiihrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem Punkt
`oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird.
`[0023] Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der Testse-
`quenz aufder Gesamtsequenz den Bereich der Testsequenzen in alien vorangehenden lterationsschritten um-
`faBt und der Bereich einer Testsequenz in zumindest einigen der vorangehenden Iterationsschritte jeweils im
`Inneren oderjeweils am Rand des Bereichs der Testsequenz in dem aktuellen Iterationsschritt liegt.
`
`4/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`[0024] Die Er‘findung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen unabhangig
`optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der verschiedenen optimierten
`Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest ein Teil derjeweiligen Ergebniscodons von
`zwei oder mehr optimierten Teilbereichen als Bestandteil einer Testsequenz in einer oder mehreren Iterationen
`venNendet wird.
`
`[0025] GemaB einer bevorzugten Ausfiihrungsform der Er‘findung ist vorgesehen, daB in einem Iterations-
`schritt Testsequenzen mit allen méglichen Codonbesetzungen fiir die m Optimierungspositionen aus der ers-
`ten Testsequenz generiert werden und die optimale Testsequenz unter allen méglichen Testsequenzen, bei de—
`nen an eineroder mehreren der m Optimierungspositionen ein Codon durch ein anderes Codon, welches die—
`selbe Aminosaure exprimiert, ersetzt wurde, ermittelt wird.
`[0026] GemaB einer Ausfiihrungsform der Erfindung ist die zum Bewerten der Testsequenzen venNendete
`GUtefunktion bei allen oder zumindest der Mehrzahl der Iterationen gleich. Die Erfindung kann jedoch auch
`vorsehen, unterschiedliche GUtefunktionen in unterschiedlichen Iterationen, zum Beispiel in Abhangigkeit von
`der Lange der Testsequenzen, zu venNenden.
`[0027] Das erfindungsgemaBe Verfahren kann insbesondere die folgenden Schritte umfassen:
`— Bewerten jeder Testsequenz mit einer GUtefunktion,
`— Ermitteln eines Extremwertes innerhalb der Werte der Giitefunktion fiir alle in einem Iterationsschritt ge-
`nerierten Teilsequenzen,
`— Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichtsfunktion entspricht,
`als Ergebniscodons an den entsprechenden Positionen, wobei p eine natiirliche Zahl und p S m ist.
`
`[0028] Die GUtefunktion kann so definiert sein, dais die Sequenz entweder umso naher an dem Optimum liegt,
`je gréBerder Wert der GUtefunktion ist, oder umso naher an dem Optimum liegt, je kleiner ihrWert ist. Entspre-
`chend wird man bei dem Schritt des Ermittelns des Extremwertes das Minimum oder das Maximum der G'Lite-
`
`funktion unter den generierten Codonsequenzen ermitteln.
`[0029] Die Erfindung kann vorsehen, daB die G'Litefunktion eines oder mehrere der folgenden Kriterien be-
`r'Licksichtigt: Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0030] Die Erfindung kann insbesondere vorsehen, daB die G'Litefunktion eines oder mehrere der folgenden
`Kriterien berticksichtigt:
`— cis-aktive Sequenz-Motive, insbesondere DNS/Protein—Interaktionsbindestellen und RNS/Protein-Interak—
`tionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktorbindestellen, Transkriptionsterminatoren—
`bindestellen, Polyadenylierungssignale, Endonucleaseerkennungssequenzen,
`immunomodulatorische
`DNS-Motive, Ribosomenbindestellen, Erkennungssequenzen fiir rekombinationsaktive Enzyme, Erken-
`nungssequenzen f'Lir DNS-modifizierende Enzyme, Erkennungssequenzen f'Lir RNS-modifizierende Enzy-
`me, Sequenzmotive, die in einem vorgegebenen Organismus unterreprasentiert sind.
`
`[0031] Die Erfindung kann auch vorsehen, daB die GUtefunktion eines oder mehrere derfolgenden Kriterien
`beriicksichtigt:
`— AusschluB oder weitgehender AusschluB von invers komplementaren Sequenzidentitaten von mehr als
`20 Nukleotiden zum Transkriptom eines vorgegebenen Organismus,
`— AusschluiS oderweitgehenderAusschluE von Homologiebereichen von mehr als 1.000 Basenpaaren, be-
`vorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einervorgegebenen DNS-Sequenz, zum
`Beispiel zu dem Genom eines vorgegebenen Organismus oder zu der DNS-Sequenz eines vorgegebenen
`Vektorkonstrukts.
`
`[0032] Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten Mechanis-
`mus, mit dem ein Organismus RNA—Sequenzen mit mehrals 20 Nukleotiden exakter Identitat zu einer anderen
`RNA—Sequenz eliminiert oder deaktiviert. Mit dem zweiten Kriterium soll verhindert werden, daB eine Rekom—
`bination, das heiBt ein Einbau der Sequenz in das Erbgut des Organismus, oder eine Mobilisierung von
`DNS—Sequenzen durch Rekombination mit anderen Vektoren stattfindet. Beide Kriterien kénnen als absolute
`AusschluBkriterien venNendetwerden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfUllt sind,
`werden nicht beriicksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer im Zusammenhang mit
`Sequenzmotiven erlautert wird, vorsehen, daB diesen Kriterien ein Gewicht zugeordnet ist, das betragsmaBig
`gréfier ist als der gréBte Beitrag von Kriterien zu der Giitefunktion, welche keine AusschluBkriterien sind.
`[0033] Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium vorsehen,
`daB keine Homologiebereiche erzeugtwerden, die mehr als 90 % Ahnlichkeit und/oder 99 % Identit'ait zu einer
`vorgegebenen DNS-Sequenz, zum Beispiel zu der entsprechenden Genomsequenz des vorgegebenen Orga-
`nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium
`kann entweder als absolutes AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr groiSen
`
`5/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`Beitrag zu der Glitefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht AusschluBkriterien sind,
`UbenNiegt.
`[0034]
`Insbesondere kann vorgesehen sein, daB die Glitefunktion eine Funktion von verschiedenen Einzel-
`termen, insbesondere eine Summe von Einzeltermen ist, diejeweils ein Kriterium aus der folgenden Liste von
`Kriterien bewerten: Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, DNS-Motive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0035] Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Einzeltermen
`oder eine rationale Funktion von Einzeltermen sein. Die genannten Kriterien mUssen nicht notwendigenNeise
`vollstandig in der Gewichtsfunktion berticksichtigt werden. Es kann auch nur ein Teil der Kriterien in der Ge—
`wichtsfunktion verwendet werden.
`
`[0036] Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsgewichte ge—
`nannt.
`
`[0037] Die Erfindung kann vorsehen, dais das Kriteriumsgewicht betreffend die Codon Usage (CU Score) pro-
`portional zu Ltd/fem“, ist, wobei
`— fci die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons ftir den betreffenden Organismus
`zur Expression der Aminosaure an der Stelle i der Aminosaurensequenz des zu exprimierenden Proteins
`ist und
`
`—fornaxi die Haufigkeit des Codons ist, welches in dem entsprechenden Organismus am haufigsten die Ami-
`nosaure an der Stelle i exprimiert.
`
`[0038] Das MalS foi/fornaxi ist als ,,Relative Adaptiveness" bekannt (vgl. P. M. Sharp, W. H. Li, Nucleic Acids Re-
`search 15 (3) (1987), 1281 bis 1295).
`[0039] Das lokale Gewicht des am haufigsten vorkommenden Codons wird dabei, unabhangig von der abso-
`luten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum Beispiel 1, gesetzt. Damit
`wird vermieden, dalS die Positionen, an denen nur wenige Codons zur Auswahl stehen, starker zu dem Ge-
`samtgewicht beitragen als diejenigen, an denen eine groBere Anzahl von Codons zur Expression derAmino-
`saure zur Auswahl stehen. Der Index i kann Uber die gesamten n Codons der Testsequenz oder einen Teil da-
`von laufen. Insbesondere kann in einer Ausftihrungsform vorgesehen sein, dais i nur Uber die m Codons der
`Optimierungspositionen lauft.
`[0040] Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codonusage nur fUr die m
`Ordnungspositionen ven/vendet wird.
`[0041] Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous Codon
`Usage; vgl. P. M. Sharp, W. H. Li, a.a.O.) venNendet werden. Die RSCU f'Lir eine Codonposition ist definiert
`durch
`
`RSCU. = fad/(2J3
`
`definiert, wobei die Summe im Nenner Uber alle Codons lauft, welche die Aminosaure an der Stelle i exprimie-
`ren und wobei di die Zahl der Codons angibt, welche die besagte Aminosaure exprimieren. Um ein Kriterien-
`gewicht auf der Grundlage der RSCU zu definieren, kann vorgesehen sein, daB die RSCU fiir die jeweilige
`Testsequenz iiber alle Codons der Testsequenz oder einen Teil davon, insbesondere tiber die m-Codons der
`Optimierungspositionen, summiert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten
`Kriteriumsgewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der Degene-
`riertheit, di, gewichtet wird, so daB solche Positionen, an denen mehr Codons zur Auswahl stehen, starker in
`das Kriteriumsgewicht eingehen als solche Positionen, an denen nur wenige Codons oder sogar nur ein einzi-
`ges Codon zur Auswahl stehen.
`[0042] Bei den vorangehend beschriebenen Kriteriumsgewichten f'Lir die Codon-Usage wurde das arithmeti-
`sche Mittel Uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`[0043] Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage proportional
`zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen RSCU ist, so dais also gilt
`
`CUScore = K(l'liRSCUi)“L
`
`oder
`
`I Cl
`cmaxi
`CUScore = K (l'lf ./f
`
`)“L
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, Uber welche das Produkt gebildet
`wird. Auch hier kann das Produkt wieder 'Liber die gesamte Testsequenz oder einen Teil, insbesondere Uber
`die m Optimierungspositionen, gebildet werden.
`
`6/37
`
`
`
`DE 102 60 805 A1 2004.07.22
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nukleotidse-
`[0044]
`quenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verftigung,
`welches die folgenden auf einem Computer durchgeftihrten Schritte umfaBt:
`— Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinanderfolgende Aminosau-
`ren in der Proteinsequenz entsprechen, wobei n eine nat'Lirlich Zahl kleiner oder gleich N, der Zahl der Ami-
`nosauren der Proteinsequenz, ist,
`— Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer G'Litefunktion, welche ein ge-
`ometrisches oder arithmetisches Mittel der Relative Adaptiveness oder der RSCU Uber eine Anzahl von L
`Codonpositionen enthalt, wobei L kleiner oder gleich N ist,
`— Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Ergebnis der besagten
`Bewertung.
`
`[0045] Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschriebenen
`Weise derart erfolgen, dais die neuen Testsequenzen eine bestimmte Anzahl aufgrund der vorangehenden Ite-
`rationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, dais eine bestimmte Testsequenz mit einer
`bestimmten Wahrscheinlichkeit, die von dem Wert der G'Litefunktion abhangt, als Grundlage fiir weitere Itera-
`tionen, insbesondere die weitere Erzeugung von Testsequenzen, venNendet wird, wie dies bei Monte-Car-
`lo-Verfahren der Fall ist.
`
`[0046] Wéhrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungshaufigkeit
`im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus definiert wird, kann die Giite eines
`bestimmten Codons alternativ auch durch die biophysikalisohen Eigenschaften des Codons selbst beschrie-
`ben werden. So ist zum Beispiel bekannt, dais Codons mit einer mittleren Codon-Antioodon-Bindungsenergie
`besonders effizient translatiert werden. Als MaB fiir die translatorische Effizienz einer Testsequenz kann daher
`zum Beispiel der P2-lndex venNendet werden, welcher das Verhéiltnis der Haufigkeit von Codons mit mittlerer
`Bindungsenergie und Codons mit extrem st