`PATENTVVESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG
`
`(19) Weltorganisation fiir geistiges Eigentum
`Internationales Biiro
`
`(43) Internationales Veroffentlichungsdatum
`15. Juli 2004 (15.07.2004)
`
` (10) Internationale Veroffentlichungsnummer
`
`WO 2004/059556 A2
`
`(51) Internationale Patentklassifikation7:
`
`G06F 19/00
`
`(21) Internationales Aktenzeichen:
`
`PCT/EP2003/014850
`
`(22) Internationales Anmeldedatum:
`23. Dezember 2003 (23.12.2003)
`
`(25) Einreichungssprache:
`
`(26) Veriill'entlichungssprache:
`
`Deutsch
`
`Deutsch
`
`(30) Angaben zur Prioritéit:
`102 60 805.9
`23. Dezember 2002 (23.12.2002)
`
`DE
`
`(71) Anmelder (ffir alle Bertimmungs‘s‘tuuten mil Aumahme van
`US): GENEART GMBH [DE/DE]; Josef—Engert—Strasse
`9, 93053 Regensburg (DE).
`
`(72) Erfinder; und
`fiir US): RAAB, David
`(nur
`(75) Erl'inder/Anrnelder
`[DE/DE]; Gottfried Kolwcl Platz 1, 93176 Bcratshauscn
`(DE). GRAF, Marcus [DE/DE]; Taubeng'asschen 1, 93047
`Regensburg (DE). NOTKA, Frank [DE/DE]; Franziskan—
`erplatz 19, 93059 Regensburg (DE). WAGNER, Ralf
`[DE/DE]; Roter Brach Weg 29, 93049 Regensburg (DE).
`
`(74) Anwalte: SCHOHE, Stefan usw.; Boehmert & Boehmert,
`Hollerallee 32, 28209 Bremen (DE).
`
`(81) Bestimmungsstaaten (national): AE, AG, AL, AM, AT,
`AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR,
`CU, CZ, DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE,
`GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR,
`KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK,
`MN, MW, MX, MZ, NI, NO, NZ, OM, PG, PH, PL, PT,
`RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR,
`TT, TZ, UA, UG, US, UZ, VC, VN. YU, ZA, ZM, ZW.
`
`(84) Bestimmungsstaaten (regional): ARIPO Patent (BW, GH,
`GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW),
`eurasisches Patent (AM, AZ, BY, KG, KZ, MD, RU, TJ,
`TM), europ‘aisches Patent (AT, BE, BG, CH, CY, CZ, DE,
`DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL,
`PT, RO, SE, SI, SK, TR), OAPI Patent (BF. BJ, CF, CG,
`CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
`
`Veriiffentlicht:
`ohne internationalen Recherchenbericht und erneut zu ver—
`éfi'entlichen nach Erhalt des Berichts
`
`Zur Erkla‘rung der Zweibuchstaben- Codes und der anderen Ab—
`kiirzungen wird auf die Erkldrungen (”Guidance Notes on Ca—
`des and Abbreviations ”) am Anfangjeder reguliz‘ren Ausgabe der
`PCT-Gazette verwiesen.
`
`(54) Title: METHOD AND DEVICE FOR OPTIMIZING A NUCLEOTIDE SEQUENCE FOR THE PURPOSE OF EXPRESSION
`OF A PROl‘ElN
`
`(54) Bezeichnung: VERFAREN UND VORRICHTUNG ZUM OPTIMIEREN EINER NUCLEOTIDSEQUENZ ZUR EXPRES—
`SION EINES PROTEINS
`
`N (57) Abstract: The invention relates to a method for optimizing a nucleotide sequence for the purpose of expression of a protein on
`the basis of the amino acid sequence of said protein. According to the inventive method, a test sequence with in optimization positions
`is determined for a defined region, in which positions the codon usage is varied. The optimum codon usage on said optimization
`9 positions is determined by means of a power function and one or more codons of said optimum usage are determined as the codons
`In of the optimized nucleotide sequence. These steps are iterated, while the codons of the optimized nucleotide sequence determined
`In in the preceding steps remain unchanged during the subsequent iteration steps. The invention further relates to a device for carrying
`out said method.
`
`4/059 (57) Zusammenfassung: Die Erfindung betrifft ein Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Pro—
`
`: teins auf der Grundlage der Aminosaurensequenz des Proteins, bei welchem [Ur einen bestimmlen Bereich eine Teslsequenz mit m
`a Optimierungspositionen festgelegt wird, auf dcncn die Codonbesetzung variicrt wird, wobci mittcls einer Giitcfunktion die optimalc
`N Codonbesetzung auf diesen Optimierungspositionen ermittelt wird und ein oder mehrere Codons dieser optimalen Besetzung als
`Codons der optimierten Nucleotidsequenz festgelegt werden. Diese Sclnitte werden iteriert, wobei bei nachfolgenden Iterations—
`schritten die in vorangehenden Schritten festgelegten Codons der optimierten Nucleotidsequenz unverandert bleiben. Die Erfindung
`betrifft weiterhin eine Vorrichtung zur Durchfuhrung dieses Verfahrens.
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines
`
`Proteins
`
`Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren
`
`Verwendung zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressions-
`
`system, zum Beispiel in einen Wirtsorganismus/eine Wirtszelle oder ein System fiir eine ln—
`
`vitro-Expression eingebracht werden, der bzw. die das entsprechende Protein exprimiert. Sie
`
`betrifft insbesondere Verfahren, bei denen eine synthetische Nucleotidsequenz fiir das jewei-
`
`lige Expressionssystcm, also zum Beispiel fiir einen Organismus/fur eine Wirtszelle, mit Hilfe
`
`eines Computers optimiert wird.
`
`Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Expri-
`
`mieren der dem Protein entsprechenden Gensequenz in heterologen Systemen, Z.B. Escheri-
`
`chia coli oder Hefe. Natiirlich vorkommende Gene sind fiir diesen Zweck allerdings h'aufig
`
`suboptimal. Da in einer DNS—Sequenz, die ein Protein exprimiert, jeweils ein Triplett von
`
`Basen (Codon) eine Aminoséiure exprimiert, ist es moglich, eine kfinstliche DNS-Sequenz zur
`
`Expression des gewfinschten Proteins zu synthetisieren und fiir das Klonen und Exprimieren
`
`des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, daB einer vorge-
`
`gebenen Aminoséiurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als
`
`Degeneriertheit des genetisehen Codes bezeichnet. Unterschiedliche Organismen verwenden
`
`Codons fiir die Expression einer Aminoséiure mit unterschiedlicher Héiufigkeit (sogenannte
`
`Codon usage). In der Regel gibt es in einem gegebenen Organismus ein Codon, das fiberwie-
`
`gend verwendet wird und ein oder mehrere Codons, welche mit vergleichsweise geringer
`
`Héiufigkeit von dem Organismus zur Expression der entsprechenden Aminoséiure verwendet
`
`werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet
`
`werden soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus
`
`angepafit sein. Eine weitere wichtige Grc‘jBe ist der GC-Gehalt (Gehalt der Basen Guanin und
`
`Cytosin in einer Sequenz). Weitere Faktoren, welche das Expressionsergebnis beeinfiussen
`
`konnen, sind DNS-Motive und Wiederholungen oder invers komplementéire Wiederholungen
`
`in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem gegebenen Organismus
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`_ 2 _
`
`bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwfinscht sein kennen.
`
`Beispiele sind cis-aktive Sequenzmotive wie SpleiBstellen oder Transkriptionsterminatoren.
`
`Das unbeabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren
`
`oder ganz unterdriicken oder sogar ffir den Wirtsorganismus cine toxische Wirkung haben.
`
`Sequenzwiederholungen komen zu einer geringeren genetischen Stabilitiit fiihren und er-
`
`schweren die Synthese repetitiver Abschnitte aufgrund der Gefahr von Fehlhybridisierungen.
`
`Invers komplementéire Wiederholungen kennen zur Bildung von unerwilnschten Sekund‘cir-
`
`strukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fiihren, welche
`
`die Transkription behindern und zu genetischer Instabilitfit ffihren, bzw. die Translationseffi-
`
`zienz negativ beeinflussen k6nnen.
`
`Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts opti-
`
`miert sein und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers
`
`komplementfiren Sequenzwiederholungen verbundenen Probleme weitgehend vermeiden.
`
`Diese Erfordernisse lassen sich in der Regel jedoch nicht gleichzeitig und in optimaler Weise
`
`erfiillen. Beispielsweise kann eine Optimierung auf die optimale Codon usage zu einer stark
`
`repetitiven Sequenz und einem erheblichen Abweichen von dem gewiinschten GC-Gehalt
`
`fiihren. Es gilt daher, einen méglichst optimalen KompromiB zwischen der Erfiillung der ver—
`
`schiedenen Erfordernisse herbeizufilihren. Die groBe Anzahl von Aminoséiuren in einem Pro-
`
`tein fiihrt jedoch zu einer kombinatorischen Explosion der Zahl der moglichen DNS-
`
`Sequenzen, welche — im Prinzip — das gewfinschte Protein exprimieren k6nnen. Aus diesem
`
`Grund wurden verschiedene computergestfitzte Verfahren zum Ermitteln einer optimalen Co-
`
`donsequenz vorgeschlagen.
`
`P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben
`
`Untersuchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter réiumlicher
`
`Strukturen einer DNS-Sequenz. Hierbei wurden alle moglichen degenerierten Nucleotidse-
`
`quenzen generiert. Eine Bewertung der Sequenzen hinsichtlich des Vorhandenseins von
`
`strukturellen Motiven und strukturbildender Abschnitte erfolgte durch einen Computer unter
`
`Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht offenbart.
`
`D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schléigt ein
`
`computergestfitztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 3 -
`
`V0n Abschnitten unterteilt wird, fiir die jeweils eine Gfitefunktion (Score) berechnet wird. In
`
`die Gutefunktion gehen u.a. die Codon usage, die Méglichkeit der Bildung von Haarnadel-
`
`strukturen und die Abweichungen von der gewfinschten Schmelztemperatur ein. Der Wen der
`
`Gfitefunktion fiir die Gesamtsequenz bestimmt sich aus der Summe der Werte der GUtefunk-
`
`tion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird
`
`durch ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpo-
`
`sitionen ausgewahlt, bei denen das Codon einer Ausgangssequenz durch ein statistisch aus-
`gewéhltes Hquivalentes Codon ersetzt wird. Gleichzeitig werden in einer Iteration auch die
`Grenzen der Abschnitte neu definiert. Auf diese Weise wird eine vollsté'mdige Gensequenz
`statistisch generiert. Ist der Wert der Giitefunktion fiir die Gesamtsequenz kleiner als die bis-
`herige Sequenz, wird die neue Sequenz beibehalten. Ist er gréBer, wird mit einer gewissen
`Wahrscheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine
`
`Boltzmann-Statistik kontrolliert wird. Wenn sich innerhalb einer vorbestimrnten Anzahl von
`
`Iterationen die Sequenz nicht findert, wird diese Sequenz als optimale Sequenz bewertet.
`
`Derartige statistische Verfahren haben den Nachteil, daB sic stark von der Wahl der Konver-
`
`genzkriterien abh‘angen.
`
`Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleo-
`
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosfiuresequenz des Pro-
`teins zur Verfiigung zu stellen, welches sich mit relativ geringem Speicherplatz und relativ
`
`geringer Rechenzeit auf einem Computer implementieren léiBt und welches insbesondere
`
`Nachteile der statistischen Verfahren vermeidet.
`
`ErfindungsgemfiB wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleo-
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminoséiurensequenz des
`
`Proteins gelost, welches die folgenden auf einem Computer durchgefiihrten Schritte umfaBt:
`
`-
`
`-
`
`Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden
`
`Aminoséiuren in der Proteinsequenz entsprechen, wobei n eine natfirliche Zahl und
`
`kleiner oder gleich N, der Zahl der Aminoséiuren der Proteinsequenz, ist,
`
`Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von
`
`m Codons, insbesondere von m aufeinanderfolgenden Codons, entsprechen, an denen
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`_4_
`
`die Besetzung mit einem Codon, bezogen auf die Testsequenz, optimiert werden soil,
`
`wobei m S n und m < N ist,
`
`—
`
`Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz,
`
`-
`
`-
`
`indem an einer oder mehreren der m Optimierungspositionen ein Codon der ersten
`
`Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe Aminoséiure ex—
`
`primiert,
`Bewerten jeder der Testsequenzen mit einer Giitefunktion und Ermitteln der hinsicht-
`
`lich der Gfitefunktion optimalen Testsequenz,
`
`Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Opti—
`
`mierungspositionen befinden, als Ergebniscodons, welche die Codons der optimierten
`Nucleotidsequenz an den Positionen bilden, die der Position der besagten p Codons in
`
`der Testsequenz entspricht, wobei p cine natfirliche Zahl und p s m ist,
`
`-
`
`Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Testsequenz
`
`an den Positionen, welche Positionen von festgelegten Ergebniscodons in der opti-
`
`mierten Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthfilt und
`
`die Optimierungspositionen von Positionen von Ergebniscodons verschieden sind.
`
`GemfiB der bevorzugten Ausfiihrungsform der Erfindung werden die vorangehend genannten
`
`Schritte so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit
`
`Ergebniscodons besetzt worden sind.
`
`Erfindungsgeméfi wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen
`optimiefi. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in
`den nachfolgenden Iterationsschritten nicht mehr veré‘mdert und vielmehr bei den jeweiligen
`Optimierungsschritten als gegeben vorausgesetzt. Vorzugsweise ist die Anzahl der Ergeb-
`niscodons, welche auf diese Weise fiir die weiteren Iterationen festgelegt und als vorgegeben
`
`behandelt werden, kleiner als die Anzahl In der Optimierungspositionen, an denen in einem
`
`Iterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der Iterationsschritte,
`
`bei einer besonderen Ausfiihrungsform bei allen Iterationsschritten auBer dem ersten, ist wie-
`
`derum m kleiner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lo-
`
`kale Effekte auf den m variierten Positionen, sondem auch lfingerreichweitige Korrelationen,
`
`z.B. im Zusammenhang mit der Entstehung von RNA-Sekundfirstrukturen, zu berficksichti-
`
`gen.
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 5 -
`
`GeméiB den derzeit bevorzugten Ausfflhrungsformen liegt m im Bereich von 3 bis 20, vor-
`
`zugsweise im Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der
`Codons mit einem akzeptablen Aufwand an Speicher und Rechenzeit durchgefiihrt werden
`
`und gleichzeitig eine gute Optimierung der Sequenz erreicht werden.
`
`Gemafl einer Ausfiihrungsform muB m in den verschiedenen Iterationsschritten nicht gleich
`
`sein, sondern kann Vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es
`
`kann auch vorgesehen sein, in einem Iterationsschritt die Variation der Testsequenz fiir ver-
`
`schiedene Werte von m durchzufiihren und ggf. nur das Optimierungsergebnis fiir einen Wert
`
`von m zu berficksichtigen, um Einfliisse der GrdBe m auf das Optimierungsergebnis zu redu-
`zieren bzw. um zu fiberprfifen, ob eine VergréBerung der Zahl m zu einer Anderung des Er—
`
`gebnisses fuhrt.
`
`GeméiB der bevorzugten Ausffihrungsform sind die m Optimierungspositionen oder zumindest
`
`ein Teil davon zusammenhéingend und bilden somit ein Variationsfenster in der Testsequenz,
`
`auf welchem die Codonbesetzung variiert wird.
`
`Die Erfindung kann insbesondere vorsehen, daB in zwei oder mehr aufeinanderfolgenden Ite-
`
`rationsschritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert wer-
`
`den, identisch sind. Sind die m Positionen zusammenhé'mgend, bedeutet dies, daB das Variati-
`
`onsfenster bei einem Iterationsschritt mit dem Variationsfenster eines vorangehenden Iterati-
`
`onsschrittes fiberlappt.
`
`Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimie-
`
`rungspositionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen,
`
`welche als Teil der optimierten Nucleotidsequenz festgelegt worden sind.
`
`Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p
`
`Codons, die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p auf-
`
`einanderfolgende Codons sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergeb—
`
`niscodons folgen, welche als Teil der optimierten Nucleotidsequenz in einem frfiheren Schritt
`
`festgelegt worden sind.
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 6 _
`
`Die Erfindung kann vorsehen, daB die Nucleotidsequenz von einem ihrer Enden her optimiert
`
`wird. Insbesondere kann die Erfindung vorsehen, daB in jedem lterationssehritt die Linge der
`
`Testsequenz des vorherigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unter-
`schiedlichen lterationen verschieden sein kann, vergrbBert wird, bis 11 = N ist. Ist n = N und
`
`die Zahl derj enigen Positionen, die in der Testsequenz nicht mit Ergebniscodons besetzt sind,
`kleiner oder gleich dern Wert von m, der in den vorangehenden Iterationen verwendet wurde,
`
`oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen Itera-
`tionen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Itera-
`tionsschritt p = In gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten
`Codons ist. Die als optimal aufgefundene Besetzung der Optimierungspositionen wird dann
`
`fijr die Ergebniscodons an diesen Optimierungspositionen fibemommen. Dies gilt insbesonde-
`
`re dann, wenn fiir jede mégliche Kombination von Besetzungen der Optimierungspositionen
`
`eine Testsequenz generiert wird.
`
`Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesam-
`
`ten Sequenz in einem Iterationsschritt nicht oder nicht vollstéindig den Bereich einer Testse-
`
`quenz in einem vorherigen Iterationsschritt umfaBt. Beispielsweise kann die Testsequenz
`selbst ein Fenster auf der Gesamtsequenz, z.B. ein Fenster fester Léinge, bilden, das im Laufe
`
`der verschiedenen Iterationen auf der Gesamtsequenz verschoben wird.
`
`GemiiB einer bevorzugten Ausfilhrungsforrn wird die Testsequenz nach jedem Schritt urn p
`
`Codons verléingert, wobei insbesondere m fiir alle Iterationsschritte konstant sein kann.
`
`Analog zu der vorangehend beschriebenen Ausffihrungsfonn der Erfindung kann auch vorge-
`
`sehen sein, daB die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird.
`
`Dies kann z.B. in der Art geschehen, daB eine anftingliche Testsequenz, welche einem Bereich
`
`im Inneren der zu optimierenden Nucleptidsequenz entspricht, zunéichst nach einer Seite suk-
`
`zessiv vergréBert wird, bis das Ende der zu optimierenden Nucleotidsequenz oder ein anderer
`
`vorgegebener Punkt der zu optimierenden Nucleotidsequenz erreicht ist, und dann die Testse-
`
`quenz zu der anderen Seite hin vergrbfiert wird, bis dort das andere Ende der zu optimieren-
`den Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleo-
`
`tidsequenz erreicht ist.
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 7 -
`
`Die Erfindung kann auch vorsehen, daB die Testsequenzen in einem Iterationsschritt aus einer
`optimierten oder anderweitig festgelegten Teilsequenz der L‘ange q und zwei auf beiden Sei-
`ten daran anschlieBenden Variationsbereichen mit einer Lfinge VOH m1 bZW- m2 COdODS be—
`
`steht, wobei q+ml+m2 = n gilt. Die Besetzung der Variationsbereiche kann fiir beide Variati-
`onsbereiche gemeinsam optimiert werden, indem die Codons auf den m] und m2 Platzen
`gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem solchen Fall in
`jedem Iterationsschritt p1 und p2 Codons in dem ersten und zweiten Variationsbereich festge-
`legt, welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch
`vorgesehen sein, daB die beiden Variationsbereiche unabhangig voneinander variiert und op—
`timiert werden. Beispielsweise kann vorgesehen sein, daB die Besetzung nur in einem der
`
`beiden Variationsbereiche variiert wird und nur in dem einen Bereich Codons festgelegt wer—
`
`den, bevor die Variation und Optimierung in den zweiten Bereich stattfindet. In diesem Fall
`
`werden die p1 festgelegten Codons in dem ersten Bereich bei der Optimierung des zweiten
`
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls gerin-
`
`ge Korrelationen zwischen den beiden Bereichen zu erwarten sind.
`
`GeméiB dieser Ausfiihrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem
`
`Punkt oder einem Bereich im lnneren der Sequenz ausgehend optimiert wird.
`
`Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der
`
`Testsequenz auf der Gesamtsequenz den Bereich der Testsequenzen in allen vorangchenden
`
`Iterationsschritten umfaBt und der Bereich einer Testsequenz in zumindest einigen der veran-
`
`gehenden lterationsschritte jeweils im lnneren oder jeweils am Rand des Bereichs der Testse—
`
`quenz in dem aktuellen Iterationsschritt liegt.
`
`Die Erfindung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen
`
`unabhangig optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der
`
`verschiedenen optimierten Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest
`
`ein Teil der jeweiligen Ergebniscodons von zwei oder mehr optimierten Teilbereichen als
`
`Bestandteil einer Testsequenz in einer Oder mehreren Iterationen verwendet wird.
`
`GeméB einer bevorzugten Ausfiihrungsform der Erfindung ist vorgesehen, daB in einem Ite-
`
`rationsschritt Testsequenzen mit allen méglichen Codonbesetzungen fiir die m Optimierungs-
`
`positionen aus der ersten Testsequenz generiert werden und die optimale Testsequenz unter
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-3-
`
`allen méglichen Testsequenzen, bei denen an einer oder mehreren der m OptimierungSposi-
`tionen ein Codon durch ein anderes Codon, welches dieselbe Aminoséiure exprimiert, ersetzt
`
`wurde, ermittelt wird.
`
`GemfiB einer Ausfiihrungsform der Erfindung ist die zum Bewerten der Testsequenzen ver-
`
`wendete Gfitefunktion bei allen oder zumindcst der Mehrzahl der Iterationen gleich. Die Er-
`
`findung kann jedoch auch vorsehen, unterschiedliche Gutefunktionen in unterschiedlichen
`Iterationen, zum Beispiel in Abhfingigkeit von der Léinge der Testsequenzen, zu verwenden.
`
`Das erfindungsgemfiBe Verfahren kann insbesondere die folgenden Schritte umfassen:
`
`-
`
`-
`
`—
`
`Bewerten jeder Testsequenz mit einer Gfitefunktion,
`
`Ermitteln eines Extremwertes innerhalb der Werte der Gfitefunktion fiir alle in einem
`
`Iterationsschritt generierten Teilsequenzen,
`Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichts—
`funktion entspricht, als Ergebniscodons an den entsprechenden Positionen, wobei p ei—
`
`ne natfirliche Zahl und p S m ist.
`
`Die Gfitefunktion kann so definiert sein, daB die Sequenz entweder umso néiher an dem Opti-
`
`mum liegt, je gréBer der Wert der Gutefunktion ist, Oder umso n‘aher an dem Optimum liegt,
`je kleiner th Wert ist. Entsprechend wird man bei dem Schritt des Ermittelns des Extrem—
`wefies das Minimum oder das Maximum der Giltefunktion unter den generierten Codonse-
`
`quenzen ermitteln.
`
`Die Erfindung kann vorsehen, daB die Giitefunktion eines oder mehrere der folgenden Krite-
`
`rien berficksichtigt;
`Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive
`
`Sequenzen, Sekundéirstrukturen, inverse Repeats.
`
`Die Erfindung kann insbesondere vorsehen, daB die Gutefunktion eines Oder mehrere der fol-
`
`genden Kriterien berficksichtigt:
`-
`cis-aktive Sequenz—Motive,
`
`insbesondere DNS/Protein—Interaktionsbindestellen und
`
`RNS/Protein-Interaktionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktor-
`
`bindestellen, Transkriptionsterminatorenbindestellen, Polyadenylierungssignale, En-
`
`donucleaseerkennungssequenzen,
`
`immunomodulatorische DNS-Motive, Ribosomen-
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 9 _
`
`bindestellen, ErkennungssequeHZen fiir rekombinationsaktive Enzyme, Erkennungsse-
`
`RNS—
`fiir DNS—modifizierende Enzyme, Erkennungssequenzen fur
`quenzen
`modifizierende Enzyme, Sequenzmotive, die in einem vorgegebenen Organismus un—
`
`terrepréisentiert sind.
`
`Die Erfindung kann auch vorsehen, daB die Gfitefunktion eines oder mehrere der folgenden
`
`Kriterien berficksichtigt:
`
`-
`
`-
`
`AusschluB oder weitgehender AusschluB von invers komplementfiren Sequenzidenti-
`
`téiten von mehr als 20 Nukleotiden zum Transkriptom eines vorgegebenen Organis-
`
`mus,
`
`AusschluB oder weitgehender AusschluB von Homologiebereichen von mehr als 1.000
`
`Basenpaaren, bevorzugt 500 Basenpaaren, Starker bevorzugt 100 Basenpaaren zu einer
`
`vorgegebenen DNS-Sequenz, zum Beispiel zu dem Genom eines vorgegebenen Orga-
`
`nismus oder zu der DNS—Sequenz eines vorgegebenen Vektorkonstrukts.
`
`Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten
`
`Mechanismus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exak-
`
`ter ldentitfit zu einer anderen RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten
`
`Kriterium soll verhindert werden, daB eine Rekombination, das heiBt ein Einbau der Sequenz
`
`in das Erbgut des Organismus, oder eine Mobilisierung von DNS-Sequenzen durch Rekombi-
`
`nation mit anderen Vektoren stattfindet. Beide Kriterien kéinnen als absolute AusschluBkrite-
`
`rien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfiillt
`
`sind, werden nicht berficksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer
`
`im Zusammenhang mit Sequenzmotiven erléiutert wird, vorsehen, daB diesen Kriterien ein
`
`Gewicht zugeordnet ist, das betragsméifiig grb‘fier ist als der gréBte Beitrag von Kriterien zu
`
`der Gfitefunktion, welche keine AusschluBkriterien sind.
`
`Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium
`vorsehen, daB keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit
`
`und/oder 99 % Identitéit zu einer vorgegebenen DNS-Sequenz, zum Beispiel zu der entSpre-
`
`chenden Genomsequenz des vorgegebenen Organismus oder zu der DNS-Sequenz eines vor-
`
`gegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium kann entweder als absolutes
`
`AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr groBen Beitrag zu
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 10 _
`
`der Gfitefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht Ausschlufikriterien
`
`sind, fiberwiegt.
`
`Insbesondere kann vorgesehen scin, daB die Gfitefunktion eine Funktion von verschiedenen
`
`Einzeltermen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus
`
`der folgenden Liste von Kriterien bewerten:
`Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, DNS — Motive, repetitive Se-
`
`quenzen, Sekund‘arstrukturen, inverse Repeats.
`
`Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Ein-
`
`zeltermen oder eine rationale Funktion von Einzeltermen seinDie genannten Kriterien miis-
`
`sen nicht notwendigerweise vollsténdig in der Gewichtsfunktion berficksichtigt werden. Es
`
`kann auch nur ein Teil der Kriterien in der Gewichtsfunktion verwendet werden.
`
`Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsge-
`
`wichte genannt.
`
`Die Erfindung kann vorschen, daB das Kriteriumsgewicht betreffend die Codon Usage (CU
`
`Score) proportional zu 2i fci/fcmaxi ist, wobei
`
`-
`
`fci die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons fur den betref-
`
`fenden Organismus zur Expression der Aminoséiure an der Stelle i der Aminos‘auren-
`
`sequenz des zu exprimierenden Proteins ist und
`
`fcmaxi die Héiufigkeit des Codons ist, welches in dem entsprechenden Organismus am
`
`haufigsten die Aminosfiure an der Stelle i exprimiert.
`
`Das MaB fci/fcmaxi ist als ,,Re1ative Adaptiveness“ bekannt (vgl. P. M. Sharp, W. H. Li,
`
`Nucleic Acids Research 15 (3) (1987), 1281 bis 1295).
`
`Das lokale Gewicht des am h'aufigsten vorkommenden Codons wird dabei, unabhangig von
`
`der absoluten H'aufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum
`
`Beispiel 1, gesetzt. Damit wird vennieden, daB die Positionen, an denen nur wenige Codons
`zur Auswahl stehen, starker zu dem Gesamtgewicht beitragen als diejenigen, an denen eine
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 11 _
`
`groBere Anzahl von Codons zur Expression der Aminoséiure zur Auswahl stehen. Der Index i
`kann fiber die gesamten n Codons der Testsequenz oder einen Teil davon laufen. Insbesondere
`kann in einer Ausfiihrungsform vorgesehen sein, daB i nur fiber die m Codons der Optimie-
`
`rungspositionen lfiuft.
`
`Die Erflndung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codonusage nur ffir
`
`die m Ordnungspositionen verwendet wird.
`
`Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous
`
`Codon Usage; vgl, P. M. Sharp, W. H. Li, a.a.O.) verwendet werden. Die RSCU fiir eine Co-
`
`donposition ist definiert durch
`
`RSCUCi = fcidi/(Zc fci)
`
`definiert, wobei die Summe im Nenner fiber alle Codons léiuft, welche die Aminoséiure an der
`
`Stelle i exprimieren und wobei di die Zahl der Codons angibt, welche die besagte Aminoséiure
`
`exprimieren. Um ein Kriteriengewicht auf der Grundlage der RSCU zu definieren, kann vor-
`
`gesehen sein, daB die RSCU fiir die jeweilige Testsequenz fiber alle Codons der Testsequenz
`oder einen Teil davon, insbesondere fiber die m-Codons der Optimierungspositionen, sum-
`
`miert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten Kriteriums-
`
`gewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der De-
`generiertheit, di, gewichtet wird, so daB solche Positionen, an denen mehr Codons zur Aus-
`wahl stehen, stéirker in das Kriteriumsgewicht eingehen als solche Positionen, an denen nur
`
`wenige Codons oder sogar nur ein einziges Codon zur Auswahl stehen.
`
`Bei den vorangehend beschriebenen Kriteriumsgewichten ffir die Codon-Usage wurde das
`
`arithmetische Mittel fiber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`
`Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage pro-
`
`portional zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen
`
`RSCU ist, so daB also gilt
`
`CUScore = Kari RSCUQU"
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-12-
`
`oder
`
`CUScore = K (Hifci/fcmaxi)l/L
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, fiber welche das
`Produkt gebildet wird. Auch hier kann das Produkt wieder fiber die gesamte Testsequenz oder
`einen Teil, insbesondere fiber die m Optimierungspositionen, gebildet werden.
`\
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nu-
`
`kleotidsequenz zur Expression eines Proteins auf der Grundlage der Aminoséiuresequenz des
`Proteins zur Verfiigung, welches die folgenden auf einem Computer durchgefiihrten Schritte
`
`umfaBt:
`
`-
`
`-
`
`-
`
`Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinander—
`
`folgende Aminoséiuren in der Proteinsequenz entsprechen, wobei n cine natiirlich Zahl
`kleiner oder gleich N, der Zahl der Aminoséiuren der Proteinsequenz, ist,
`
`Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer GUtefunkti-
`
`on, welche ein geometrisches oder arithmetisches Mittel der Relative Adaptiveness
`oder der RSCU fiber eine Anzahl von L Codonpositionen enthéilt, wobei L kleiner oder
`
`gleich N ist,
`Generierung einer oder mehrerer neuer Testsequenzen in Abh‘cingigkeit von dem Er-
`
`gebnis der besagten Bewertung.
`
`Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschrie-
`
`benen Weise derart erfolgen, daB die neuen Testsequenzen eine bestimmte Anzahl aufgrund
`der vorangehenden Iterationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, daB
`eine bestimmte Testsequenz mit einer bestimmten Wahrscheinlichkeit, die von dem Wert der
`
`Gfitefunktion abhéingt, als Grundlage fiir weitere Iterationen, insbesondere die weitere Erzeu-
`gung von Testsequenzen, verwendet wird, wie dies bei Monte-Carlo-Verfahren der Fall ist.
`
`Wéihrend die Qualitéit eines Codons bei den obengenannten Verfahren dutch die Nutzungs—
`
`hfiufigkeit im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus definiert
`wird, kann die Gfite eines bestimmten Codons alternativ auch durch die biophysikalischen
`
`
`
`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 13 _
`
`Eigenschaften des Codons selbst beschrieben werden. So ist zum Beispiel bekannt, daB Co-
`dons mit einer mittleren Codon—Anticodon—Bindungsenergie besonders effizient translatiert
`
`werden. Als MaB fijr die translatorische Effizienz einer Testsequenz kann daher zum Beispiel
`
`der P2-Index verwendet werden, welcher das