(12) NACH DEM VERTRAG UBER DIE INTERNATIONALE ZUSAMMENARBEIT AUF DEM GEBIET DES
`PATENTVVESENS (PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG
`
`(19) Weltorganisation fiir geistiges Eigentum
`Internationales Biiro
`
`(43) Internationales Veroffentlichungsdatum
`15. Juli 2004 (15.07.2004)
`
` (10) Internationale Veroffentlichungsnummer
`
`WO 2004/059556 A2
`
`(51) Internationale Patentklassifikation7:
`
`G06F 19/00
`
`(21) Internationales Aktenzeichen:
`
`PCT/EP2003/014850
`
`(22) Internationales Anmeldedatum:
`23. Dezember 2003 (23.12.2003)
`
`(25) Einreichungssprache:
`
`(26) Veriill'entlichungssprache:
`
`Deutsch
`
`Deutsch
`
`(30) Angaben zur Prioritéit:
`102 60 805.9
`23. Dezember 2002 (23.12.2002)
`
`DE
`
`(71) Anmelder (ffir alle Bertimmungs‘s‘tuuten mil Aumahme van
`US): GENEART GMBH [DE/DE]; Josef—Engert—Strasse
`9, 93053 Regensburg (DE).
`
`(72) Erfinder; und
`fiir US): RAAB, David
`(nur
`(75) Erl'inder/Anrnelder
`[DE/DE]; Gottfried Kolwcl Platz 1, 93176 Bcratshauscn
`(DE). GRAF, Marcus [DE/DE]; Taubeng'asschen 1, 93047
`Regensburg (DE). NOTKA, Frank [DE/DE]; Franziskan—
`erplatz 19, 93059 Regensburg (DE). WAGNER, Ralf
`[DE/DE]; Roter Brach Weg 29, 93049 Regensburg (DE).
`
`(74) Anwalte: SCHOHE, Stefan usw.; Boehmert & Boehmert,
`Hollerallee 32, 28209 Bremen (DE).
`
`(81) Bestimmungsstaaten (national): AE, AG, AL, AM, AT,
`AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR,
`CU, CZ, DE, DK, DM, DZ, EC, EE, ES, FI, GB, GD, GE,
`GH, GM, HR, HU, ID, IL, IN, IS, JP, KE, KG, KP, KR,
`KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK,
`MN, MW, MX, MZ, NI, NO, NZ, OM, PG, PH, PL, PT,
`RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR,
`TT, TZ, UA, UG, US, UZ, VC, VN. YU, ZA, ZM, ZW.
`
`(84) Bestimmungsstaaten (regional): ARIPO Patent (BW, GH,
`GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW),
`eurasisches Patent (AM, AZ, BY, KG, KZ, MD, RU, TJ,
`TM), europ‘aisches Patent (AT, BE, BG, CH, CY, CZ, DE,
`DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL,
`PT, RO, SE, SI, SK, TR), OAPI Patent (BF. BJ, CF, CG,
`CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
`
`Veriiffentlicht:
`ohne internationalen Recherchenbericht und erneut zu ver—
`éfi'entlichen nach Erhalt des Berichts
`
`Zur Erkla‘rung der Zweibuchstaben- Codes und der anderen Ab—
`kiirzungen wird auf die Erkldrungen (”Guidance Notes on Ca—
`des and Abbreviations ”) am Anfangjeder reguliz‘ren Ausgabe der
`PCT-Gazette verwiesen.
`
`(54) Title: METHOD AND DEVICE FOR OPTIMIZING A NUCLEOTIDE SEQUENCE FOR THE PURPOSE OF EXPRESSION
`OF A PROl‘ElN
`
`(54) Bezeichnung: VERFAREN UND VORRICHTUNG ZUM OPTIMIEREN EINER NUCLEOTIDSEQUENZ ZUR EXPRES—
`SION EINES PROTEINS
`
`N (57) Abstract: The invention relates to a method for optimizing a nucleotide sequence for the purpose of expression of a protein on
`the basis of the amino acid sequence of said protein. According to the inventive method, a test sequence with in optimization positions
`is determined for a defined region, in which positions the codon usage is varied. The optimum codon usage on said optimization
`9 positions is determined by means of a power function and one or more codons of said optimum usage are determined as the codons
`In of the optimized nucleotide sequence. These steps are iterated, while the codons of the optimized nucleotide sequence determined
`In in the preceding steps remain unchanged during the subsequent iteration steps. The invention further relates to a device for carrying
`out said method.
`
`4/059 (57) Zusammenfassung: Die Erfindung betrifft ein Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Pro—
`
`: teins auf der Grundlage der Aminosaurensequenz des Proteins, bei welchem [Ur einen bestimmlen Bereich eine Teslsequenz mit m
`a Optimierungspositionen festgelegt wird, auf dcncn die Codonbesetzung variicrt wird, wobci mittcls einer Giitcfunktion die optimalc
`N Codonbesetzung auf diesen Optimierungspositionen ermittelt wird und ein oder mehrere Codons dieser optimalen Besetzung als
`Codons der optimierten Nucleotidsequenz festgelegt werden. Diese Sclnitte werden iteriert, wobei bei nachfolgenden Iterations—
`schritten die in vorangehenden Schritten festgelegten Codons der optimierten Nucleotidsequenz unverandert bleiben. Die Erfindung
`betrifft weiterhin eine Vorrichtung zur Durchfuhrung dieses Verfahrens.
`
`

`

`WO 2004/059556
`
`PCT/EP2003/014850
`
`Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines
`
`Proteins
`
`Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren
`
`Verwendung zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressions-
`
`system, zum Beispiel in einen Wirtsorganismus/eine Wirtszelle oder ein System fiir eine ln—
`
`vitro-Expression eingebracht werden, der bzw. die das entsprechende Protein exprimiert. Sie
`
`betrifft insbesondere Verfahren, bei denen eine synthetische Nucleotidsequenz fiir das jewei-
`
`lige Expressionssystcm, also zum Beispiel fiir einen Organismus/fur eine Wirtszelle, mit Hilfe
`
`eines Computers optimiert wird.
`
`Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Expri-
`
`mieren der dem Protein entsprechenden Gensequenz in heterologen Systemen, Z.B. Escheri-
`
`chia coli oder Hefe. Natiirlich vorkommende Gene sind fiir diesen Zweck allerdings h'aufig
`
`suboptimal. Da in einer DNS—Sequenz, die ein Protein exprimiert, jeweils ein Triplett von
`
`Basen (Codon) eine Aminoséiure exprimiert, ist es moglich, eine kfinstliche DNS-Sequenz zur
`
`Expression des gewfinschten Proteins zu synthetisieren und fiir das Klonen und Exprimieren
`
`des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, daB einer vorge-
`
`gebenen Aminoséiurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als
`
`Degeneriertheit des genetisehen Codes bezeichnet. Unterschiedliche Organismen verwenden
`
`Codons fiir die Expression einer Aminoséiure mit unterschiedlicher Héiufigkeit (sogenannte
`
`Codon usage). In der Regel gibt es in einem gegebenen Organismus ein Codon, das fiberwie-
`
`gend verwendet wird und ein oder mehrere Codons, welche mit vergleichsweise geringer
`
`Héiufigkeit von dem Organismus zur Expression der entsprechenden Aminoséiure verwendet
`
`werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet
`
`werden soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus
`
`angepafit sein. Eine weitere wichtige Grc‘jBe ist der GC-Gehalt (Gehalt der Basen Guanin und
`
`Cytosin in einer Sequenz). Weitere Faktoren, welche das Expressionsergebnis beeinfiussen
`
`konnen, sind DNS-Motive und Wiederholungen oder invers komplementéire Wiederholungen
`
`in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem gegebenen Organismus
`
`

`

`WO 2004/059556
`
`PCT/EP2003/014850
`
`_ 2 _
`
`bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwfinscht sein kennen.
`
`Beispiele sind cis-aktive Sequenzmotive wie SpleiBstellen oder Transkriptionsterminatoren.
`
`Das unbeabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren
`
`oder ganz unterdriicken oder sogar ffir den Wirtsorganismus cine toxische Wirkung haben.
`
`Sequenzwiederholungen komen zu einer geringeren genetischen Stabilitiit fiihren und er-
`
`schweren die Synthese repetitiver Abschnitte aufgrund der Gefahr von Fehlhybridisierungen.
`
`Invers komplementéire Wiederholungen kennen zur Bildung von unerwilnschten Sekund‘cir-
`
`strukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fiihren, welche
`
`die Transkription behindern und zu genetischer Instabilitfit ffihren, bzw. die Translationseffi-
`
`zienz negativ beeinflussen k6nnen.
`
`Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts opti-
`
`miert sein und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers
`
`komplementfiren Sequenzwiederholungen verbundenen Probleme weitgehend vermeiden.
`
`Diese Erfordernisse lassen sich in der Regel jedoch nicht gleichzeitig und in optimaler Weise
`
`erfiillen. Beispielsweise kann eine Optimierung auf die optimale Codon usage zu einer stark
`
`repetitiven Sequenz und einem erheblichen Abweichen von dem gewiinschten GC-Gehalt
`
`fiihren. Es gilt daher, einen méglichst optimalen KompromiB zwischen der Erfiillung der ver—
`
`schiedenen Erfordernisse herbeizufilihren. Die groBe Anzahl von Aminoséiuren in einem Pro-
`
`tein fiihrt jedoch zu einer kombinatorischen Explosion der Zahl der moglichen DNS-
`
`Sequenzen, welche — im Prinzip — das gewfinschte Protein exprimieren k6nnen. Aus diesem
`
`Grund wurden verschiedene computergestfitzte Verfahren zum Ermitteln einer optimalen Co-
`
`donsequenz vorgeschlagen.
`
`P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben
`
`Untersuchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter réiumlicher
`
`Strukturen einer DNS-Sequenz. Hierbei wurden alle moglichen degenerierten Nucleotidse-
`
`quenzen generiert. Eine Bewertung der Sequenzen hinsichtlich des Vorhandenseins von
`
`strukturellen Motiven und strukturbildender Abschnitte erfolgte durch einen Computer unter
`
`Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht offenbart.
`
`D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schléigt ein
`
`computergestfitztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 3 -
`
`V0n Abschnitten unterteilt wird, fiir die jeweils eine Gfitefunktion (Score) berechnet wird. In
`
`die Gutefunktion gehen u.a. die Codon usage, die Méglichkeit der Bildung von Haarnadel-
`
`strukturen und die Abweichungen von der gewfinschten Schmelztemperatur ein. Der Wen der
`
`Gfitefunktion fiir die Gesamtsequenz bestimmt sich aus der Summe der Werte der GUtefunk-
`
`tion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird
`
`durch ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpo-
`
`sitionen ausgewahlt, bei denen das Codon einer Ausgangssequenz durch ein statistisch aus-
`gewéhltes Hquivalentes Codon ersetzt wird. Gleichzeitig werden in einer Iteration auch die
`Grenzen der Abschnitte neu definiert. Auf diese Weise wird eine vollsté'mdige Gensequenz
`statistisch generiert. Ist der Wert der Giitefunktion fiir die Gesamtsequenz kleiner als die bis-
`herige Sequenz, wird die neue Sequenz beibehalten. Ist er gréBer, wird mit einer gewissen
`Wahrscheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine
`
`Boltzmann-Statistik kontrolliert wird. Wenn sich innerhalb einer vorbestimrnten Anzahl von
`
`Iterationen die Sequenz nicht findert, wird diese Sequenz als optimale Sequenz bewertet.
`
`Derartige statistische Verfahren haben den Nachteil, daB sic stark von der Wahl der Konver-
`
`genzkriterien abh‘angen.
`
`Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleo-
`
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosfiuresequenz des Pro-
`teins zur Verfiigung zu stellen, welches sich mit relativ geringem Speicherplatz und relativ
`
`geringer Rechenzeit auf einem Computer implementieren léiBt und welches insbesondere
`
`Nachteile der statistischen Verfahren vermeidet.
`
`ErfindungsgemfiB wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleo-
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminoséiurensequenz des
`
`Proteins gelost, welches die folgenden auf einem Computer durchgefiihrten Schritte umfaBt:
`
`-
`
`-
`
`Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden
`
`Aminoséiuren in der Proteinsequenz entsprechen, wobei n eine natfirliche Zahl und
`
`kleiner oder gleich N, der Zahl der Aminoséiuren der Proteinsequenz, ist,
`
`Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von
`
`m Codons, insbesondere von m aufeinanderfolgenden Codons, entsprechen, an denen
`
`

`

`WO 2004/059556
`
`PCT/EP2003/014850
`
`_4_
`
`die Besetzung mit einem Codon, bezogen auf die Testsequenz, optimiert werden soil,
`
`wobei m S n und m < N ist,
`
`—
`
`Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz,
`
`-
`
`-
`
`indem an einer oder mehreren der m Optimierungspositionen ein Codon der ersten
`
`Testsequenz durch ein anderes Codon ersetzt wird, welches dieselbe Aminoséiure ex—
`
`primiert,
`Bewerten jeder der Testsequenzen mit einer Giitefunktion und Ermitteln der hinsicht-
`
`lich der Gfitefunktion optimalen Testsequenz,
`
`Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Opti—
`
`mierungspositionen befinden, als Ergebniscodons, welche die Codons der optimierten
`Nucleotidsequenz an den Positionen bilden, die der Position der besagten p Codons in
`
`der Testsequenz entspricht, wobei p cine natfirliche Zahl und p s m ist,
`
`-
`
`Iterieren der vorangehenden Schritte, wobei in jedem Iterationsschritt die Testsequenz
`
`an den Positionen, welche Positionen von festgelegten Ergebniscodons in der opti-
`
`mierten Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthfilt und
`
`die Optimierungspositionen von Positionen von Ergebniscodons verschieden sind.
`
`GemfiB der bevorzugten Ausfiihrungsform der Erfindung werden die vorangehend genannten
`
`Schritte so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit
`
`Ergebniscodons besetzt worden sind.
`
`Erfindungsgeméfi wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen
`optimiefi. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in
`den nachfolgenden Iterationsschritten nicht mehr veré‘mdert und vielmehr bei den jeweiligen
`Optimierungsschritten als gegeben vorausgesetzt. Vorzugsweise ist die Anzahl der Ergeb-
`niscodons, welche auf diese Weise fiir die weiteren Iterationen festgelegt und als vorgegeben
`
`behandelt werden, kleiner als die Anzahl In der Optimierungspositionen, an denen in einem
`
`Iterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der Iterationsschritte,
`
`bei einer besonderen Ausfiihrungsform bei allen Iterationsschritten auBer dem ersten, ist wie-
`
`derum m kleiner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lo-
`
`kale Effekte auf den m variierten Positionen, sondem auch lfingerreichweitige Korrelationen,
`
`z.B. im Zusammenhang mit der Entstehung von RNA-Sekundfirstrukturen, zu berficksichti-
`
`gen.
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 5 -
`
`GeméiB den derzeit bevorzugten Ausfflhrungsformen liegt m im Bereich von 3 bis 20, vor-
`
`zugsweise im Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der
`Codons mit einem akzeptablen Aufwand an Speicher und Rechenzeit durchgefiihrt werden
`
`und gleichzeitig eine gute Optimierung der Sequenz erreicht werden.
`
`Gemafl einer Ausfiihrungsform muB m in den verschiedenen Iterationsschritten nicht gleich
`
`sein, sondern kann Vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es
`
`kann auch vorgesehen sein, in einem Iterationsschritt die Variation der Testsequenz fiir ver-
`
`schiedene Werte von m durchzufiihren und ggf. nur das Optimierungsergebnis fiir einen Wert
`
`von m zu berficksichtigen, um Einfliisse der GrdBe m auf das Optimierungsergebnis zu redu-
`zieren bzw. um zu fiberprfifen, ob eine VergréBerung der Zahl m zu einer Anderung des Er—
`
`gebnisses fuhrt.
`
`GeméiB der bevorzugten Ausffihrungsform sind die m Optimierungspositionen oder zumindest
`
`ein Teil davon zusammenhéingend und bilden somit ein Variationsfenster in der Testsequenz,
`
`auf welchem die Codonbesetzung variiert wird.
`
`Die Erfindung kann insbesondere vorsehen, daB in zwei oder mehr aufeinanderfolgenden Ite-
`
`rationsschritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert wer-
`
`den, identisch sind. Sind die m Positionen zusammenhé'mgend, bedeutet dies, daB das Variati-
`
`onsfenster bei einem Iterationsschritt mit dem Variationsfenster eines vorangehenden Iterati-
`
`onsschrittes fiberlappt.
`
`Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimie-
`
`rungspositionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen,
`
`welche als Teil der optimierten Nucleotidsequenz festgelegt worden sind.
`
`Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p
`
`Codons, die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p auf-
`
`einanderfolgende Codons sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergeb—
`
`niscodons folgen, welche als Teil der optimierten Nucleotidsequenz in einem frfiheren Schritt
`
`festgelegt worden sind.
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 6 _
`
`Die Erfindung kann vorsehen, daB die Nucleotidsequenz von einem ihrer Enden her optimiert
`
`wird. Insbesondere kann die Erfindung vorsehen, daB in jedem lterationssehritt die Linge der
`
`Testsequenz des vorherigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unter-
`schiedlichen lterationen verschieden sein kann, vergrbBert wird, bis 11 = N ist. Ist n = N und
`
`die Zahl derj enigen Positionen, die in der Testsequenz nicht mit Ergebniscodons besetzt sind,
`kleiner oder gleich dern Wert von m, der in den vorangehenden Iterationen verwendet wurde,
`
`oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen Itera-
`tionen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Itera-
`tionsschritt p = In gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten
`Codons ist. Die als optimal aufgefundene Besetzung der Optimierungspositionen wird dann
`
`fijr die Ergebniscodons an diesen Optimierungspositionen fibemommen. Dies gilt insbesonde-
`
`re dann, wenn fiir jede mégliche Kombination von Besetzungen der Optimierungspositionen
`
`eine Testsequenz generiert wird.
`
`Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesam-
`
`ten Sequenz in einem Iterationsschritt nicht oder nicht vollstéindig den Bereich einer Testse-
`
`quenz in einem vorherigen Iterationsschritt umfaBt. Beispielsweise kann die Testsequenz
`selbst ein Fenster auf der Gesamtsequenz, z.B. ein Fenster fester Léinge, bilden, das im Laufe
`
`der verschiedenen Iterationen auf der Gesamtsequenz verschoben wird.
`
`GemiiB einer bevorzugten Ausfilhrungsforrn wird die Testsequenz nach jedem Schritt urn p
`
`Codons verléingert, wobei insbesondere m fiir alle Iterationsschritte konstant sein kann.
`
`Analog zu der vorangehend beschriebenen Ausffihrungsfonn der Erfindung kann auch vorge-
`
`sehen sein, daB die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird.
`
`Dies kann z.B. in der Art geschehen, daB eine anftingliche Testsequenz, welche einem Bereich
`
`im Inneren der zu optimierenden Nucleptidsequenz entspricht, zunéichst nach einer Seite suk-
`
`zessiv vergréBert wird, bis das Ende der zu optimierenden Nucleotidsequenz oder ein anderer
`
`vorgegebener Punkt der zu optimierenden Nucleotidsequenz erreicht ist, und dann die Testse-
`
`quenz zu der anderen Seite hin vergrbfiert wird, bis dort das andere Ende der zu optimieren-
`den Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleo-
`
`tidsequenz erreicht ist.
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 7 -
`
`Die Erfindung kann auch vorsehen, daB die Testsequenzen in einem Iterationsschritt aus einer
`optimierten oder anderweitig festgelegten Teilsequenz der L‘ange q und zwei auf beiden Sei-
`ten daran anschlieBenden Variationsbereichen mit einer Lfinge VOH m1 bZW- m2 COdODS be—
`
`steht, wobei q+ml+m2 = n gilt. Die Besetzung der Variationsbereiche kann fiir beide Variati-
`onsbereiche gemeinsam optimiert werden, indem die Codons auf den m] und m2 Platzen
`gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem solchen Fall in
`jedem Iterationsschritt p1 und p2 Codons in dem ersten und zweiten Variationsbereich festge-
`legt, welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch
`vorgesehen sein, daB die beiden Variationsbereiche unabhangig voneinander variiert und op—
`timiert werden. Beispielsweise kann vorgesehen sein, daB die Besetzung nur in einem der
`
`beiden Variationsbereiche variiert wird und nur in dem einen Bereich Codons festgelegt wer—
`
`den, bevor die Variation und Optimierung in den zweiten Bereich stattfindet. In diesem Fall
`
`werden die p1 festgelegten Codons in dem ersten Bereich bei der Optimierung des zweiten
`
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls gerin-
`
`ge Korrelationen zwischen den beiden Bereichen zu erwarten sind.
`
`GeméiB dieser Ausfiihrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem
`
`Punkt oder einem Bereich im lnneren der Sequenz ausgehend optimiert wird.
`
`Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der
`
`Testsequenz auf der Gesamtsequenz den Bereich der Testsequenzen in allen vorangchenden
`
`Iterationsschritten umfaBt und der Bereich einer Testsequenz in zumindest einigen der veran-
`
`gehenden lterationsschritte jeweils im lnneren oder jeweils am Rand des Bereichs der Testse—
`
`quenz in dem aktuellen Iterationsschritt liegt.
`
`Die Erfindung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen
`
`unabhangig optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der
`
`verschiedenen optimierten Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest
`
`ein Teil der jeweiligen Ergebniscodons von zwei oder mehr optimierten Teilbereichen als
`
`Bestandteil einer Testsequenz in einer Oder mehreren Iterationen verwendet wird.
`
`GeméB einer bevorzugten Ausfiihrungsform der Erfindung ist vorgesehen, daB in einem Ite-
`
`rationsschritt Testsequenzen mit allen méglichen Codonbesetzungen fiir die m Optimierungs-
`
`positionen aus der ersten Testsequenz generiert werden und die optimale Testsequenz unter
`
`

`

`WO 2004/059556
`
`PCT/EP2003/014850
`
`-3-
`
`allen méglichen Testsequenzen, bei denen an einer oder mehreren der m OptimierungSposi-
`tionen ein Codon durch ein anderes Codon, welches dieselbe Aminoséiure exprimiert, ersetzt
`
`wurde, ermittelt wird.
`
`GemfiB einer Ausfiihrungsform der Erfindung ist die zum Bewerten der Testsequenzen ver-
`
`wendete Gfitefunktion bei allen oder zumindcst der Mehrzahl der Iterationen gleich. Die Er-
`
`findung kann jedoch auch vorsehen, unterschiedliche Gutefunktionen in unterschiedlichen
`Iterationen, zum Beispiel in Abhfingigkeit von der Léinge der Testsequenzen, zu verwenden.
`
`Das erfindungsgemfiBe Verfahren kann insbesondere die folgenden Schritte umfassen:
`
`-
`
`-
`
`—
`
`Bewerten jeder Testsequenz mit einer Gfitefunktion,
`
`Ermitteln eines Extremwertes innerhalb der Werte der Gfitefunktion fiir alle in einem
`
`Iterationsschritt generierten Teilsequenzen,
`Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichts—
`funktion entspricht, als Ergebniscodons an den entsprechenden Positionen, wobei p ei—
`
`ne natfirliche Zahl und p S m ist.
`
`Die Gfitefunktion kann so definiert sein, daB die Sequenz entweder umso néiher an dem Opti-
`
`mum liegt, je gréBer der Wert der Gutefunktion ist, Oder umso n‘aher an dem Optimum liegt,
`je kleiner th Wert ist. Entsprechend wird man bei dem Schritt des Ermittelns des Extrem—
`wefies das Minimum oder das Maximum der Giltefunktion unter den generierten Codonse-
`
`quenzen ermitteln.
`
`Die Erfindung kann vorsehen, daB die Giitefunktion eines oder mehrere der folgenden Krite-
`
`rien berficksichtigt;
`Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive
`
`Sequenzen, Sekundéirstrukturen, inverse Repeats.
`
`Die Erfindung kann insbesondere vorsehen, daB die Gutefunktion eines Oder mehrere der fol-
`
`genden Kriterien berficksichtigt:
`-
`cis-aktive Sequenz—Motive,
`
`insbesondere DNS/Protein—Interaktionsbindestellen und
`
`RNS/Protein-Interaktionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktor-
`
`bindestellen, Transkriptionsterminatorenbindestellen, Polyadenylierungssignale, En-
`
`donucleaseerkennungssequenzen,
`
`immunomodulatorische DNS-Motive, Ribosomen-
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 9 _
`
`bindestellen, ErkennungssequeHZen fiir rekombinationsaktive Enzyme, Erkennungsse-
`
`RNS—
`fiir DNS—modifizierende Enzyme, Erkennungssequenzen fur
`quenzen
`modifizierende Enzyme, Sequenzmotive, die in einem vorgegebenen Organismus un—
`
`terrepréisentiert sind.
`
`Die Erfindung kann auch vorsehen, daB die Gfitefunktion eines oder mehrere der folgenden
`
`Kriterien berficksichtigt:
`
`-
`
`-
`
`AusschluB oder weitgehender AusschluB von invers komplementfiren Sequenzidenti-
`
`téiten von mehr als 20 Nukleotiden zum Transkriptom eines vorgegebenen Organis-
`
`mus,
`
`AusschluB oder weitgehender AusschluB von Homologiebereichen von mehr als 1.000
`
`Basenpaaren, bevorzugt 500 Basenpaaren, Starker bevorzugt 100 Basenpaaren zu einer
`
`vorgegebenen DNS-Sequenz, zum Beispiel zu dem Genom eines vorgegebenen Orga-
`
`nismus oder zu der DNS—Sequenz eines vorgegebenen Vektorkonstrukts.
`
`Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten
`
`Mechanismus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exak-
`
`ter ldentitfit zu einer anderen RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten
`
`Kriterium soll verhindert werden, daB eine Rekombination, das heiBt ein Einbau der Sequenz
`
`in das Erbgut des Organismus, oder eine Mobilisierung von DNS-Sequenzen durch Rekombi-
`
`nation mit anderen Vektoren stattfindet. Beide Kriterien kéinnen als absolute AusschluBkrite-
`
`rien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfiillt
`
`sind, werden nicht berficksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer
`
`im Zusammenhang mit Sequenzmotiven erléiutert wird, vorsehen, daB diesen Kriterien ein
`
`Gewicht zugeordnet ist, das betragsméifiig grb‘fier ist als der gréBte Beitrag von Kriterien zu
`
`der Gfitefunktion, welche keine AusschluBkriterien sind.
`
`Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium
`vorsehen, daB keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit
`
`und/oder 99 % Identitéit zu einer vorgegebenen DNS-Sequenz, zum Beispiel zu der entSpre-
`
`chenden Genomsequenz des vorgegebenen Organismus oder zu der DNS-Sequenz eines vor-
`
`gegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium kann entweder als absolutes
`
`AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr groBen Beitrag zu
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`_ 10 _
`
`der Gfitefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht Ausschlufikriterien
`
`sind, fiberwiegt.
`
`Insbesondere kann vorgesehen scin, daB die Gfitefunktion eine Funktion von verschiedenen
`
`Einzeltermen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus
`
`der folgenden Liste von Kriterien bewerten:
`Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, DNS — Motive, repetitive Se-
`
`quenzen, Sekund‘arstrukturen, inverse Repeats.
`
`Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Ein-
`
`zeltermen oder eine rationale Funktion von Einzeltermen seinDie genannten Kriterien miis-
`
`sen nicht notwendigerweise vollsténdig in der Gewichtsfunktion berficksichtigt werden. Es
`
`kann auch nur ein Teil der Kriterien in der Gewichtsfunktion verwendet werden.
`
`Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsge-
`
`wichte genannt.
`
`Die Erfindung kann vorschen, daB das Kriteriumsgewicht betreffend die Codon Usage (CU
`
`Score) proportional zu 2i fci/fcmaxi ist, wobei
`
`-
`
`fci die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons fur den betref-
`
`fenden Organismus zur Expression der Aminoséiure an der Stelle i der Aminos‘auren-
`
`sequenz des zu exprimierenden Proteins ist und
`
`fcmaxi die Héiufigkeit des Codons ist, welches in dem entsprechenden Organismus am
`
`haufigsten die Aminosfiure an der Stelle i exprimiert.
`
`Das MaB fci/fcmaxi ist als ,,Re1ative Adaptiveness“ bekannt (vgl. P. M. Sharp, W. H. Li,
`
`Nucleic Acids Research 15 (3) (1987), 1281 bis 1295).
`
`Das lokale Gewicht des am h'aufigsten vorkommenden Codons wird dabei, unabhangig von
`
`der absoluten H'aufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum
`
`Beispiel 1, gesetzt. Damit wird vennieden, daB die Positionen, an denen nur wenige Codons
`zur Auswahl stehen, starker zu dem Gesamtgewicht beitragen als diejenigen, an denen eine
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 11 _
`
`groBere Anzahl von Codons zur Expression der Aminoséiure zur Auswahl stehen. Der Index i
`kann fiber die gesamten n Codons der Testsequenz oder einen Teil davon laufen. Insbesondere
`kann in einer Ausfiihrungsform vorgesehen sein, daB i nur fiber die m Codons der Optimie-
`
`rungspositionen lfiuft.
`
`Die Erflndung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codonusage nur ffir
`
`die m Ordnungspositionen verwendet wird.
`
`Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous
`
`Codon Usage; vgl, P. M. Sharp, W. H. Li, a.a.O.) verwendet werden. Die RSCU fiir eine Co-
`
`donposition ist definiert durch
`
`RSCUCi = fcidi/(Zc fci)
`
`definiert, wobei die Summe im Nenner fiber alle Codons léiuft, welche die Aminoséiure an der
`
`Stelle i exprimieren und wobei di die Zahl der Codons angibt, welche die besagte Aminoséiure
`
`exprimieren. Um ein Kriteriengewicht auf der Grundlage der RSCU zu definieren, kann vor-
`
`gesehen sein, daB die RSCU fiir die jeweilige Testsequenz fiber alle Codons der Testsequenz
`oder einen Teil davon, insbesondere fiber die m-Codons der Optimierungspositionen, sum-
`
`miert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten Kriteriums-
`
`gewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der De-
`generiertheit, di, gewichtet wird, so daB solche Positionen, an denen mehr Codons zur Aus-
`wahl stehen, stéirker in das Kriteriumsgewicht eingehen als solche Positionen, an denen nur
`
`wenige Codons oder sogar nur ein einziges Codon zur Auswahl stehen.
`
`Bei den vorangehend beschriebenen Kriteriumsgewichten ffir die Codon-Usage wurde das
`
`arithmetische Mittel fiber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`
`Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage pro-
`
`portional zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen
`
`RSCU ist, so daB also gilt
`
`CUScore = Kari RSCUQU"
`
`

`

`WO 2004/059556
`
`PCT/EP2003/014850
`
`-12-
`
`oder
`
`CUScore = K (Hifci/fcmaxi)l/L
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, fiber welche das
`Produkt gebildet wird. Auch hier kann das Produkt wieder fiber die gesamte Testsequenz oder
`einen Teil, insbesondere fiber die m Optimierungspositionen, gebildet werden.
`\
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nu-
`
`kleotidsequenz zur Expression eines Proteins auf der Grundlage der Aminoséiuresequenz des
`Proteins zur Verfiigung, welches die folgenden auf einem Computer durchgefiihrten Schritte
`
`umfaBt:
`
`-
`
`-
`
`-
`
`Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinander—
`
`folgende Aminoséiuren in der Proteinsequenz entsprechen, wobei n cine natiirlich Zahl
`kleiner oder gleich N, der Zahl der Aminoséiuren der Proteinsequenz, ist,
`
`Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer GUtefunkti-
`
`on, welche ein geometrisches oder arithmetisches Mittel der Relative Adaptiveness
`oder der RSCU fiber eine Anzahl von L Codonpositionen enthéilt, wobei L kleiner oder
`
`gleich N ist,
`Generierung einer oder mehrerer neuer Testsequenzen in Abh‘cingigkeit von dem Er-
`
`gebnis der besagten Bewertung.
`
`Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschrie-
`
`benen Weise derart erfolgen, daB die neuen Testsequenzen eine bestimmte Anzahl aufgrund
`der vorangehenden Iterationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, daB
`eine bestimmte Testsequenz mit einer bestimmten Wahrscheinlichkeit, die von dem Wert der
`
`Gfitefunktion abhéingt, als Grundlage fiir weitere Iterationen, insbesondere die weitere Erzeu-
`gung von Testsequenzen, verwendet wird, wie dies bei Monte-Carlo-Verfahren der Fall ist.
`
`Wéihrend die Qualitéit eines Codons bei den obengenannten Verfahren dutch die Nutzungs—
`
`hfiufigkeit im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus definiert
`wird, kann die Gfite eines bestimmten Codons alternativ auch durch die biophysikalischen
`
`

`

`W0 2004/059556
`
`PCT/EP2003/014850
`
`- 13 _
`
`Eigenschaften des Codons selbst beschrieben werden. So ist zum Beispiel bekannt, daB Co-
`dons mit einer mittleren Codon—Anticodon—Bindungsenergie besonders effizient translatiert
`
`werden. Als MaB fijr die translatorische Effizienz einer Testsequenz kann daher zum Beispiel
`
`der P2-Index verwendet werden, welcher das

Accessing this document will incur an additional charge of $.

After purchase, you can access this document again without charge.

Accept $ Charge

This document could not be displayed.

We could not find this document within its docket. Please go back to the docket page and check the link. If that does not work, go back to the docket and refresh it to pull the newest information.

Your account does not support viewing this document.

You need a Paid Account to view this document. Click here to change your account type.

Your account does not support viewing this document.

Set your membership status to view this document.

With a Docket Alarm membership, you'll get a whole lot more, including:

  • Up-to-date information for this case.
  • Email alerts whenever there is an update.
  • Full text search for other cases.
  • Get email alerts whenever a new case matches your search.

Become a Member

One Moment Please

The filing “” is large (MB) and is being downloaded.

Please refresh this page in a few minutes to see if the filing has been downloaded. The filing will also be emailed to you when the download completes.

Your document is on its way!

If you do not receive the document in five minutes, contact support at support@docketalarm.com.

Sealed Document

We are unable to display this document, it may be under a court ordered seal.

If you have proper credentials to access the file, you may proceed directly to the court's system using your government issued username and password.


Access Government Site

We are redirecting you
to a mobile optimized page.

We are unable to display this document.

PTO Denying Access

Refresh this Document
Go to the Docket