`PATENTWESENS(PCT) VEROFFENTLICHTE INTERNATIONALE ANMELDUNG
`
`(19) Weltorganisationfiir geistiges Eigentum
`Internationales Biiro
`
`(43) Internationales Veréffentlichungsdatum
`15. Juli 2004 (15.07.2004)
`
` (10) Internationale Veréffentlichungsnummer
`
`WO 2004/059556 A2
`
`(51) Internationale Patentklassifikation’:
`
`GO6F 19/00
`
`(21) Internationales Aklenzeichen:
`
`PCTYEP2003/014850
`
`(22) Internationales Anmeldedatum:
`23. Dezember 2003 (23.12.2003)
`
`(25) Einreichungssprache:
`
`(26) Veréffentlichungssprache:
`
`Deutsch
`
`Deutsch
`
`(30) Angaben zur Prioritat:
`102 60 805.9
`23. Dezember 2002 (23.12.2002)
`
`DE
`
`(71) Anmelder(fir alle Bestimmungsstaaten mit Ausnahme von
`US): GENEART GMBH[DE/DE]; Josef-Engert-Strasse
`9, 93053 Regensburg (DE).
`
`(72) Erfinder; und
`fiir US): RAAB, David
`(nur
`(75) Erfinder/Anmelder
`[DE/DE]; Gottfried Kélwel Platz 1, 93176 Beratshausen
`(DE). GRAF, Marcus [DE/DE]; Taubengasschen 1, 93047
`Regensburg (DE). NOTKA,Frank [DE/DE]; Franziskan-
`erplatz 19, 93059 Regensburg (DE). WAGNER, Ralf
`[DE/DE]; Roter Brach Weg 29, 93049 Regensburg (DE).
`
`(74) Anwilte: SCHOHE,Stefan usw.; Boehmert & Boehmert,
`Hollerallee 32, 28209 Bremen (DE).
`
`(81) Bestimmungsstaaten (national): AE, AG, AL, AM,AT,
`AU, AZ, BA, BB, BG, BR, BY, BZ, CA, CH, CN, CO, CR,
`CU, CZ, DE, DK, DM, DZ, EC, EB, ES, FI, GB, GD, GE,
`GH, GM, HR, HU,ID,IL, IN, IS, JP, KE, KG, KP, KR,
`KZ, LC, LK, LR, LS, LT, LU, LV, MA, MD, MG, MK,
`MN, MW, MX, MZ, NI, NO, NZ, OM, PG, PH, PL, PT,
`RO, RU, SC, SD, SE, SG, SK, SL, SY, TJ, TM, TN, TR,
`TT, TZ, UA, UG, US, UZ, VC, VN, YU, ZA, ZM, ZW.
`
`(84) Bestimmungsstaaten (regional): ARIPO Patent (BW, GH,
`GM, KE, LS, MW, MZ, SD, SL, SZ, TZ, UG, ZM, ZW),
`eurasisches Patent (AM, AZ, BY, KG, KZ, MD, RU,TJ,
`‘TM), europdisches Patent (Al, BE, BG, CH, CY, CZ, DE,
`DK, EE, ES, FI, FR, GB, GR, HU, IE, IT, LU, MC, NL,
`PT, RO, SE, SI, SK, TR), OAPI Patent (BF, BJ, CF, CG,
`CI, CM, GA, GN, GQ, GW, ML, MR, NE, SN, TD, TG).
`
`Veroffentlicht:
`ohneinternationalen Recherchenbericht und erneut zu ver-
`6ffentlichen nach Erhalt des Berichts
`
`Zur Erkldrung der Zweibuchstaben-Codes und der anderen Ab-
`kiirzungen wird auf die Erklarungen ("Guidance Notes on Co-
`des and Abbreviations") am Anfang jeder reguldren Ausgabe der
`PCT-Gazette verwiesen.
`
`(54) Title: METHOD AND DEVICE FOR OPTIMIZING A NUCLEOTIDE SEQUENCE POR THE PURPOSE OF EXPRESSION
`OF A PROTEIN
`
`(54) Bezeichnung: VERFAREN UND VORRICHTUNG ZUM OPTIMIEREN EINER NUCLEOTIDSEQUENZ ZUR EXPRES-
`SION EINES PROTEINS
`
`(57) Abstract: The invention relates to a method for optimizing a nucleotide sequence for the purpose of expression of a protein on
`the basis of the amino acid sequenceofsaid protein. According to the inventive method, atest sequence with m optimization positions
`is determined for a defined region, in which positions the codon usage is varied. The optimum codon usage on said optimization
`positions is determined by means of a power function and one or more codonsof said optimum usage are determined as the codons
`of the optimized nucleotide sequence. These steps are iterated, while the codons of the optimized nucleotide sequence determined
`in the preceding steps remain unchanged during the subsequent iteration steps. The invention further relates to a device for carrying
`out said method.
`
`(57) Zusammenfassung: Die Erfindungbetrifft ein Verfahren zum Optimieren einer Nucleotidsequenz zur Expression eines Pro-
`& teins auf der Grundlage der Aminosiurensequenz des Proteins, bei welchem fiir einen beslimmten Bereich eine Testsequenz mit m
`& Optimicrungspositionenfestgelegt wird, auf denen dic Codonbesctzungvariiert wird, wobci mittels ciner Giitefunktion dic optimale
`Codonbesetzung auf diesen Optimierungspositionen ermittelt wird und ein oder mehrere Codons dieser optimalen Besetzung als
`Codons der optimierten Nucleotidsequenz festgelegt werden. Diese Schritte werdeniteriert, wobei bei nachfolgenden Iterations-
`schritten die in vorangehenden Schritten festgelegten Codons der optimierten Nucleotidsequenz unverindert bleiben. Die Erfindung
`betrifft weiterhin eine Vorrichtung zur Durchfiihrung dieses Verfahrens.
`
`
`
`4/059556A2IMMKIINAITAUNACNTTTUETACT
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines
`
`Proteins
`
`Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren
`
`Verwendung zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressions-
`
`system, zum Beispiel in einen Wirtsorganismus/eine Wirtszelle oder cin System fiir eine In-
`
`vitro-Expression eingebracht werden, der bzw. die das entsprechende Protein exprimiert. Sie
`
`betrifft insbesondere Verfahren, bei denen eine synthetische Nucleotidsequenz fiir das jewei-
`
`lige Expressionssystem, also zum Beispiel fiir einen Organismus/fiir eine Wirtszelle, mit Hilfe
`
`eines Computers optimiert wird.
`
`Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Expri-
`
`mieren der dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escheri-
`
`chia coli oder Hefe. Natiirlich vorkommende Gene sind fiir diesen Zweck allerdings haufig
`
`suboptimal. Da in einer DNS-Sequenz, die ein Protein exprimiert, jeweils ein Triplett von
`
`Basen (Codon) eine Aminosaure exprimiert, ist es méglich, eine kiinstliche DNS-Sequenz zur
`
`Expression des gewiinschten Proteins zu synthetisieren und fiir das Klonen und Exprimieren
`
`des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, da} einer vorge-
`
`gebenen Aminosdurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als
`
`Degeneriertheit des genetischen Codes bezeichnet. Unterschiedliche Organismen verwenden
`
`Codons fiir die Expression einer Aminoséure mit unterschiedlicher Haufigkeit (sogenannte
`
`Codonusage). In der Regel gibt es in einem gegebenen Organismus ein Codon,das tiberwie-
`
`gend verwendet wird und ein oder mehrere Codons, welche mit vergleichsweise geringer
`
`Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosdure verwendet
`
`werden. Dadie synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet
`
`werdensoll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus
`
`angepabt sein. Eine weitere wichtige GréBe ist der GC-Gehalt (Gehalt der Basen Guanin und
`
`Cytosin in ciner Sequenz). Weitere Faktoren, welche das Expressionsergebnis beeinflussen
`
`kénnen, sind DNS-Motive und Wiederholungen oder invers komplementiére Wiederholungen
`
`in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem gegebenen Organismus
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-2-
`
`bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwiinscht sein kénnen.
`
`Beispiele sind cis-aktive Sequenzmotive wie Spleifstellen oder Transkriptionsterminatoren.
`
`Das unbeabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren
`
`oder ganz unterdriicken oder sogar fiir den Wirtsorganismus eine toxische Wirkung haben.
`
`Sequenzwiederholungen kénnen zu einer geringeren genetischen Stabilitét fiihren und er-
`
`schweren die Synthese repetitiver Abschnitte aufgrund der Gefahr von Fehlhybridisierungen.
`
`Invers komplementare Wiederholungen kénnen zur Bildung von unerwiinschten Sekundar-
`
`strukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fiihren, welche
`
`die Transkription behindern und zu genetischer Instabilitat filhren, bzw. die Translationseffi-
`
`zienz negativ beeinflussen kénnen.
`
`Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts opti-
`
`miert sein und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers
`
`komplementaéren Sequenzwiederholungen verbundenen Probleme weitgehend vermeiden.
`
`Diese Erfordernisse lassen sich in der Regel jedoch nicht gleichzeitig und in optimaler Weise
`
`erflillen. Beispielsweise kann eine Optimierung auf die optimale Codon usage zu einer stark
`
`repetitiven Sequenz und einem erheblichen Abweichen von dem gewtinschten GC-Gehalt
`
`filhren. Es gilt daher, einen mdglichst optimalen Kompromifs zwischen der Erftillung der ver-
`
`schiedenen Erfordernisse herbeizufiihren. Die groBe Anzahl von Aminosduren in einem Pro-
`
`tein fiihrt jedoch zu einer kombinatorischen Explosion der Zahl der méglichen DNS-
`
`Sequenzen, welche — im Prinzip — das gewtinschte Protein exprimieren kénnen. Aus diesem
`
`Grund wurden verschiedene computergestiitzte Verfahren zum Ermitteln einer optimalen Co-
`
`donsequenz vorgeschlagen.
`
`P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben
`
`Untersuchungen zur Rolle der Wahl! der Codons bei der Bildung bestimmter rdéumlicher
`
`Strukturen einer DNS-Sequenz. Hierbei wurden alle méglichen degenerierten Nucleotidse-
`
`quenzen generiert. Eine Bewertung der Sequenzen hinsichtlich des Vorhandenseins von
`
`strukturellen Motiven und strukturbildender Abschnitte erfolgte durch einen Computer unter
`
`Verwendung einer Wissensbasis. Die Verwendung einer Giitefunktion ist nicht offenbart.
`
`D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schlagt ein
`computergesttitztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-3-
`
`von Abschnitten unterteilt wird, fiir die jeweils eine Giitefunktion (Score) berechnet wird. In
`die Giitefunktion gehen u.a. die Codon usage, die Méglichkeit der Bildung von Haarnadel-
`strukturen und die Abweichungen von der gewiinschten Schmelztemperatur ein. Der Wert der
`Giitefunktion fir die Gesamtsequenz bestimmtsich aus der Summe der Werte der Giitefunk-
`tion fir die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird
`durch ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werdenstatistisch Codonpo-
`sitionen ausgewdhlt, bei denen das Codon einer Ausgangssequenz durch ein statistisch aus-
`gewahltes dquivalentes Codon ersetzt wird. Gleichzeitig werden in einer Iteration auch die
`Grenzen der Abschnitte neu definiert. Auf diese Weise wird eine vollstindige Gensequenz
`statistisch generiert. Ist der Wert der Giitefunktion fiir die Gesamtsequenz kleiner als die bis-
`herige Sequenz, wird die neue Sequenz beibehalten.Ist er gréRer, wird mit einer gewissen
`Wahrscheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine
`Boltzmann-Statistik kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von
`Iterationen die Sequenz nicht andert, wird diese Sequenzals optimale Sequenz bewertet.
`
`Derartige statistische Verfahren haben den Nachteil, daft sic stark von der Wahl der Konver-
`genzkriterien abhangen.
`
`Es ist die Aufgabe der Erfindung,ein alternatives Verfahren zum Optimieren einer Nucleo-
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Pro-
`teins zur Verftigung zu stellen, welches sich mit relativ geringem Speicherplatz und relativ
`geringer Rechenzeit auf einem Computer implementieren 148t und welches insbesondere
`Nachteile der statistischen Verfahren vermeidet.
`
`Erfindungsgem&8 wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleo-
`tidsequenz zur Expression eines Proteins auf der Grundlage der Aminosdurensequenz des
`Proteins geldst, welches die folgenden auf einem Computer durchgefiihrten Schritte umfaBt:
`-
`Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden
`Aminosauren in der Proteinsequenz entsprechen, wobei n eine natiirliche Zahl und
`kleiner oder gleich N, der Zahl der Aminosauren der Proteinsequenz,ist,
`Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von
`m Codons, insbesondere von m aufeinanderfolgenden Codons, entsprechen, an denen
`
`-
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-4-
`
`-
`
`-
`
`-
`
`-
`
`die Besetzung mit einem Codon, bezogen auf die Testsequenz, optimiert werden soll,
`wobei m <n und m <N ist,
`Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz,
`indem an einer oder mehreren der m Optimierungspositionen ein Codon der ersten
`Testsequenz durch ein anderes Codonersetzt wird, welches dieselbe Aminosaure ex-
`primiert,
`Bewerten jeder der Testsequenzen mit einer Gitefunktion und Ermitteln der hinsicht-
`lich der Giitefunktion optimalen Testsequenz,
`Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Opti-
`mierungspositionen befinden, als Ergebniscodons, welche die Codons der optimierten
`Nucleotidsequenz an den Positionen bilden, die der Position der besagten p Codonsin
`der Testsequenz entspricht, wobeip eine natiirliche Zahl und p < m ist,
`Iterieren der vorangehendenSchritte, wobei in jedem Iterationsschritt die Testsequenz
`an den Positionen, welche Positionen von festgelegten Ergebniscodons in der opti-
`mierten Nucleotidsequenz entsprechen, das entsprechende Ergebniscodon enthdlt und
`die Optimierungspositionen von Positionen von Ergebniscodons verschiedensind.
`
`Gemder bevorzugten Ausfiihrungsform der Erfindung werden die vorangehend genannten
`Schritte so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit
`Ergebniscodonsbesetzt worden sind.
`
`ErfindungsgemaB wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen
`optimiert. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werdenin
`den nachfolgenden Iterationsschritten nicht mehr verandert und vielmehr bei den jeweiligen
`Optimierungsschritten als gegeben vorausgesctzt. Vorzugsweise ist die Anzahl der Ergeb-
`niscodons, welche auf diese Weise fiir die weiteren Iterationen festgelegt und als vorgegeben
`behandelt werden, kleiner als die Anzahl m der Optimierungspositionen, an denen in einem
`Iterationsschritt die Codons variiert werden. Zumindest in der MehrzahlderIterationsschritte,
`bei einer besonderen Ausfihrungsform beiallen Iterationsschritten auBer dem ersten, ist wie-
`derum m kleiner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lo-
`kale Effekte auf den m variierten Positionen, sondern auch langerreichweitige Korrelationen,
`2.B. im Zusammenhang mit der Entstehung von RNA-Sekundarstrukturen, zu berticksichti-
`
`gen.
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-5-
`
`Gemaf den derzeit bevorzugten Ausfithrungsformen liegt m im Bereich von 3 bis 20, vor-
`zugsweise im Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der
`Codons mit einem akzeptablen Aufwand an Speicher und Rechenzeit durchgefihrt werden
`und gleichzeitig eine gute Optimierung der Sequenzerreicht werden.
`
`Gema8 einer Ausfiihrungsform mu m in den verschiedenen Iterationsschritten nicht gleich
`sein, sondern kann vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es
`kann auch vorgesehensein, in einem Iterationsschritt die Variation der Testsequenz ftir ver-
`schiedene Werte von m durchzuftihren und ggf. nur das Optimierungsergebnisfiir einen Wert
`von m zu beriicksichtigen, um Einfliisse der Gro8e m auf das Optimierungsergebnis zu redu-
`zieren bzw. um zu tiberpriifen, ob eine VergréBerung der Zahl m zu einer Anderung des Er-
`
`gebnissesfiihrt.
`
`Gemaf der bevorzugten Ausfiihrungsform sind die m Optimierungspositionen oder zumindest
`ein Teil davon zusammenhangend undbilden somit ein Variationsfenster in der Testsequenz,
`
`auf welchem die Codonbesetzung variiert wird.
`
`Die Erfindung kann insbesondere vorsehen, da in zwei oder mehr aufeinanderfolgenden Ite-
`rationsschritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert wer-
`den, identisch sind. Sind die m Positionen zusammenhangend, bedeutet dies, daB das Variati-
`onsfenster bei einem Iterationsschritt mit dem Variationsfenster eines vorangehendenIterati-
`
`onsschrittes tiberlappt.
`
`Die Erfindung kann vorsehen, da8 in einem oder mehrerenIterationsschritten die m Optimie-
`rungspositionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen,
`welche als Teil der optimierten Nucleotidsequenz festgelegt worden sind.
`
`Die Erfindung kann ebenfalls vorsehen, dain einem oder mehreren Iterationsschritten die p
`Codons, die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p auf-
`einanderfolgende Codons sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergeb-
`niscodonsfolgen, welche als Teil der optimierten Nucleotidsequenz in einem friiheren Schritt
`festgelegt worden sind.
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-6-
`
`Die Erfindung kann vorsehen, dai die Nucleotidsequenz von einem ihrer Enden her optimiert
`wird. Insbesondere kann die Erfindung vorsehen, daf in jedem Iterationsschritt die Lange der
`Testsequenz des vorherigenIterationsschritts um eine bestimmte Anzahl Codons,die in unter-
`schiedlichen Iterationen verschieden sein kann, vergréBert wird, bis n = N ist. Ist n = N und
`die Zahl derjenigen Positionen,die in der Testsequenz nicht mit Ergebniscodonsbesetzt sind,
`kleiner oder gleich dem Wert von m,der in den vorangehenden Iterationen verwendet wurde,
`oderliegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen Itera-
`tionen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechendenItera-
`tionsschritt p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten
`Codonsist. Die als optimal aufgefundene Besetzung der Optimierungspositionen wird dann
`fiir die Ergebniscodons an diesen Optimierungspositionen tibernommen. Dies gilt insbesonde-
`re dann, wenn fiir jede mdgliche Kombination von Besetzungen der Optimierungspositionen
`eine Testsequenz generiert wird.
`
`Es kann jedoch auch vorgesehensein, daB der Bereich der Testsequenz innerhalb der gesam-
`ten Sequenz in einem Iterationsschritt nicht oder nicht volistandig den Bereich einer Testse-
`quenz in einem vorherigen Iterationsschritt umfalt. Beispielsweise kann die Testsequenz
`selbst ein Fenster auf der Gesamtsequenz, z.B. cin Fenster fester Lange, bilden, das im Laufe
`der verschiedenen Iterationen auf der Gesamtsequenz verschoben wird.
`
`Gemi8 einer bevorzugten Ausfihrungsform wird die Testsequenz nach jedem Schritt um p
`Codonsverlaingert, wobei insbesonderemfir alle Iterationsschritte konstant sein kann.
`
`Analog zu der vorangehend beschriebenen Ausfithrungsform der Erfindung kann auch vorge-
`sehen sein, daB die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird.
`Dies kann z.B. in der Art geschehen, daf eine anfangliche Testsequenz, welche einem Bereich
`im Inneren der zu optimierenden Nucleotidsequenz entspricht, zuniachst nach einer Seite suk-
`zessiv vergroBert wird, bis das Ende der zu optimierenden Nucleotidsequenz oder ein anderer
`vorgegebener Punktder zu optimierenden Nucleotidsequenz erreicht ist, und dann die Testse-
`quenz zu der anderen Seite hin vergréBert wird, bis dort das andere Ende der zu optimieren-
`den Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleo-
`
`tidsequenz erreichtist.
`
`
`
`WO2004/059556
`
`PCT/EP2003/014850
`
`-7-
`
`Die Erfindung kann auch vorsehen, da die Testsequenzen in einem Iterationsschritt aus einer
`optimierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Sei-
`ten daran anschlieBenden Variationsbereichen mit einer Lange von m, bzw. m2 Codons be-
`steht, wobei q+m;+m, =ngilt. Die Besetzung der Variationsbereiche kann fiir beide Variati-
`onsbereiche gemeinsam optimiert werden, indem die Codons auf den m, und m, Platzen
`gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem solchen Fall in
`jedem Iterationsschritt p; und p2 Codons in dem ersten und zweiten Variationsbereich festge-
`legt, welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch
`vorgesehensein, dali die beiden Variationsbereiche unabhangig voneinandervariiert und op-
`timiert werden. Beispielsweise kann vorgesehen sein, das die Besetzung nur in einem der
`beiden Variationsbereiche variiert wird und nur in dem einen Bereich Codonsfestgelegt wer-
`den, bevor die Variation und Optimierung in den zweiten Bereich stattfindet. In diesem Fall
`werden die p, festgelegten Codons in dem ersten Bereich bei der Optimierung des zweiten
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehenist dann sinnvoll, wenn allenfalls gerin-
`ge Korrelationen zwischen den beiden Bereichen zu erwarten sind.
`
`Gemaf dieser Ausfiihrungsform kann vorgesehensein, dai die Nucleotidsequenz von einem
`Punkt oder einem Bereich im Inneren der Sequenz ausgehendoptimiert wird.
`
`Die Erfindung kann insbesondere vorsehen, da® in jedem Iterationsschritt der Bereich der
`Testsequenz auf der Gesamtsequenz den Bereich der Testsequenzen in allen vorangchenden
`Iterationsschritten umfaft und der Bereich einer Testsequenz in zumindest einigen der voran-
`gehendenIterationsschritte jeweils im Inneren oder jeweils am Rand des Bereichs der Testse-
`quenz in dem aktuellenIterationsschritt liegt.
`
`Die Erfindung kann vorsehen, da die Nucleotidsequenz auf verschiedenen Teilbereichen
`unabhingig optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der
`verschiedenen optimierten Teilsequenzen sein. Es kann auch vorgesehen sein, dai zumindest
`ein Teil der jeweiligen Ergebniscodons von zwei oder mehr optimierten Teilbereichen als
`Bestandteil einer Testsequenz in einer oder mehrerenIterationen verwendet wird.
`
`GemaB einer bevorzugten Ausfiihrungsform der Erfindung ist vorgesehen, da in einem Ite-
`rationsschritt Testsequenzen mit allen méglichen Codonbesetzungen fiir die m Optimierungs-
`positionen aus der ersten Testsequenz generiert werden und die optimale Testsequenz unter
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-8-
`
`allen méglichen Testsequenzen, bei denen an einer oder mehreren der m Optimierungsposi-
`tionen ein Codon durch ein anderes Codon, welches dieselbe Aminosdure exprimiert, ersetzt
`
`wurde, ermittelt wird.
`
`Gema& einer Ausfithrungsform der Erfindung ist die zum Bewerten der Testsequenzen ver-
`wendete Giitefunktion bei allen oder zumindest der Mehrzahl derIterationen gleich. Die Er-
`findung kann jedoch auch vorsehen, unterschiedliche Gititefunktionen in unterschiedlichen
`Iterationen, zum Beispiel in Abhangigkeit von der Lange der Testsequenzen, zu verwenden.
`
`DaserfindungsgemaBe Verfahren kann insbesondere die folgenden Schritte umfassen:
`-
`Bewerten jeder Testsequenz mit einer Giitefunktion,
`-
`Ermitteln eines Extremwertes innerhalb der Werte der Giitefunktion fiir alle in einem
`
`-
`
`Iterationsschritt generierten Teilsequenzen,
`Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichts-
`funktion entspricht, als Ergebniscodons an den entsprechendenPositionen, wobeip ei-
`ne nattirliche Zahl und p < m ist.
`Die Giitefunktion kann so definiert sein, daB die Sequenz entweder umso néher an dem Opti-
`mumliegt, je groBer der Wert der Giitefunktion ist, oder umso naher an dem Optimum liegt,
`je kleiner ihr Wert ist. Entsprechend wird man bei dem Schritt des Ermittelns des Extrem-
`wertes das Minimum oder das Maximum der Giitefunktion unter den generierten Codonse-
`
`quenzen ermitteln.
`
`Die Erfindung kann vorsehen, da8 die Giitefunktion eines oder mehrere der folgenden Krite-
`rien beriicksichtigt:
`Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive
`Sequenzen, Sekundarstrukturen, inverse Repeats.
`
`Die Erfindung kann insbesondere vorsehen, dal} die Giitefunktion eines oder mehrere derfol-
`genden Kriterien beriicksichtigt:
`insbesondere DNS/Protein-Interaktionsbindestellen und
`-
`cis-aktive Sequenz-Motive,
`RNS/Protein-Interaktionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktor-
`bindestellen, Transkriptionsterminatorenbindestellen, Polyadenylierungssignale, En-
`donucleaseerkennungssequenzen,
`immunomodulatorische DNS-Motive, Ribosomen-
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-9-
`
`bindestellen, Erkennungssequenzenfiir rekombinationsaktive Enzyme, Erkennungsse-
`quenzen
`fiir DNS-modifizierende Enzyme, Erkennungssequenzen fiir RNS-
`modifizierende Enzyme, Sequenzmotive, die in einem vorgegebenen Organismus un-
`
`terreprasentiert sind.
`
`Die Erfindung kann auch vorsehen, daB& die Giitefunktion eines oder mehrere der folgenden
`Kriterien berticksichtigt:
`-
`Ausschlu8 oder weitgehender Ausschlu8 von invers komplementaren Sequenzidenti-
`titen von mehr als 20 Nukleotiden zum Transkriptom eines vorgegebenen Organis-
`
`-
`
`mus,
`Ausschlu8 oder weitgehender Ausschlu8 von Homologiebereichen von mehr als 1.000
`Basenpaaren, bevorzugt 500 Basenpaaren,starker bevorzugt 100 Basenpaaren zu einer
`vorgegebenen DNS-Sequenz, zum Beispiel zu dem Genom eines vorgegebenen Orga-
`nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts.
`
`Daserste dieser beiden Kriterien betrifft den Ausschlu8 des als RNA-Indifferenz bekannten
`Mechanismus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exak-
`ter Identitat zu einer anderen RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten
`Kriterium soll verhindert werden, da eine Rekombination, das heifit ein Einbau der Sequenz
`in das Erbgut des Organismus, oder eine Mobilisierung von DNS-Sequenzen durch Rekombi-
`nation mit anderen Vektorenstattfindet. Beide Kriterien kénnen als absolute AusschluBkrite-
`rien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfillt
`sind, werden nicht beriicksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer
`im Zusammenhang mit Sequenzmotiven erlautert wird, vorschen, da® diesen Kriterien ein
`Gewicht zugeordnetist, das betragsmafig gréfter ist als der gréSte Beitrag von Kriterien zu
`der Giitefunktion, welche keine Ausschlufikriterien sind.
`
`Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium
`vorsehen, da8 keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit
`und/oder 99 % Identitat zu einer vorgegebenen DNS-Sequenz, zum Beispiel zu der entspre-
`chenden Genomsequenz des vorgegebenen Organismus oder zu der DNS-Sequenz eines vor-
`gegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium kann entweder als absolutes
`AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr grofen Beitrag zu
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-10-
`
`der Giitefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht Ausschlu8kriterien
`
`sind, tiberwiegt.
`
`Insbesondere kann vorgesehen sein, daB die Giitefunktion eine Funktion von verschiedenen
`Einzeltermen, insbesondere eine Summe von Einzeltermenist, die jeweils ein Kriterium aus
`der folgenden Liste von Kriterien bewerten:
`Codon usagefiir einen vorgegebenen Organismus, GC-Gehalt, DNS — Motive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`
`‘
`
`Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Ein-
`zeltermen oder eine rationale Funktion von Einzeltermen sein.Die genannten Kriterien mis-
`sen nicht notwendigerweise vollstandig in der Gewichtsfunktion beriicksichtigt werden. Es
`kann auch nurein Teil der Kriterien in der Gewichtsfunktion verwendet werden.
`
`Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsge-
`
`wichte genannt.
`
`Die Erfindung kann vorschen, da8 das Kriteriumsgewicht betreffend die Codon Usage (CU
`Score) proportional zu 2; fei/femaxi 1St, wobei
`-
`f,; die Haufigkeit des an derStelle i der Testsequenz gesetzten Codons fiir den betref-
`fenden Organismus zur Expression der Aminosdure an der Stelle i der Aminosauren-
`sequenz des zu exprimierenden Proteins ist und
`fonaxi die Haufigkeit des Codonsist, welches in dem entsprechenden Organismus am
`haufigsten die Aminosdure an derStelle i exprimiert.
`
`Das MaB fei/femaxi ist als ,,Relative Adaptiveness* bekannt (vgl. P. M. Sharp, W. H. Li,
`Nucleic Acids Research 15 (3) (1987), 1281 bis 1295).
`
`Das lokale Gewicht des am haufigsten vorkommenden Codons wird dabei, unabhangig von
`der absoluten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum
`Beispiel 1, gesetzt. Damit wird vermieden, da die Positionen, an denen nur wenige Codons
`zur Auswahlstehen, starker zu dem Gesamtgewicht beitragen als diejenigen, an denen eine
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-ll-
`
`gréBere Anzahl von Codons zur Expression der Aminosdure zur Auswahlstehen. Der Index i
`kann tiber die gesamten n Codonsder Testsequenz oder einen Teil davon laufen. Insbesondere
`kann in einer Ausfiihrungsform vorgesehen sein, daf i nur Uber die m Codons der Optimie-
`rungspositionen lauft.
`
`Die Erfindung kann vorsehen, dai das Kritertumsgewicht betreffend die Codonusage nurfiir
`die m Ordnungspositionen verwendet wird.
`
`Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous
`Codon Usage;vgl. P. M. Sharp, W.H.Li, a.a.0.) verwendet werden. Die RSCUfiir eine Co-
`donposition ist definiert durch
`
`RSCU, = fuidi/(Me fi)
`
`definiert, wobei die Summe im Nenneriiber alle Codonslauft, welche die Aminosdure an der
`Stelle i exprimieren und wobeidj die Zahl der Codonsangibt, welche die besagte Aminosdure
`exprimieren. Um ein Kriteriengewicht auf der Grundlage der RSCU zu definieren, kann vor-
`gesehen sein, dai die RSCU firdie jeweilige Testsequenz tiber alle Codons der Testsequenz
`oder einen Teil davon, insbesondere iiber die m-Codons der Optimierungspositionen, sum-
`miert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten Kriteriums-
`gewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der De-
`generiertheit, di, gewichtet wird, so da solche Positionen, an denen mehr Codons zur Aus-
`wahlstehen, strker in das Kriteriumsgewicht eingehen als solche Positionen, an denen nur
`wenige Codons oder sogar nur ein einziges Codon zur Auswahlstehen.
`
`Bei den vorangehend beschriebenen Kriteriumsgewichten fiir die Codon-Usage wurde das
`arithmetische Mittel tiber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`
`Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage pro-
`portional zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen
`RSCUist, so daB also gilt
`
`CUScore = K(II; RSCU))"”
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-12-
`
`oder
`
`CUScore = K (Tife/femaxi)
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, tiber welche das
`Produkt gebildet wird. Auch hier kann das Produkt wiederiiber die gesamte Testsequenz oder
`einen Teil, insbesondere iiber die m Optimierungspositionen, gebildet werden.
`N
`
`In diesem Zusammenhangstellt die Erfindung auch ein Verfahren zum Optimieren einer Nu-
`kleotidsequenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des
`Proteins zur Verfiigung, welches die folgenden auf einem Computer durchgefiihrten Schritte
`
`umfaft:
`-
`Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinander-
`folgende Aminosauren in der Proteinsequenz entsprechen, wobei n eine natiirlich Zahl
`kleiner odergleich N, der Zahl der Aminosduren der Proteinsequenz,ist,
`Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer Gtitefunkti-
`on, welche ein geometrisches oder arithmetisches Mittel der Relative Adaptiveness
`oder der RSCUiiber eine Anzahl von L Codonpositionen enthalt, wobei L kleiner oder
`
`-
`
`-
`
`gleich N ist,
`Generierung einer oder mehrerer neuer Testsequenzen in Abhingigkeit von dem Er-
`gebnis der besagten Bewertung.
`
`Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschrie-
`benen Weise derart erfolgen, daB die neuen Testsequenzen eine bestimmte Anzahl aufgrund
`der vorangehendenIterationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, daf
`eine bestimmte Testsequenz mit einer bestimmten Wahrscheinlichkeit, die von dem Wert der
`Giitefunktion abhangt, als Grundlagefiir weitere Iterationen, insbesondere die weitere Erzeu-
`gung von Testsequenzen, verwendet wird, wie dies bei Monte-Carlo-Verfahren derFallist.
`
`Wahrend die Qualitit eines Codons bei den obengenannten Verfahren durch die Nutzungs-
`haufigkeit im Transkriptom oder einem Gen-Referenzsetdes Expressionsorganismusdefiniert
`wird, kann die Giite eines bestimmten Codons alternativ auch durch die biophysikalischen
`
`
`
`WO 2004/059556
`
`PCT/EP2003/014850
`
`-13-
`
`Eigenschaften des Codons selbst beschrieben werden. So ist zum Beispiel bekannt, dal Co-
`dons mit einer mittleren Codon-Anticodon-Bindungsenergie besonders effizient translatiert
`werden. Als MaB fiir die translatorische Effizienz einer Testsequenz kann daher zum Beispiel
`der P2-Index verwendet werden, welcher das Verhdltnis der Haufigkeit von Codons mit mitt-
`lerer Bindungsenergie und Codons mit extrem starker bzw. schwacher Bindungsenergie an-
`gibt. Alternativ konnen auch experimentell oder durch theoretische Berechnungen gewonnene
`Daten zur translatorischen Effizienz oder translationsgenauigkeit eines Codons zur Giitebe-
`wertung genutzt werden. Die oben genannten Bewertungskriterien kénnen besonders dann

Accessing this document will incur an additional charge of $.
After purchase, you can access this document again without charge.
Accept $ ChargeStill Working On It
This document is taking longer than usual to download. This can happen if we need to contact the court directly to obtain the document and their servers are running slowly.
Give it another minute or two to complete, and then try the refresh button.
A few More Minutes ... Still Working
It can take up to 5 minutes for us to download a document if the court servers are running slowly.
Thank you for your continued patience.

This document could not be displayed.
We could not find this document within its docket. Please go back to the docket page and check the link. If that does not work, go back to the docket and refresh it to pull the newest information.

Your account does not support viewing this document.
You need a Paid Account to view this document. Click here to change your account type.

Your account does not support viewing this document.
Set your membership
status to view this document.
With a Docket Alarm membership, you'll
get a whole lot more, including:
- Up-to-date information for this case.
- Email alerts whenever there is an update.
- Full text search for other cases.
- Get email alerts whenever a new case matches your search.

One Moment Please
The filing “” is large (MB) and is being downloaded.
Please refresh this page in a few minutes to see if the filing has been downloaded. The filing will also be emailed to you when the download completes.

Your document is on its way!
If you do not receive the document in five minutes, contact support at support@docketalarm.com.

Sealed Document
We are unable to display this document, it may be under a court ordered seal.
If you have proper credentials to access the file, you may proceed directly to the court's system using your government issued username and password.
Access Government Site