`
`
`....WofeV.ehWWWWW...tcicH.s........\.x....l..SW.....W....W...W.....“WWW.n............\.....W.....W...\\\.\3I.\\W.\\ma....‘wWWW......\.......W..Oa.......WW......“\Wm\\\.)s.lnu.#8.em}.\a.\\\W.......W...C».w:(t)‘5\\.....W.\..{\W...WW.....WW.kwtaOSd.........WW.........WWWWgrnC.tl..(9WWWWW...
`
`
`
`
`
`
`
`
`fixxxx.“WW.SW...n.Is.Ibrb.lMMW.“W:a“.V.......eD.sn.momobW.W.W.WW.W......W....
`
`..w...\.W...W...W...a.larr3CW..W..WWW......
`.\WWV.\Iaa.N....a
`
`......WWW.x...W...Inn.............1.....W...:..W..\.......W...W...W......WW.pp\\...We............QS.IuruIU(W.{W.M:.....\w“.«W.«W.W:W..s«C.W..\.WW..nCPD.WW.W....W...x..-....W..W....
`
`
`
`
`
`
`
`
`
`
`.“V“V\\\a.ls.W..W...W\(W.¢\L\W{Yum\.\....“
`
`
`\\\s..V\\\.i.$\\WAU4.IW}.
`....2...5...x.
`WWWS..1.ac...
`.............0...WW.C...............W3..K2......
`
`
`WWWW““wI].\\.\..
`..W....CGWWWR.
`WW.WNWan”.7.5G......
`..WW1/..\WW\do!“\WW......aA!W»...W..MGFWWW.
`
`
`
` ......WWWWWW...-......WWWWW“WW...8\WmMM0\\\.\\§H”Y9.1.am
`WWWVWW:.\\W
`5...W...WW...W.“
`
`
`......W......WWNNM.\“WK.WW.
`
`.._-WW...WW5.mflu
`
`
`«\\\.“Wu?“«was.Ido!
`\Ws\.W.sWWW...225wW...
`
`..........N1:F....
`
`.....
`
`..
`
`WWW4L.2
`
`€12N15f1’2
`
`5
`
`”Nu-3...«N\Wis..
`Qfix.hisE‘s.E‘s.“W!
`
`
`
`...W\\x.\¢\\
`
`\\
`
`
` WWW.5......WW..
`
`....W
`
`NWWWWWW.......
`
`...Q
`
`RAAB DAVID [DE]; GRAF MARCUS [DE] j;(RAAB, DAVID, ; GRAF,
`
`CiZN’fi/‘EQ; Cffififi‘ififlé; C12N’F5/227; C?2N15/2§;
`€12N’F5I3’5; C?2N?5/52; cgzpzwaa; G06F19l22;
`C12N151’12
`G05F19/18; (lPC1-7)
`C12N151'29;C12N15i31;C12N15]52;C12P21100
`{303’K‘E 4i43595
`{392’K14i5443
`
`GENEART GMBH [DE] :3; (GENEART GMBH)
`
`mmzmm
`
`DE2002160805 20021223
`
`DE2002160805 20021223
`
`AU2003294953 (59.41)_ AU2003294953 (flgl CA2511503 (A1)m
`DK1584058 (13;; EP1584€358 (9.2)". EP1584958 (.1811)_
`EP2363821 (Ag)- 332383821 (£33.)- JP2698512849 (a;
`JP4516640 (gag; USZGGTM‘EEE? (g1), US2013123483 (431)”
`US2016259885 (A1)- US$22457’8 (.33)..
`WW3}- (W)- Eess
`
`
`
`
`
`
`
`VWN“\\w\v\“$3.IcWWW“WNW..vkW.“W...\\\\.N.M(«55.....x..W..W!.90...WWW“WM\\+H&--“fl.“MWRu.A!....W
`
`{\W.W......W..Wae«W.x...
`
`
`..W.......WW0flW.W......a.W.......W...W....).t:a............
`
`
`.......WW......AnWWW..W....\W\R0\¢WW(\5..\.W§\\\.WWW........WWW.tO...WWW“.....Wa......W0S.\\AW\\\\We:55.\SWeW...NWu\\+«WNW“W“
`
`
`
`
`
`
`
`
`
`.3...AW...........W..WWWWWW.Sar”W....»...W......:....Was.x,..x»Ueo»\\.5...
`
`WNWWWWWNW\W.nVWW.“5.WuKhum....WN
`
`.EWSi“.NW.\..\...\..WWWCrpWWan..\mu........
`
`~\\Nfi“\“\w“\kn.N“WE.
`..xWw5.....WW.n...W...
`.JW.........
`
`
`
`
`
`
`
`
`.......W.....WWW.
`.\&.\\WIuI....WWWW
`
`
`\\ll~‘iih~‘iih
`
`
`
`
`
`
`
`

`

`(19)
`Bundesrepublik Deutschland
`Deutsches Patent- und Markenamt
`
`WDE 102 60 805 A1 2004.07.22
`
`(12>
`
`Offenlegungsschrift
`
`(21)Aktenzeichen: 102 60 805.9
`(22)Anmeldetag: 23.12.2002
`(43) Offenlegungstag: 22.07.2004
`
`(71 ) Anmelder:
`Geneart GmbH, 93053 Regensburg, DE
`
`(74) Vertreter:
`BOEHMERT & BOEHMERT, 28209 Bremen
`
`PrUfungsantrag geméfs § 44 PatG ist gestellt.
`
`
`
`(51) Int (31.7: C07H 21/00
`C12P 21/00, C12N 15/12, C12N 15I29,
`C12N 15I31, c12N 15I52
`
`(72) Erfinder:
`Raab, David, 93176 Beratzhausen, DE; Graf,
`Marcus, 93047 Regensburg, DE
`
`Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen
`
`(54) Bezeichnung: Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Prote-
`ins
`
`(57) Zusammenfassung: Die Erfindung betrifft ein Verfah-
`
`ren zum Optimieren einer Nucleotidsequenz zur Expressi-
`Eingabe der
`on eines Proteins auf der Grundlage der Aminoséurense-
`Aminosauresequenz
`der Lange N
`quenz des Proteins, bei welchem fUr einen bestimmten Be-
`
`reich eine Testsequenz mit m Optimierungspositionen fest-
`
`Beg'""em“"m‘”°‘a“'e‘=‘
`gelegt wird, auf denen die Codonbesetzung variiert wird,
`
`y
`wobei mittels eienr GUtefunktion die optimale Codonbeset—
`zung auf diesen Optimierungspositionen ermittelt wird und —, 3““ ”5‘6 KDS“;§‘§‘1°,”§_’T“iEAmmmwe”‘
`ein oder mehrere Codons dieser optimalen Besetzung als
`‘
`
`Codons der optimierten Nucleotidsequenz festgelegt wer— m
`den. Diese Schritte werden iteriert, wobei bei nachfolgen-
`nereitsomimienenDNs-Sequenzunauerxos
`den Iterationsschritten die in vorangehenden Schritten fest—
`—T——_“-
`gelegten Codons der optimierten Nucleotidsequenz unver—
`EKVELUAZSJ’Q:$313535:2:332:3ni‘152‘33m253
`éndert bleiben. Die Erfindung betrifft weiterhin eine Vorrich-
`“um"Verrechnggglggru"Kgiggnuk'gggewmhteineiner
`tung zur Durchfiihrung dieses Verfahrens.
`
`nein
`
`Wen der Gmefunktion
`besser als gespeioherier
`Wen?
`
`
`
`
`
`
`nein
`
`
`
`Spe chere Wen der Guterunktion und
`das zur Bildung der KDS verwendeie
`Codon fur dle Aminosaurm
`
`
`
`
`
`
`Alle mogkichen KDS
`gebildei 7
`
`Bilde nachste mégliche KDS der Codons fur die
`Aminosauren Ibis 1+m-1
`
`
`
`“fl
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Beschreibung
`
`[0001] Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren VenNendung
`zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressionssystem, zum Beispiel in einen
`Wirtsorganismus/eine Wirtszelle oder ein System fiir eine ln-vitro-Expression eingebracht werden, der bzw. die
`das entsprechende Protein exprimiert. Sie betrifft insbesondere Verfahren, bei denen eine synthetische Nuc-
`leotidsequenz fiir das jeweilige Expressionssystem, also zum Beispiel fiir einen Organismus/fiir eine Wirtszel-
`Ie, mit Hilfe eines Computers optimiert wird.
`[0002] Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Exprimieren der
`dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escherichia coli oder Hefe. NatUrIich
`vorkommende Gene sind fUr diesen Zweck allerdings haufig suboptimal. Da in einer DNS-Sequenz, die ein
`Protein exprimiert, jeweils ein Triplett von Basen (Codon) eine Aminosaure exprimiert,
`ist es moglich, eine
`ktinstliche DNS-Sequenz zur Expression des gewtinschten Proteins zu synthetisieren und fiir das Klonen und
`Exprimieren des Proteins zu venNenden. Ein Problem bei diesem Vorgehen besteht darin, daB einer vorgege-
`benen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als Degeneriertheit des
`genetischen Codes bezeichnet. Unterschiedliche Organismen venNenden Codons ftir die Expression einer
`Aminosaure mit unterschiedlicher Haufigkeit (sogenannte Codon usage). In der Regel gibt es in einem gege-
`benen Organismus ein Codon, das Liberwiegend verwendet wird und ein oder mehrere Codons, welche mit
`vergleichsweise geringer Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure
`venNendet werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus venNendet wer-
`den soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus angepaBt sein. Eine
`weitere wichtige GroBe ist der GC-Gehalt (Gehalt der Basen Guanin und Cytosin in einer Sequenz). Weitere
`Faktoren, welche das Expressionsergebnis beeinflussen konnen, sind DNS-Motive und Wiederholungen oder
`invers komplementare Wiederholungen in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem
`gegebenen Organismus bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht enNtinscht sein
`konnen. Beispiele sind cis-aktive Sequenzmotive wie SpleiBstellen oder Transkriptionsterminatoren. Das un-
`beabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren oder ganz unterdru-
`cken oder sogar fUr den Wirtsorganismus eine toxische Wirkung haben. Sequenzwiederholungen konnen zu
`einer geringeren genetischen Stabilitat fiihren und erschweren die Synthese repetitiver Abschnitte aufgrund
`der Gefahr von Fehlhybridisierungen. Invers komplementare Wiederholungen konnen zur Bildung von uner—
`wUnschten Sekundarstrukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene f'Lihren, wel—
`che die Transkription behindern und zu genetischer Instabilitat ftihren, bzw. die Translationseffizienz negativ
`beeinflussen konnen.
`
`[0003] Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts optimiert sein
`und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers komplementaren Sequen-
`zwiederholungen verbundenen Probleme weitgehend vermeiden. Diese Erfordernisse lassen sich in der Regel
`jedoch nicht gleichzeitig und in optimaler Weise erftillen. Beispielsweise kann eine Optimierung aufdie optima-
`le Codon usage zu einer stark repetitiven Sequenz und einem erheblichen Abweichen von dem gewiinschten
`GC-Gehalt fijhren. Es gilt daher, einen moglichst optimalen KompromiB zwischen der Erfijllung der verschie-
`denen Erfordernisse herbeizuftihren. Die groBe Anzahl von Aminosauren in einem Protein f'Lihrtjedoch zu einer
`kombinatorischen Explosion der Zahl der moglichen DNS-Sequenzen, welche — im Prinzip — das gewtinschte
`Protein exprimieren konnen. Aus diesem Grund wurden versohiedene computergestiitzte Verfahren zum Er-
`mitteln einer optimalen Codonsequenz vorgeschlagen.
`
`Stand der Technik
`
`[0004] PS. Sarkar und Samir K. Brahmaohari, Nucleic Acids Research 20 (1992), 5713 beschreiben Unter-
`suchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher Strukturen einer DNS-Se—
`quenz. Hierbei wurden alle moglichen degenerierten Nucleotidsequenzen generiert. Eine Bewertung der Se—
`quenzen hinsichtlich des Vorhandenseins von strukturellen Motiven und strukturbildender Abschnitte erfolgte
`durch einen Computer unterVenNendung einer Wissensbasis. Die VenNendung einer GUtefunktion ist nicht of—
`fenbart.
`
`[0005] BM. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 943 schlagt ein computerge-
`stiitztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl von Abschnitten unterteilt wird,
`f'Lir die jeweils eine GUtefunktion (Score) berechnet wird. |n die GUtefunktion gehen u.a. die Codon usage, die
`Moglichkeit der Bildung von Haarnadelstrukturen und die Abweichungen von der gew'Linschten Schmelztem-
`peratur ein. Der Wert der Gtitefunktion f'Lir die Gesamtsequenz bestimmt sich aus der Summe der Werte der
`GUtefunktion fiir die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird durch
`ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpositionen ausgewahlt, bei
`denen das Codon einer Ausgangssequenz durch ein statistisch ausgewahltes aquivalentes Codon ersetzt
`
`2/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`wird. Gleichzeitig werden in einer Iteration auch die Grenzen derAbsohnitte neu definiert. Aufdiese Weise wird
`eine vollstandige Gensequenz statistisch generiert. lst der Wert der Giitefunktion fiir die Gesamtsequenz klei-
`ner als die bisherige Sequenz, wird die neue Sequenz beibehalten. lst er groBer, wird mit einer gewissen Wahr—
`scheinlichkeit die neue Sequenz beibehalten. wobei diese Wahrscheinlichkeit durch eine Boltzmann-Statistik
`kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von lterationen die Sequenz nicht andert,
`wird diese Sequenz als optimale Sequenz bewertet.
`[0006] Derartige statistische Verfahren haben den Nachteil, daB sie stark von der Wahl der Konvergenzkrite-
`rien abhangen.
`
`Aufgabenstellung
`
`[0007] Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zurVerftigung zu stel-
`len, welches sich mit relativ geringem Speicherplatz und relativ geringer Rechenzeit auf einem Computer im-
`plementieren lam und welches insbesondere Nachteile der statistischen Verfahren vermeidet.
`[0008] Erfindungsgemalz wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins gelést, welches die
`folgenden auf einem Computer durchgeftihrten Schritte umfalSt:
`— Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden Aminosauren in der
`Proteinsequenz entsprechen, wobei n eine natijrliche Zahl und kleiner oder gleich N, der Zahl der Amino-
`sauren der Proteinsequenz, ist,
`— Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von m Codons, insbe-
`sondere von m aufeinanderfolgenden Codons, entsprechen, an denen die Besetzung mit einem Codon, be-
`zogen aufdie Testsequenz, optimiert werden soil, wobei m s n und m < N ist,
`— Generieren eineroder mehrererweiterer Testsequenzen aus der ersten Testsequenz, indem an einer oder
`mehreren der m Optimierungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er-
`setzt wird, welches dieselbe Aminosaure exprimiert,
`— Bewerten jeder der Testsequenzen mit einer GUtefunktion und Ermitteln der hinsichtlich der GUtefunktion
`optimalen Testsequenz,
`— Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Optimierungspositionen
`befinden, als Ergebniscodons, welche die Codons der optimierten Nucleotidsequenz an den Positionen bil—
`den, die der Position der besagten p Codons in der Testsequenz entspricht, wobei p eine natUrliche Zahl
`und p s m ist,
`— Iterieren dervorangehenden Schritte, wobei in jedem lterationsschritt die Testsequenz an den Positionen,
`welche Positionen von festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das
`entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen von Ergebniscodons
`verschieden sind.
`
`[0009] GemaB der bevorzugten Ausfijhrungsform der Erfindung werden die vorangehend genannten Schritte
`so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit Ergebniscodons besetzt
`worden sind.
`
`[0010] Erfindungsgemals wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen opti-
`miert. Die in einem lterationsschritt als optimal festgelegten p Ergebniscodons werden in den nachfolgenden
`lterationsschritten nicht mehr veréndert und vielmehr bei den jeweiligen Optimierungsschritten als gegeben vo-
`rausgesetzt. Vorzugsweise ist die Anzahl der Ergebniscodons, welche auf diese Weise ftir die weiteren ltera-
`tionen festgelegt und als vorgegeben behandelt werden, kleiner als die Anzahl m der Optimierungspositionen,
`an denen in einem lterationsschritt die Codons variiert werden. Zumindest in der Mehrzahl der lterationsschrit-
`
`te, bei einer besonderen Ausfijhrungsform bei allen lterationsschritten aulSer dem ersten, ist wiederum m klei—
`ner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lokale Effekte auf den m variierten
`Positionen, sondern auch langerreichweitige Korrelationen, z.B. im Zusammenhang mit der Entstehung von
`RNA—Sekundarstrukturen, zu berticksichtigen.
`[0011] GemaB den derzeit bevorzugten Ausftihrungsformen liegt m im Bereich von 3 bis 20, vorzugsweise im
`Bereich von 5 bis 10. Bei dieserWahl dieses Parameters kann die Variation der Codons mit einem akzeptablen
`Aufwand an Speicher und Rechenzeit durchgeftihrt werden und gleichzeitig eine gute Optimierung der Se-
`quenz erreicht werden.
`[0012] Gemafi einer Ausftihrungsform mull» m in den verschiedenen lterationsschritten nicht gleich sein, son-
`dern kann vielmehr auch in unterschiedlichen lterationsschritten verschieden sein. Es kann auch vorgesehen
`sein, in einem lterationsschritt die Variation der Testsequenz fiir verschiedene Werte von m durchzufiihren und
`ggf. nur das Optimierungsergebnis f'Lir einen Wert von m zu berijcksichtigen, um Einflijsse der GréBe m auf
`das Optimierungsergebnis zu reduzieren bzw. um zu Uberpriifen, ob eine Vergrolzerung der Zahl m zu einer
`
`3/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Anderung des Ergebnisses fiihrt.
`[0013] GemélS der bevorzugten Ausfiihrungsform sind die m Optimierungspositionen oder zumindest ein Teil
`davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, auf welchem die Codon-
`besetzung variiert wird.
`[0014] Die Erfindung kann insbesondere vorsehen, daB in zwei oder mehr aufeinanderfolgenden Iterations-
`schritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert werden, identisch sind. Sind
`die m Positionen zusammenhangend, bedeutet dies, daB das Variationsfenster bei einem Iterationsschritt mit
`dem Variationsfenster eines vorangehenden Iterationsschrittes Uberlappt.
`[0015] Die Erfindung kann vorsehen, daB in einem oder mehreren Iterationsschritten die m Optimierungspo—
`sitionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der opti—
`mierten Nucleotidsequenz festgelegt worden sind.
`[0016] Die Erfindung kann ebenfalls vorsehen, daB in einem oder mehreren Iterationsschritten die p Codons,
`die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p aufeinanderfolgende Codons
`sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der optimier-
`ten Nucleotidsequenz in einem friiheren Schritt festgelegt worden sind.
`[0017] Die Erfindung kann vorsehen, dalS die Nucleotidsequenz von einem ihrer Enden heroptimiertwird. Ins-
`besondere kann die Erfindung vorsehen, dalS in jedem Iterationsschritt die Lange der Testsequenz des vorhe-
`rigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unterschiedlichen Iterationen verschieden
`sein kann, vergréBert wird, bis n = N ist. lst n = N und die Zahl derjenigen Positionen, die in der Testsequenz
`nicht mit Ergebniscodons besetzt sind, kleiner oder gleich dem Wert von m, der in den vorangehenden Iterati-
`onen venNendet wurde, oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen
`Iterationen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Iterationsschritt
`p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten Codons ist. Die als optimal
`aufgefundene Besetzung der Optimierungspositionen wird dann fiir die Ergebniscodons an diesen Optimie-
`rungspositionen Libernommen. Dies gilt insbesondere dann, wenn fiirjede mégliche Kombination von Beset—
`zungen der Optimierungspositionen eine Testsequenz generiert wird.
`[0018] Es kann jedoch auch vorgesehen sein, daB der Bereich der Testsequenz innerhalb der gesamten Se-
`quenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einerTestsequenz in einem vorherigen
`Iterationsschritt umfaBt. Beispielsweise kann die Testsequenz selbst ein Fenster aufder Gesamtsequenz, z.B.
`ein Fensterfester Lange, bilden, das im Laufe derverschiedenen Iterationen aufder Gesamtsequenz verscho—
`ben wird.
`
`[0019] GemaB einer bevorzugten Ausfiihrungsform wird die Testsequenz nach jedem Schritt um p Codons
`verlangert, wobei insbesondere m fiir alle Iterationsschritte konstant sein kann.
`[0020] Analog zu der vorangehend beschriebenen Ausfiihrungsform der Erfindung kann auch vorgesehen
`sein, dafS die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. Dies kann z.B. in der Art
`geschehen, dalS eine anfangliche Testsequenz, welche einem Bereich im Inneren der zu optimierenden Nuc-
`leotidsequenz entspricht, zunachst nach einer Seite sukzessiv vergréBert wird, bis das Ende der zu optimie-
`renden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidsequenz er-
`reicht ist, und dann die Testsequenz zu der anderen Seite hin vergréBert wird, bis dort das andere Ende der
`zu optimierenden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidse-
`quenz erreicht ist.
`[0021] Die Erfindung kann auch vorsehen, dais die Testsequenzen in einem Iterationsschritt aus einer opti-
`mierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Seiten daran anschlieBen-
`den Variationsbereichen mit einer Lange von m1 bzw. m2 Codons besteht, wobei q + m1 + m2 = n gilt. Die Be-
`setzung der Variationsbereiche kann fiir beide Variationsbereiche gemeinsam optimiertwerden, indem die Co-
`dons aufden m1 und m2 Platzen gleichzeitig variiert und optimiert werden. Vorzugsweise werden in einem sol-
`chen Fall in jedem Iterationsschritt p1 und p2 Codons in dem ersten und zweiten Variationsbereich festgelegt,
`welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch vorgesehen sein,
`daB die beiden Variationsbereiche unabhangig voneinandervariiert und optimiertwerden. Beispielsweise kann
`vorgesehen sein, dais die Besetzung nur in einem der beiden Variationsbereiche variiert wird und nur in dem
`einen Bereich Codons festgelegt werden, bevor die Variation und Optimierung in den zweiten Bereich stattfin—
`det. In diesem Fall werden die p1festge|egten Codons in dem ersten Bereich bei der Optimierung des zweiten
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls geringe Korrelationen
`zwischen den beiden Bereichen zu erwarten sind.
`
`[0022] Gemafi dieser Ausfiihrungsform kann vorgesehen sein, daB die Nucleotidsequenz von einem Punkt
`oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird.
`[0023] Die Erfindung kann insbesondere vorsehen, daB in jedem Iterationsschritt der Bereich der Testse-
`quenz aufder Gesamtsequenz den Bereich der Testsequenzen in alien vorangehenden lterationsschritten um-
`faBt und der Bereich einer Testsequenz in zumindest einigen der vorangehenden Iterationsschritte jeweils im
`Inneren oderjeweils am Rand des Bereichs der Testsequenz in dem aktuellen Iterationsschritt liegt.
`
`4/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`[0024] Die Er‘findung kann vorsehen, daB die Nucleotidsequenz auf verschiedenen Teilbereichen unabhangig
`optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der verschiedenen optimierten
`Teilsequenzen sein. Es kann auch vorgesehen sein, daB zumindest ein Teil derjeweiligen Ergebniscodons von
`zwei oder mehr optimierten Teilbereichen als Bestandteil einer Testsequenz in einer oder mehreren Iterationen
`venNendet wird.
`
`[0025] GemaB einer bevorzugten Ausfiihrungsform der Er‘findung ist vorgesehen, daB in einem Iterations-
`schritt Testsequenzen mit allen méglichen Codonbesetzungen fiir die m Optimierungspositionen aus der ers-
`ten Testsequenz generiert werden und die optimale Testsequenz unter allen méglichen Testsequenzen, bei de—
`nen an eineroder mehreren der m Optimierungspositionen ein Codon durch ein anderes Codon, welches die—
`selbe Aminosaure exprimiert, ersetzt wurde, ermittelt wird.
`[0026] GemaB einer Ausfiihrungsform der Erfindung ist die zum Bewerten der Testsequenzen venNendete
`GUtefunktion bei allen oder zumindest der Mehrzahl der Iterationen gleich. Die Erfindung kann jedoch auch
`vorsehen, unterschiedliche GUtefunktionen in unterschiedlichen Iterationen, zum Beispiel in Abhangigkeit von
`der Lange der Testsequenzen, zu venNenden.
`[0027] Das erfindungsgemaBe Verfahren kann insbesondere die folgenden Schritte umfassen:
`— Bewerten jeder Testsequenz mit einer GUtefunktion,
`— Ermitteln eines Extremwertes innerhalb der Werte der Giitefunktion fiir alle in einem Iterationsschritt ge-
`nerierten Teilsequenzen,
`— Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichtsfunktion entspricht,
`als Ergebniscodons an den entsprechenden Positionen, wobei p eine natiirliche Zahl und p S m ist.
`
`[0028] Die GUtefunktion kann so definiert sein, dais die Sequenz entweder umso naher an dem Optimum liegt,
`je gréBerder Wert der GUtefunktion ist, oder umso naher an dem Optimum liegt, je kleiner ihrWert ist. Entspre-
`chend wird man bei dem Schritt des Ermittelns des Extremwertes das Minimum oder das Maximum der G'Lite-
`
`funktion unter den generierten Codonsequenzen ermitteln.
`[0029] Die Erfindung kann vorsehen, daB die G'Litefunktion eines oder mehrere der folgenden Kriterien be-
`r'Licksichtigt: Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0030] Die Erfindung kann insbesondere vorsehen, daB die G'Litefunktion eines oder mehrere der folgenden
`Kriterien berticksichtigt:
`— cis-aktive Sequenz-Motive, insbesondere DNS/Protein—Interaktionsbindestellen und RNS/Protein-Interak—
`tionsbindestellen, bevorzugt SpleiBmotive, Transkriptionsfaktorbindestellen, Transkriptionsterminatoren—
`bindestellen, Polyadenylierungssignale, Endonucleaseerkennungssequenzen,
`immunomodulatorische
`DNS-Motive, Ribosomenbindestellen, Erkennungssequenzen fiir rekombinationsaktive Enzyme, Erken-
`nungssequenzen f'Lir DNS-modifizierende Enzyme, Erkennungssequenzen f'Lir RNS-modifizierende Enzy-
`me, Sequenzmotive, die in einem vorgegebenen Organismus unterreprasentiert sind.
`
`[0031] Die Erfindung kann auch vorsehen, daB die GUtefunktion eines oder mehrere derfolgenden Kriterien
`beriicksichtigt:
`— AusschluB oder weitgehender AusschluB von invers komplementaren Sequenzidentitaten von mehr als
`20 Nukleotiden zum Transkriptom eines vorgegebenen Organismus,
`— AusschluiS oderweitgehenderAusschluE von Homologiebereichen von mehr als 1.000 Basenpaaren, be-
`vorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einervorgegebenen DNS-Sequenz, zum
`Beispiel zu dem Genom eines vorgegebenen Organismus oder zu der DNS-Sequenz eines vorgegebenen
`Vektorkonstrukts.
`
`[0032] Das erste dieser beiden Kriterien betrifft den AusschluB des als RNA-Indifferenz bekannten Mechanis-
`mus, mit dem ein Organismus RNA—Sequenzen mit mehrals 20 Nukleotiden exakter Identitat zu einer anderen
`RNA—Sequenz eliminiert oder deaktiviert. Mit dem zweiten Kriterium soll verhindert werden, daB eine Rekom—
`bination, das heiBt ein Einbau der Sequenz in das Erbgut des Organismus, oder eine Mobilisierung von
`DNS—Sequenzen durch Rekombination mit anderen Vektoren stattfindet. Beide Kriterien kénnen als absolute
`AusschluBkriterien venNendetwerden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfUllt sind,
`werden nicht beriicksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer im Zusammenhang mit
`Sequenzmotiven erlautert wird, vorsehen, daB diesen Kriterien ein Gewicht zugeordnet ist, das betragsmaBig
`gréfier ist als der gréBte Beitrag von Kriterien zu der Giitefunktion, welche keine AusschluBkriterien sind.
`[0033] Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium vorsehen,
`daB keine Homologiebereiche erzeugtwerden, die mehr als 90 % Ahnlichkeit und/oder 99 % Identit'ait zu einer
`vorgegebenen DNS-Sequenz, zum Beispiel zu der entsprechenden Genomsequenz des vorgegebenen Orga-
`nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium
`kann entweder als absolutes AusschluBkriterium realisiert sein oder in einer Weise, daB es einen sehr groiSen
`
`5/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Beitrag zu der Glitefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht AusschluBkriterien sind,
`UbenNiegt.
`[0034]
`Insbesondere kann vorgesehen sein, daB die Glitefunktion eine Funktion von verschiedenen Einzel-
`termen, insbesondere eine Summe von Einzeltermen ist, diejeweils ein Kriterium aus der folgenden Liste von
`Kriterien bewerten: Codon usage fiir einen vorgegebenen Organismus, GC-Gehalt, DNS-Motive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0035] Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Einzeltermen
`oder eine rationale Funktion von Einzeltermen sein. Die genannten Kriterien mUssen nicht notwendigenNeise
`vollstandig in der Gewichtsfunktion berticksichtigt werden. Es kann auch nur ein Teil der Kriterien in der Ge—
`wichtsfunktion verwendet werden.
`
`[0036] Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsgewichte ge—
`nannt.
`
`[0037] Die Erfindung kann vorsehen, dais das Kriteriumsgewicht betreffend die Codon Usage (CU Score) pro-
`portional zu Ltd/fem“, ist, wobei
`— fci die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codons ftir den betreffenden Organismus
`zur Expression der Aminosaure an der Stelle i der Aminosaurensequenz des zu exprimierenden Proteins
`ist und
`
`—fornaxi die Haufigkeit des Codons ist, welches in dem entsprechenden Organismus am haufigsten die Ami-
`nosaure an der Stelle i exprimiert.
`
`[0038] Das MalS foi/fornaxi ist als ,,Relative Adaptiveness" bekannt (vgl. P. M. Sharp, W. H. Li, Nucleic Acids Re-
`search 15 (3) (1987), 1281 bis 1295).
`[0039] Das lokale Gewicht des am haufigsten vorkommenden Codons wird dabei, unabhangig von der abso-
`luten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum Beispiel 1, gesetzt. Damit
`wird vermieden, dalS die Positionen, an denen nur wenige Codons zur Auswahl stehen, starker zu dem Ge-
`samtgewicht beitragen als diejenigen, an denen eine groBere Anzahl von Codons zur Expression derAmino-
`saure zur Auswahl stehen. Der Index i kann Uber die gesamten n Codons der Testsequenz oder einen Teil da-
`von laufen. Insbesondere kann in einer Ausftihrungsform vorgesehen sein, dais i nur Uber die m Codons der
`Optimierungspositionen lauft.
`[0040] Die Erfindung kann vorsehen, daB das Kriteriumsgewicht betreffend die Codonusage nur fUr die m
`Ordnungspositionen ven/vendet wird.
`[0041] Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous Codon
`Usage; vgl. P. M. Sharp, W. H. Li, a.a.O.) venNendet werden. Die RSCU f'Lir eine Codonposition ist definiert
`durch
`
`RSCU. = fad/(2J3
`
`definiert, wobei die Summe im Nenner Uber alle Codons lauft, welche die Aminosaure an der Stelle i exprimie-
`ren und wobei di die Zahl der Codons angibt, welche die besagte Aminosaure exprimieren. Um ein Kriterien-
`gewicht auf der Grundlage der RSCU zu definieren, kann vorgesehen sein, daB die RSCU fiir die jeweilige
`Testsequenz iiber alle Codons der Testsequenz oder einen Teil davon, insbesondere tiber die m-Codons der
`Optimierungspositionen, summiert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten
`Kriteriumsgewicht besteht darin, daB bei dieser Gewichtung jede Codonposition mit dem Grad der Degene-
`riertheit, di, gewichtet wird, so daB solche Positionen, an denen mehr Codons zur Auswahl stehen, starker in
`das Kriteriumsgewicht eingehen als solche Positionen, an denen nur wenige Codons oder sogar nur ein einzi-
`ges Codon zur Auswahl stehen.
`[0042] Bei den vorangehend beschriebenen Kriteriumsgewichten f'Lir die Codon-Usage wurde das arithmeti-
`sche Mittel Uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`[0043] Es kann auch vorgesehen sein, daB das Kriteriumsgewicht betreffend die Codon-Usage proportional
`zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen RSCU ist, so dais also gilt
`
`CUScore = K(l'liRSCUi)“L
`
`oder
`
`I Cl
`cmaxi
`CUScore = K (l'lf ./f
`
`)“L
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, Uber welche das Produkt gebildet
`wird. Auch hier kann das Produkt wieder 'Liber die gesamte Testsequenz oder einen Teil, insbesondere Uber
`die m Optimierungspositionen, gebildet werden.
`
`6/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nukleotidse-
`[0044]
`quenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verftigung,
`welches die folgenden auf einem Computer durchgeftihrten Schritte umfaBt:
`— Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinanderfolgende Aminosau-
`ren in der Proteinsequenz entsprechen, wobei n eine nat'Lirlich Zahl kleiner oder gleich N, der Zahl der Ami-
`nosauren der Proteinsequenz, ist,
`— Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer G'Litefunktion, welche ein ge-
`ometrisches oder arithmetisches Mittel der Relative Adaptiveness oder der RSCU Uber eine Anzahl von L
`Codonpositionen enthalt, wobei L kleiner oder gleich N ist,
`— Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Ergebnis der besagten
`Bewertung.
`
`[0045] Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschriebenen
`Weise derart erfolgen, dais die neuen Testsequenzen eine bestimmte Anzahl aufgrund der vorangehenden Ite-
`rationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, dais eine bestimmte Testsequenz mit einer
`bestimmten Wahrscheinlichkeit, die von dem Wert der G'Litefunktion abhangt, als Grundlage fiir weitere Itera-
`tionen, insbesondere die weitere Erzeugung von Testsequenzen, venNendet wird, wie dies bei Monte-Car-
`lo-Verfahren der Fall ist.
`
`[0046] Wéhrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungshaufigkeit
`im Transkriptom oder einem Gen-Referenzset des Expressionsorganismus definiert wird, kann die Giite eines
`bestimmten Codons alternativ auch durch die biophysikalisohen Eigenschaften des Codons selbst beschrie-
`ben werden. So ist zum Beispiel bekannt, dais Codons mit einer mittleren Codon-Antioodon-Bindungsenergie
`besonders effizient translatiert werden. Als MaB fiir die translatorische Effizienz einer Testsequenz kann daher
`zum Beispiel der P2-lndex venNendet werden, welcher das Verhéiltnis der Haufigkeit von Codons mit mittlerer
`Bindungsenergie und Codons mit extrem st

Accessing this document will incur an additional charge of $.

After purchase, you can access this document again without charge.

Accept $ Charge

This document could not be displayed.

We could not find this document within its docket. Please go back to the docket page and check the link. If that does not work, go back to the docket and refresh it to pull the newest information.

Your account does not support viewing this document.

You need a Paid Account to view this document. Click here to change your account type.

Your account does not support viewing this document.

Set your membership status to view this document.

With a Docket Alarm membership, you'll get a whole lot more, including:

  • Up-to-date information for this case.
  • Email alerts whenever there is an update.
  • Full text search for other cases.
  • Get email alerts whenever a new case matches your search.

Become a Member

One Moment Please

The filing “” is large (MB) and is being downloaded.

Please refresh this page in a few minutes to see if the filing has been downloaded. The filing will also be emailed to you when the download completes.

Your document is on its way!

If you do not receive the document in five minutes, contact support at support@docketalarm.com.

Sealed Document

We are unable to display this document, it may be under a court ordered seal.

If you have proper credentials to access the file, you may proceed directly to the court's system using your government issued username and password.


Access Government Site

We are redirecting you
to a mobile optimized page.

We are unable to display this document.

PTO Denying Access

Refresh this Document
Go to the Docket