id==ae
`nnn
`oOo25
`toBs2a9a.© oy
`
`
`ze&$<0 bo
`2
`
`Geymn,
`
`thm©Zz=
`aeo.
`bdeiau3
`oy
`'

`@Gs.1&
`ibed
`“3fhOr
`=
`“3
`ze.=§
`“ig
`
`eeae<
`
`
`oso5©S&S808
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`iloWWiOalaldSiNSG0)NxBo&an)2eZOox%s§a2>=~c8tuaonZGas&5wo“ite_=bcod‘giioeeagnMS3=NSlesan__Z_oO§3Ss8Zain ge0aos22oy.thebe
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`
`ie3tes&SEOS8“4BBE2feee—3ske6GBB“tdtbfmtatSmeSeo9eeES
`om47
`eGotia
`wn.26Of2=
`2.
`tdee
`oFpe
`c
`>52
`D®
`2
`
`
`oon
`
`
`'oALuayBedB8Ws
`—
`oo22
`6
`es)
`SB
`HEAog
`°o
`a»2°
`asa
`Oo5=
`tA“&,C4
`oo4342
`“an
`Fo
`oe>Lu
`—
`an
`ro
`on,
`BEES
`
`
`NmSSy a~Oopeeeees
`a
`cock
`Grd
`sn
`—
`re)©Bl
`
`went
`
`wg,tx
`Oo=
`OmoOn
`alcadcold|
`es
`OD
`on
`1te
`+ae
`@“a<fat
`i
`OO}=1<r
`4gnoesRANGA
`5oO
`a
`ool
`"era,
`Lb
`iAe
`
`SSaE3)©
`
`iO£9]=|ex)
`2
`
`S315
`
`oH2ad|Baa
`aks
`WuPd2rcNLOa©QSo6oeO
`
`
`cs
`tyhe
`2
`..
`iBEE
`a
`et
`inlSI)ea
`co
`EA
`Bak
`inIa3
`a
`:
`EanRey)
`co
`tomway
`ag
`eeAoO
`
`@
`
` ieSxREESESSNSUae8
`%
`on.
`xOe
`ee
`#%
`
`aayneae
`Anesas
`
`
`
`
`
`
`
`
`SaasSEREekuscdeeioedstg4Q'SREEEEaaaaaeoaiHoo“eekes
`
`
`
`
`
`
`AStoaSQO
`
`ealSIBI|aunt
`
`oewa7=8928E8eeerese|og<&eeesesis haePree
`
`
`
`
`
`
`Ngalgses31SiSS
`Saas
`
` /2BéTBooESge
`BREE
`<tc
`Z
`Oh,ayyro%
`
`4nd
`>
`eee
`
`G>
`eS8ogas
`28a33
`“3
`-
`BEREH
`a
`ala
`1}
`
`
`teQth,
`SO8So5amBo
`.oe
`a8es
`a
`“=
`S&S
`Naot
`a
`SSeen8
`
`qa4o38
`Le)5i2
`SH
`yoo3Oo
`—
`
`wlAZz
`we
`SaagEREAEet
`
`oO“gefan
`
`
`
`
`=SEPoNSSagesee
`ws
`
`
`wy,
`eeat
`vay
`ia
`
`3ioeLo)Basso
`
`ey.~&smQS<S8aNs
`
`LL
`<levyad
`aep©
`
`iag2Fa=<i
`
`
`
`

`

`(19)
`Bundesrepublik Deutschland
`Deutsches Patent- und Markenamt
`
`() DE 102 60 805 A1 2004.07.22
`
`(12)
`
`Offenlegungsschrift
`
`(21) Aktenzeichen: 102 60 805.9
`(22) Anmeldetag: 23.12.2002
`(43) Offenlegungstag: 22.07.2004
`
`(71) Anmelder:
`Geneart GmbH, 93053 Regensburg, DE
`
`(74) Vertreter:
`BOEHMERT & BOEHMERT, 28209 Bremen
`
`Prufungsantrag gemak § 44 PatG ist gestellt.
`
`
`
`(51) int ci.?2:; CO7H 21/00
`C12P 21/00, C12N 15/12, C12N 15/29,
`C12N 15/31, C12N 15/52
`
`(72) Erfinder:
`Raab, David, 93176 Beratzhausen, DE; Graf,
`Marcus, 93047 Regensburg, DE
`
`Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen
`
`(54) Bezeichnung: Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Prote-
`ins
`
`
`
`Eingabe der
`Aminosauresequenz
`
`der Lange N
` Beginne mit Aminosaure i=1
`
`Bilde erste KDS der Codonsfir die Aminoséureni
`a bisi+m-1
`
`¢————
`($$
`Bilde Testsequenz durch Aneinanderfiigen der
`bereits optimierten DNS - Sequenz und der KDS.
`
`(57) Zusammenfassung: Die Erfindung betrifft ein Verfah-
`ren zum Optimieren einer Nucleotidsequenz zur Expressi-
`on eines Proteins auf der Grundlage der Aminosaurense-
`quenz des Proteins, bei welchem fur einen bestimmten Be-
`reich eine Testsequenz mit m Optimierungspositionenfest-
`gelegt wird, auf denen die Codonbesetzung variiert wird,
`wobei mittels eienr Gutefunktion die optinale Codonbeset-
`zung auf diesen Optimierungspositionen ermittelt wird und
`ein oder mehrere Codons dieser optimalen Besetzung als
`Codons der optimierten Nucleotidsequenz festgelegt wer-
`den. Diese Schritte werden iteriert, wobei bei nachfolgen-
`den Iterationsschritten die in vorangehenden Schritten fest-
`gelegten Codonsder optimierten Nucleotidsequenz unver-
`andert bleiben. Die Erfindung betrifft weiterhin eine Vorrich-
`tung zur Durchftihrung dieses Verfahrens.
`
`
`
`
`
` Y
`nein
`
`gebildet ?
`
`
`Evalu:ere die Testsequenz nach benutzerdefinierten
`Kriterien und bestimme den Wert eine Gutefunktion
`durch VerrechnungderKriteriumsgewichtein einer
`Bewertungsfunktion
`
` nein
`
`
`Wert der Gittefunktion
`besserals gespeicherter
`Wert?
`
`Spe chere Wert der Gitefunktion und
`
`
`daszur Bildung der KDS verwendete
`Codonfur die Aminosaure i
`
`
`
`Alle méglichen KDS
`
`Bilde nachste mégliche KDS der Codonsfir die
`Aminosaureni bis i+m-1
`
`
`
`——
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Beschreibung
`
`[0001] Die Erfindung betrifft allgemein die Erzeugung synthetischer DNS-Sequenzen und deren Verwendung
`zur Erzeugung von Proteinen, indem diese DNS-Sequenzen in ein Expressionssystem, zum Beispiel in einen
`Wirtsorganismus/eine Wirtszelle oder ein System fur eine In-vitro-Expression eingebracht werden, der bzw.die
`das entsprechende Protein exprimiert. Sie betrifft insoesondere Verfahren, bei denen eine synthetische Nuc-
`leotidsequenz fiir das jeweilige Expressionssystem, also zum Beispiel fur einen Organismus/fur eine Wirtszel-
`le, mit Hilfe eines Computers optimiert wird.
`[0002] Eine Technik zur Herstellung und Synthetisierung von Proteinen ist das Klonen und Exprimieren der
`dem Protein entsprechenden Gensequenz in heterologen Systemen, z.B. Escherichia coli oder Hefe. Naturlich
`vorkommende Gene sind fur diesen Zweck allerdings haufig suboptimal. Da in einer DNS-Sequenz, die ein
`Protein exprimiert, jeweils ein Triplett von Basen (Codon) eine Aminosaure exprimiert,
`ist es mdglich, eine
`kUnstliche DNS-Sequenz zur Expression des gewUnschten Proteins zu synthetisieren und fur das Klonen und
`Exprimieren des Proteins zu verwenden. Ein Problem bei diesem Vorgehen besteht darin, dafg einer vorgege-
`benen Aminosaurensequenz keine eindeutige Nucleotidsequenz entspricht. Dies wird als Degeneriertheit des
`genetischen Codes bezeichnet. Unterschiedliche Organismen verwenden Codons fur die Expression einer
`Aminosaure mit unterschiedlicher Haufigkeit (sogenannte Codon usage). In der Regel gibt es in einem gege-
`benen Organismus ein Codon, das Uberwiegend verwendet wird und ein oder mehrere Codons, welche mit
`vergleichsweise geringer Haufigkeit von dem Organismus zur Expression der entsprechenden Aminosaure
`verwendet werden. Da die synthetisierte Nucleotidsequenz in einem bestimmten Organismus verwendet wer-
`den soll, sollte die Wahl der Codons an die Codon usage des entsprechenden Organismus angepafit sein. Eine
`weitere wichtige GrdfRe ist der GC-Gehalt (Gehalt der Basen Guanin und Cytosin in einer Sequenz). Weitere
`Faktoren, welche das Expressionsergebnis beeinflussen kénnen, sind DNS-Motive und Wiederholungen oder
`invers komplementare Wiederholungen in der Basensequenz. Bestimmte Basenabfolgen erzeugen in einem
`gegebenen Organismus bestimmte Funktionen, die innerhalb einer codierenden Sequenz nicht erwunscht sein
`kénnen. Beispiele sind cis-aktive Sequenzmotive wie Splei&stellen oder Transkriptionsterminatoren. Das un-
`beabsichtigte Vorhandensein eines bestimmten Motivs kann die Expression reduzieren oder ganz unterdru-
`cken oder sogar fur den Wirtsorganismus eine toxische Wirkung haben. Sequenzwiederholungen k6nnen zu
`einer geringeren genetischen Stabilitat fuhren und erschweren die Synthese repetitiver Abschnitte aufgrund
`der Gefahr von Fehlhybridisierungen. Invers komplementare Wiederholungen k6nnen zur Bildung von uner-
`wunschten Sekundarstrukturen auf der RNA-Ebene oder cruciformer Strukturen auf DNS-Ebene fuhren, wel-
`che die Transkription behindern und zu genetischer Instabilitat fuhren, bzw. die Translationseffizienz negativ
`beeinflussen kénnen.
`[0003] Ein synthetisches Gen sollte daher hinsichtlich der Codon usage und des GC-Gehalts optimiert sein
`und andererseits die mit DNS-Motiven sowie Sequenzwiederholungen und invers komplementaren Sequen-
`zwiederholungen verbundenen Probleme weitgehend vermeiden. Diese Erfordernisse lassen sich in der Regel
`jedochnicht gleichzeitig und in optimaler Weise erflllen. Beispielsweise kann eine Optimierung auf die optima-
`le Codon usage zu einer stark repetitiven Sequenz und einem erheblichen Abweichen von dem gewUnschten
`GC-Gehalt fuhren. Es gilt daher, einen méglichst optimalen Kompromif&S zwischen der Erfillung der verschie-
`denen Erfordernisse herbeizufUhren. Die grof&e Anzahl von Aminosauren in einem Protein fuhrt jedoch zu einer
`kombinatorischen Explosion der Zahl der méglichen DNS-Sequenzen, welche — im Prinzip — das gewUnschte
`Protein exprimieren k6nnen. Aus diesem Grund wurden verschiedene computergestutzte Verfahren zum Er-
`mitteln einer optimalen Codonsequenz vorgeschlagen.
`
`Stand der Technik
`
`[0004] P.S. Sarkar und Samir K. Brahmachari, Nucleic Acids Research 20 (1992), 5713 beschreiben Unter-
`suchungen zur Rolle der Wahl der Codons bei der Bildung bestimmter raumlicher Strukturen einer DNS-Se-
`quenz. Hierbei wurden alle mdglichen degenerierten Nucleotidsequenzen generiert. Eine Bewertung der Se-
`quenzen hinsichtlich des Vorhandenseins von strukturellen Motiven und strukturbildender Abschnitte erfolgte
`durch einen Computer unter Verwendung einer Wissensbasis. Die Verwendung einer Gutefunktion ist nicht of-
`fenbart.
`
`[0005] D.M. Hoover und J. Lubkowski, Nucleic Acid Research 30 (2002), Nr. 10 e43 schlagt ein computerge-
`stutztes Verfahren vor, bei dem die Nucleotidsequenz in eine ungerade Anzahl von Abschnitten unterteilt wird,
`fur die jeweils eine GUtefunktion (Score) berechnetwird. In die Glitefunktion gehen u.a. die Codon usage, die
`Méglichkeit der Bildung von Haarnadelstrukturen und die Abweichungen von der gewUnschten Schmelztem-
`peratur ein. Der Wert der Gutefunktion fur die Gesamtsequenz bestimmt sich aus der Summe der Werte der
`Gutefunktion fur die einzelnen Abschnitte. Die Besetzung mit Codons innerhalb eines Abschnittes wird durch
`ein sogenanntes Monte-Carlo-Verfahren optimiert. Dabei werden statistisch Codonpositionen ausgewahlt, bei
`denen das Codon einer Ausgangssequenz durch ein statistisch ausgewahltes aquivalentes Codon ersetzt
`
`2/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`wird. Gleichzeitig werden in einer Iteration auch die Grenzen der Abschnitte neu definiert. Auf diese Weise wird
`eine vollstandige Gensequenz statistisch generiert. Ist der Wert der Giitefunktion fur die Gesamtsequenz klei-
`ner als die bisherige Sequenz, wird die neue Sequenz beibehalten. Ist er grdéRer, wird mit einer gewissen Wahr-
`scheinlichkeit die neue Sequenz beibehalten, wobei diese Wahrscheinlichkeit durch eine Boltzmann-Statistik
`kontrolliert wird. Wenn sich innerhalb einer vorbestimmten Anzahl von Iterationen die Sequenz nicht andert,
`wird diese Sequenz als optimale Sequenz bewertet.
`[0006] Derartige statistische Verfahren haben den Nachteil, dafg sie stark von der Wahl der Konvergenzkrite-
`rien abhangen.
`
`Aufgabenstellung
`
`[0007] Es ist die Aufgabe der Erfindung, ein alternatives Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verfugung zu stel-
`len, welchessich mit relativ geringem Speicherplatz und relativ geringer Rechenzeit auf einem Computer im-
`plementieren lat und welches insbesondere Nachteile der statistischen Verfahren vermeidet.
`[0008] ErfindungsgemaR wird diese Aufgabe durch ein Verfahren zum Optimieren einer Nucleotidsequenz
`zur Expression eines Proteins auf der Grundlage der Aminosaurensequenz des Proteins gelést, welches die
`folgenden auf einem Computer durchgefuhrten Schritte umfaRt:
`— Generieren einer ersten Testsequenz von n Codons, welche n aufeinanderfolgenden Aminosauren in der
`Proteinsequenz entsprechen, wobei n eine naturliche Zahl und kleiner oder gleich N, der Zahl der Amino-
`sauren der Proteinsequenz, ist,
`— Festlegen von m Optimierungspositionen in der Testsequenz, welche der Position von m Codons, insbe-
`sondere von m aufeinanderfolgenden Codons, entsprechen, an denen die Besetzung mit einem Codon, be-
`zogen auf die Testsequenz, optimiert werden soll, wobei m = n und m <N ist,
`— Generieren einer oder mehrerer weiterer Testsequenzen aus der ersten Testsequenz, indem an einer oder
`mehreren der m Optimierungspositionen ein Codon der ersten Testsequenz durch ein anderes Codon er-
`setzt wird, welches dieselbe Aminosaure exprimiert,
`— Bewerten jeder der Testsequenzen mit einer Gutefunktion und Ermitteln der hinsichtlich der Gutefunktion
`optimalen Testsequenz,
`— Festlegen von p Codons der optimalen Testsequenz, welche sich an einer der m Optimierungspositionen
`befinden, als Ergebniscodons, welche die Codons der optimierten Nucleotidsequenz an den Positionen bil-
`den, die der Position der besagten p Codons in der Testsequenz entspricht, wobei p eine naturliche Zahl
`und p s mist,
`— Iterieren der vorangehenden Schritte, wobei in jedem lIterationsschritt die Testsequenz an den Positionen,
`welche Positionen von festgelegten Ergebniscodons in der optimierten Nucleotidsequenz entsprechen, das
`entsprechende Ergebniscodon enthalt und die Optimierungspositionen von Positionen von Ergebniscodons
`verschieden sind.
`
`[0009] Gemaf der bevorzugten Ausfiihrungsform der Erfindung werden die vorangehend genannten Schritte
`so oft iteriert, bis alle Codons der optimierten Nucleotidsequenz festgelegt, d.h. mit Ergebniscodons besetzt
`worden sind.
`[0010] ErfindungsgemaR wird also die Sequenz nicht insgesamt, sondern sukzessiv auf Teilbereichen opti-
`miert. Die in einem Iterationsschritt als optimal festgelegten p Ergebniscodons werden in den nachfolgenden
`Iterationsschritten nicht mehr verandert und vielmehr bei den jeweiligen Optimierungsschritten als gegeben vo-
`rausgesetzt. Vorzugsweiseist die Anzahl der Ergebniscodons, welche auf diese Weise fur die weiteren Itera-
`tionen festgelegt und als vorgegeben behandelt werden, kleiner als die Anzahl m der Optimierungspositionen,
`an denen in einem Iterationsschritt die Codonsvariiert werden. Zumindest in der Mehrzahl der Iterationsschrit-
`te, bei einer besonderen Ausfuhrungsform bei allen Iterationsschritten auRer dem ersten, ist wiederum m klei-
`ner als die Zahl der Codons der Testsequenz (n). Dies gestattet es, nicht nur lokale Effekte auf den m variierten
`Positionen, sondern auch langerreichweitige Korrelationen, z.B. im Zusammenhang mit der Entstehung von
`RNA-Sekundarstrukturen, zu berUcksichtigen.
`[0011] Gemak den derzeit bevorzugten Ausfulhrungsformen liegt m im Bereich von 3 bis 20, vorzugsweise im
`Bereich von 5 bis 10. Bei dieser Wahl dieses Parameters kann die Variation der Codons mit einem akzeptablen
`Aufwand an Speicher und Rechenzeit durchgefuhrt werden und gleichzeitig eine gute Optimierung der Se-
`quenz erreicht werden.
`[0012] Gemaf einer AusfUhrungsform muf m in den verschiedenen Iterationsschritten nicht gleich sein, son-
`dern kann vielmehr auch in unterschiedlichen Iterationsschritten verschieden sein. Es kann auch vorgesehen
`sein, in einem lIterationsschritt die Variation der Testsequenz fur verschiedene Werte von m durchzufUhren und
`ggf. nur das Optimierungsergebnis fur einen Wert von m zu beriicksichtigen, um Einflusse der Gréf&e m auf
`das Optimierungsergebnis zu reduzieren bzw. um zu Uberpriifen, ob eine VergréRerung der Zahl m zu einer
`
`3/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Anderung des Ergebnissesfihrt.
`[0013] GemafR der bevorzugten Ausfuhrungsform sind die m Optimierungspositionen oder zumindestein Teil
`davon zusammenhangend und bilden somit ein Variationsfenster in der Testsequenz, auf welchem die Codon-
`besetzung variiert wird.
`[0014] Die Erfindung kann insbesondere vorsehen, dal in zwei oder mehr aufeinanderfolgenden Iterations-
`schritten ein Teil der m Optimierungpositionen, auf welchen die Codons variiert werden, identisch sind. Sind
`die m Positionen zusammenhangend, bedeutet dies, da das Variationsfenster bei einem lIterationsschritt mit
`dem Variationsfenster eines vorangehenden Iterationsschrittes Uberlappt.
`[0015] Die Erfindung kann vorsehen, dafS in einem oder mehreren Iterationsschritten die m Optimierungspo-
`sitionen der Testsequenzen unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der opti-
`mierten Nucleotidsequenz festgelegt worden sind.
`[0016] Die Erfindung kann ebenfalls vorsehen, daf& in einem oder mehreren Iterationsschritten die p Codons,
`die als Ergebniscodons der optimierten Nucleotidsequenz festgelegt werden, p aufeinanderfolgende Codons
`sind, die vorzugsweise unmittelbar auf ein oder mehrere Ergebniscodons folgen, welche als Teil der optimier-
`ten Nucleotidsequenz in einem fruheren Schritt festgelegt worden sind.
`[0017] Die Erfindung kann vorsehen, dafs die Nucleotidsequenz von einem ihrer Enden her optimiert wird. Ins-
`besondere kann die Erfindung vorsehen, daf& in jedem Iterationsschritt die Lange der Testsequenz des vorhe-
`rigen Iterationsschritts um eine bestimmte Anzahl Codons, die in unterschiedlichen Iterationen verschieden
`sein kann, vergréfert wird, bis n =Nist. Ist n = N und die Zahl derjenigen Positionen, die in der Testsequenz
`nicht mit Ergebniscodons besetzt sind, kleiner oder gleich dem Wert von m, der in den vorangehenden Iterati-
`onen verwendet wurde, oder liegt diese Zahl, bei Verwendung unterschiedlicher Werte von m in verschiedenen
`Iterationen, im Bereich der in Frage kommenden Werte von m, kann in dem entsprechenden Iterationsschritt
`p = m gesetzt werden, wobei m gleichzeitig die Zahl der noch nicht festgelegten Codons ist. Die als optimal
`aufgefundene Besetzung der Optimierungspositionen wird dann fur die Ergebniscodons an diesen Optimie-
`rungspositionen Ubernommen. Diesgilt insbesondere dann, wenn fur jede mdgliche Kombination von Beset-
`zungen der Optimierungspositionen eine Testsequenz generiert wird.
`[0018] Es kann jedoch auch vorgesehen sein, da der Bereich der Testsequenz innerhalb der gesamten Se-
`quenz in einem Iterationsschritt nicht oder nicht vollstandig den Bereich einer Testsequenz in einem vorherigen
`Iterationsschritt unfaRt. Beispielsweise kann die Testsequenz selbst ein Fenster auf der Gesamtsequenz, z.B.
`ein Fenster fester Lange, bilden, das im Laufe der verschiedenen Iterationen auf der Gesamtsequenz verscho-
`ben wird.
`
`[0019] Gema® einer bevorzugten Ausfuhrungsform wird die Testsequenz nach jedem Schritt um p Codons
`verlangert, wobei insbesondere m fur alle Iterationsschritte konstant sein kann.
`[0020] Analog zu der vorangehend beschriebenen AusfUhrungsform der Erfindung kann auch vorgesehen
`sein, da die Nucleotidsequenz von einer Stelle in ihrem Inneren her optimiert wird. Dies Kann z.B. in der Art
`geschehen, da eine anfangliche Testsequenz, welche einem Bereich im Inneren der zu optimierenden Nuc-
`leotidsequenz entspricht, zunachst nach einer Seite sukzessiv vergr6fert wird, bis das Ende der zu optimie-
`renden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidsequenz er-
`reicht ist, und dann die Testsequenz zu der anderen Seite hin vergr6ert wird, bis dort das andere Ende der
`zu optimierenden Nucleotidsequenz oder ein anderer vorgegebener Punkt der zu optimierenden Nucleotidse-
`quenz erreicht ist.
`[0021] Die Erfindung kann auch vorsehen, da die Testsequenzen in einem Iterationsschritt aus einer opti-
`mierten oder anderweitig festgelegten Teilsequenz der Lange q und zwei auf beiden Seiten daran anschlieRen-
`den Variationsbereichen mit einer Lange von m, bzw. m, Codonsbesteht, wobei q +m, + m, =n gilt. Die Be-
`setzung der Variationsbereiche kann fur beide Variationsbereiche gemeinsam optimiert werden, indem die Co-
`dons auf den m, und m, Platzen gleichzeitig variiert und optimiert werden. Vorzugsweise werdenin einem sol-
`chen Fall in jedem lIterationsschritt p, und p, Codons in dem ersten und zweiten Variationsbereich festgelegt,
`welche der weiteren Iteration als gegeben zugrunde gelegt werden. Es kann jedoch auch vorgesehen sein,
`dal die beiden Variationsbereiche unabhangig voneinander variiert und optimiert werden. Beispielsweise kann
`vorgesehen sein, dal die Besetzung nur in einem der beiden Variationsbereiche variiert wird und nur in dem
`einen Bereich Codons festgelegt werden, bevor die Variation und Optimierung in den zweiten Bereich stattfin-
`det. In diesem Fall werden die p, festgelegten Codonsin dem ersten Bereich bei der Optimierung des zweiten
`Bereichs als gegeben vorausgesetzt. Dieses Vorgehen ist dann sinnvoll, wenn allenfalls geringe Korrelationen
`zwischen den beiden Bereichen zu erwarten sind.
`[0022] Gemafk dieser Ausfilhrungsform kann vorgesehen sein, daf& die Nucleotidsequenz von einem Punkt
`oder einem Bereich im Inneren der Sequenz ausgehend optimiert wird.
`[0023] Die Erfindung kann insbesondere vorsehen, da in jedem Iterationsschritt der Bereich der Testse-
`quenz auf der Gesamtsequenz den Bereich der Testsequenzen in allen vorangehenden Iterationsschritten um-
`fat und der Bereich einer Testsequenz in zumindesteinigen der vorangehenden Iterationsschritte jeweils im
`Inneren oder jeweils am Rand des Bereichs der Testsequenz in dem aktuellen Iterationsschritt liegt.
`
`4/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`[0024] Die Erfindung kann vorsehen, daf& die Nucleotidsequenz auf verschiedenen Teilbereichen unabhangig
`optimiert wird. Die optimierte Nucleotidsequenz kann dann die Kombination der verschiedenen optimierten
`Teilsequenzen sein. Es kann auch vorgesehen sein, daf& zumindestein Teil der jeweiligen Ergebniscodons von
`zwei oder mehr optimierten Teilbereichen als Bestandteil einer Testsequenz in einer oder mehreren Iterationen
`verwendetwird.
`[0025] Gemafk einer bevorzugten Ausflhrungsform der Erfindung ist vorgesehen, dak in einem Iterations-
`schritt Testsequenzen mit allen méglichen Codonbesetzungen fur die m Optimierungspositionen aus der ers-
`ten Testsequenz generiert werden und die optimale Testsequenz unter allen mdglichen Testsequenzen, bei de-
`nen an einer oder mehreren der m Optimierungspositionen ein Codon durch ein anderes Codon, welches die-
`selbe Aminosaure exprimiert, ersetzt wurde, ermittelt wird.
`[0026] Gema® einer Ausfuhrungsform der Erfindung ist die zum Bewerten der Testsequenzen verwendete
`Gutefunktion bei allen oder zumindest der Mehrzahl der Iterationen gleich. Die Erfindung kann jedoch auch
`vorsehen, unterschiedliche Gutefunktionen in unterschiedlichen Iterationen, zum Beispiel in Abhangigkeit von
`der Lange der Testsequenzen, zu verwenden.
`[0027] Das erfindungsgemake Verfahren kann insbesonderedie folgenden Schritte umfassen:
`— Bewerten jeder Testsequenz mit einer Gutefunktion,
`— Ermitteln eines Extremwertes innerhalb der Werte der GUtefunktion fur alle in einem Iterationsschritt ge-
`nerierten Teilsequenzen,
`—Festlegen von p Codons der Testsequenz, welche dem extremalen Wert der Gewichtsfunktion entspricht,
`als Ergebniscodons an den entsprechenden Positionen, wobei p eine natirliche Zahl und p < m ist.
`
`[0028] Die Gutefunktion kann so definiert sein, da& die Sequenz entweder umso naher an dem Optimum liegt,
`je grof&er der Wert der Gutefunktion ist, oder umso naher an dem Optimum liegt, je kleiner ihr Wert ist. Entspre-
`chend wird man bei dem Schritt des Ermittelns des Extremwertes das Minimum oder das Maximum der Gite-
`funktion unter den generierten Codonsequenzen ermitteln.
`[0029] Die Erfindung kann vorsehen, dag die Gutefunktion eines oder mehrere der folgenden Kriterien be-
`rucksichtigt: Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, Sequenzmotive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0030] Die Erfindung kann insbesondere vorsehen, da die Gutefunktion eines oder mehrere der folgenden
`Kriterien berucksichtigt:
`—cis-aktive Sequenz-Motive, insbesondere DNS/Protein-Interaktionsbindestellen und RNS/Protein-Interak-
`tionsbindestellen, bevorzugt Splei&motive, Transkriptionsfaktorbindestellen, Transkriptionsterminatoren-
`bindestellen, Polyadenylierungssignale, Endonucleaseerkennungssequenzen,
`immunomodulatorische
`DNS-Motive, Ribosomenbindestellen, Erkennungssequenzen fur rekombinationsaktive Enzyme, Erken-
`nungssequenzen fur DNS-modifizierende Enzyme, Erkennungssequenzen fur RNS-modifizierende Enzy-
`me, Sequenzmotive, die in einem vorgegebenen Organismus unterreprasentiert sind.
`
`[0031] Die Erfindung kann auch vorsehen, dafs die Gutefunktion eines oder mehrere der folgenden Kriterien
`berucksichtigt:
`— Ausschlu oder weitgehender Ausschluf von invers komplementaren Sequenzidentitaten von mehr als
`20 Nukleotiden zum Transkriptom eines vargegebenen Organismus,
`— Ausschlu oder weitgehender AusschluR von Hamologiebereichen von mehr als 1.000 Basenpaaren, be-
`vorzugt 500 Basenpaaren, starker bevorzugt 100 Basenpaaren zu einer vorgegebenen DNS-Sequenz, zum
`Beispiel zu dem Genom eines vorgegebenen Organismus oder zu der DNS-Sequenz eines vorgegebenen
`Vektorkonstrukts.
`
`[0032] Das erste dieser beiden Kriterien betrifft den Ausschluf des als RNA-Indifferenz bekannten Mechanis-
`mus, mit dem ein Organismus RNA-Sequenzen mit mehr als 20 Nukleotiden exakter Identitat zu einer anderen
`RNA-Sequenz eliminiert oder deaktiviert. Mit dem zweiten Kriterium soll verhindert werden, dal eine Rekom-
`bination, das hei&t ein Einbau der Sequenz in das Erbgut des Organismus, oder eine Mobilisierung von
`DNS-Sequenzen durch Rekombination mit anderen Vektoren stattfindet. Beide Kriterien kK6nnen als absolute
`Ausschlu&kriterien verwendet werden, d.h. Sequenzen, bei denen eines oder beide dieser Kriterien erfullt sind,
`werden nicht berucksichtigt. Die Erfindung kann auch, wie nachfolgend noch genauer im Zusammenhang mit
`Sequenzmotiven erlautert wird, vorsehen, da diesen Kriterien ein Gewicht zugeordnetist, das betragsmakig
`grdfRer ist als der gré&te Beitrag von Kriterien zu der Gutefunktion, welche keine Ausschlufkriterien sind.
`[0033] Die Erfindung kann auch, gegebenenfalls zusammen mit anderen Kriterien, das Kriterium vorsehen,
`dak keine Homologiebereiche erzeugt werden, die mehr als 90 % Ahnlichkeit und/oder 99 % Identitat zu einer
`vorgegebenen DNS-Sequenz, zum Beispiel zu der entsprechenden Genomsequenz des vorgegebenen Orga-
`nismus oder zu der DNS-Sequenz eines vorgegebenen Vektorkonstrukts aufweisen. Auch dieses Kriterium
`kann entweder als absolutes AusschluRkriterium realisiert sein oder in einer Weise, dafg es einen sehr groRen
`
`5/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`Beitrag zu der Gutefunktion leistet, welcher den Beitrag anderer Kriterien, die nicht Ausschlu&kriterien sind,
`Uberwiegt.
`[0034]
`Insbesondere kann vorgesehen sein, daf& die Gutefunktion eine Funktion von verschiedenen Einzel-
`termen, insbesondere eine Summe von Einzeltermen ist, die jeweils ein Kriterium aus der folgenden Liste von
`Kriterien bewerten: Codon usage fur einen vorgegebenen Organismus, GC-Gehalt, DNS-Motive, repetitive Se-
`quenzen, Sekundarstrukturen, inverse Repeats.
`[0035] Die besagte Funktion von Einzeltermen kann insbesondere eine Linearkombination von Einzeltermen
`oder eine rationale Funktion von Einzeltermen sein. Die genannten Kriterien mussen nicht notwendigerweise
`vollstandig in der Gewichtsfunktion berucksichtigt werden. Es kann auch nur ein Teil der Kriterien in der Ge-
`wichtsfunktion verwendet werden.
`
`[0036] Die verschiedenen Einzelterme in der besagten Funktion werden nachfolgend Kriteriumsgewichte ge-
`nannt.
`
`[0037] Die Erfindung kann vorsehen, da das Kriteriumsgewicht betreffend die Codon Usage (CU Score) pro-
`portional zu 2f,/f,.... ist, wobei
`—f,, die Haufigkeit des an der Stelle i der Testsequenz gesetzten Codonsfur den betreffenden Organismus
`zur Expression der Aminosaure an der Stelle i der Aminosaurensequenz des zu exprimierenden Proteins
`ist und
`—ftomaxi die Haufigkeit des Codonsist, welches in dem entsprechenden Organismus am haufigsten die Ami-
`nosaure an der Stelle i exprimiert.
`
`[0038] Das Mak f,/fonad ist als ,Relative Adaptiveness" bekannt(vgl. P. M. Sharp, W. H. Li, Nucleic Acids Re-
`search 15 (3) (1987), 1281 bis 1295).
`[0039] Das lokale Gewicht des am haufigsten vorkommenden Codonswird dabei, unabhangig von der abso-
`luten Haufigkeit, mit der dieses Codon vorkommt, auf einen bestimmten Wert, zum Beispiel 1, gesetzt. Damit
`wird vermieden, daf& die Positionen, an denen nur wenige Codons zur Auswahl stehen, starker zu dem Ge-
`samtgewichtbeitragen als diejenigen, an denen eine gréfere Anzahl von Codons zur Expression der Amino-
`saure zur Auswahl stehen. Der Index i kann Uber die gesamten n Codons der Testsequenz oder einen Teil da-
`von laufen. Insbesondere kann in einer Ausfuhrungsform vorgesehen sein, dal’ i nur Uber die m Codons der
`Optimierungspositionen lauft.
`[0040] Die Erfindung kann vorsehen, daf& das Kriteriumsgewicht betreffend die Codonusage nur fur die m
`Ordnungspositionen verwendet wird.
`[0041] Anstelle der Relative Adaptiveness kann auch die sogenannte RSCU (Relative Synonymous Codon
`Usage; vgl. P. M. Sharp, W. H. Li, a.a.0.) verwendet werden. Die RSCU fur eine Codonposition ist definiert
`durch
`
`RSCU,= fid/(Efa)
`
`definiert, wobei die Summe im Nenner Uber alle Codons lauft, welche die Aminosaure an der Stelle i exprimie-
`ren und wobei d, die Zahl der Codons angibt, welche die besagte Aminosaure exprimieren. Um ein Kriterien-
`gewicht auf der Grundlage der RSCU zu definieren, kann vorgesehen sein, da die RSCU flr die jeweilige
`Testsequenz Uber alle Codons der Testsequenz oder einen Teil davon, insbesondere Uber die m-Codons der
`Optimierungspositionen, summiert wird. Der Unterschied zu dem von der Relative Adaptiveness abgeleiteten
`Kriteriumsgewicht besteht darin, da bei dieser Gewichtung jede Codonposition mit dem Grad der Degene-
`riertheit, d;, gewichtet wird, so daf& solche Positionen, an denen mehr Codons zur Auswahl stehen, starker in
`das Kriteriumsgewicht eingehen als solche Positionen, an denen nur wenige Codons oder sogar nur ein einzi-
`ges Codon zur Auswahl stehen.
`[0042] Bei den vorangehend beschriebenen Kriteriumsgewichten fur die Codon-Usage wurde dasarithmeti-
`sche Mittel Uber die lokalen Gewichte (Relative Adaptiveness, RSCU) gebildet.
`[0043] Es kann auch vorgesehen sein, dali das Kriteriumsgewicht betreffend die Codon-Usage proportional
`zu den geometrischen Mittel der lokalen Relative Adaptiveness bzw. der lokalen RSCU ist, so dal also gilt
`
`CUScore = K(T,RSCU,)"*
`
`oder
`
`ici
`“cmaxi
`CUScore = K (f,/fomaa)”
`
`ist, wobei K ein Skalierungsfaktor ist und L die Anzahl der Positionen ist, Uber welche das Produkt gebildet
`wird. Auch hier kann das Produkt wieder Uber die gesamte Testsequenz oder einen Teil, insbesondere Uber
`die m Optimierungspositionen, gebildet werden.
`
`6/37
`
`

`

`DE 102 60 805 A1 2004.07.22
`
`In diesem Zusammenhang stellt die Erfindung auch ein Verfahren zum Optimieren einer Nukleotidse-
`[0044]
`quenz zur Expression eines Proteins auf der Grundlage der Aminosauresequenz des Proteins zur Verfugung,
`welches die folgenden auf einem Computer durchgefuhrten Schritte umfat:
`— Generieren einer oder mehrerer Testsequenzen von n Codons, welche n aufeinanderfolgende Aminosau-
`ren in der Proteinsequenz entsprechen, wobei n eine naturlich Zahl kleiner oder gleich N, der Zahl der Ami-
`nosauren der Proteinsequenz, ist,
`— Bewerten der einen oder mehreren Testsequenzen auf der Grundlage einer Gitefunktion, welche ein ge-
`ometrisches oder arithmetisches Mittel der Relative Adaptiveness oder der RSCU uber eine Anzahl von L
`Codonpositionen enthalt, wobei L kleiner oder gleichNist,
`— Generierung einer oder mehrerer neuer Testsequenzen in Abhangigkeit von dem Ergebnis der besagten
`Bewertung.
`
`[0045] Dabei kann die Generierung einer oder mehrerer neuer Testfunktionen in der oben beschriebenen
`Weise derart erfolgen, daf& die neuen Testsequenzen eine bestimmte Anzahl aufgrund der vorangehenden Ite-
`rationen festgelegte Ergebniscodons enthalten, aber z.B. auch so, da eine bestimmte Testsequenz mit einer
`bestimmten Wahrscheinlichkeit, die von dem Wert der Giltefunktion abhangt, als Grundlage fur weitere Itera-
`tionen, insbesondere die weitere Erzeugung von Testsequenzen, verwendet wird, wie dies bei Monte-Car-
`lo-Verfahren der Fall ist.
`[0046] Wahrend die Qualitat eines Codons bei den obengenannten Verfahren durch die Nutzungshaufigkeit
`im Transkriptom oder einem Gen-Referenzset des Expressionsorganismusdefiniert wird, kann die Gute eines
`bestimmten Codons alternativ auch durch die biophysikalischen Eigenschaften des Codons selbst beschrie-
`ben werden. So ist zum Beispiel bekannt, daf§ Cadons mit einer mittleren Codon-Anticodon-Bindungsenergie
`besonderseffizient translatiert werden. Als Maf fur die translatorische Effizienz einer Testsequenz kann daher
`zum Beispiel der P2-Index verwendet werden, welcher das Verhaltnis der Haufigkeit von Codons mit mittlerer
`Bindungsenergie und Codons mit extrem starker bzw. schwacher Bindungsenergie angibt. Alternativ kKonnen
`auch experimentell oder durch theoretische Berechnungen gewonnene Daten zur translatorischen Effizienz
`oder translationsgenauigkeit eines Codons zur Giitebewertung genutzt werden. Die oben genannten Bewer-
`tungskriterien kKOGnnen besonders dann von Vorteil sein, wenn die tRNA-Frequenzen des Expressionssystems
`nicht berUcksichtigt werden mussen, da diese wie zum Beispiel bei in Vitro-Translationssystemen vom Expe-
`rimentator festgelegt werden k6nnen.
`[0047] Die Erfindung kann vorsehen, dak das Kriteriumsgewicht betreffend den GC-Gehalt (GCScore) eine
`Funktion des Betrags der Differenz des ermittelten GC-Gehalts der Teilsequenz, GCG, zu dem optimalen
`GC-Genalt, GCG,,, ist, wobei unter dem GG-Gehalt derrelative Anteil von Guanin und Cytosin, zum Beispiel
`in Form eines bestimmten prozentualen Anteils, zu verstehen ist.
`[0048]
`Insbesondere kann dasKriteriumsgewicht GCScore die folgende Form haben:
`
`GCScore = |GCG - GCG,|*-h
`
`wobei
`GCG der tatsachliche GC-Gehalt der Testsequenz oder eines vorbestimmten Teils der Testsequenz, GCG,
`oder der

Accessing this document will incur an additional charge of $.

After purchase, you can access this document again without charge.

Accept $ Charge

This document could not be displayed.

We could not find this document within its docket. Please go back to the docket page and check the link. If that does not work, go back to the docket and refresh it to pull the newest information.

Your account does not support viewing this document.

You need a Paid Account to view this document. Click here to change your account type.

Your account does not support viewing this document.

Set your membership status to view this document.

With a Docket Alarm membership, you'll get a whole lot more, including:

  • Up-to-date information for this case.
  • Email alerts whenever there is an update.
  • Full text search for other cases.
  • Get email alerts whenever a new case matches your search.

Become a Member

One Moment Please

The filing “” is large (MB) and is being downloaded.

Please refresh this page in a few minutes to see if the filing has been downloaded. The filing will also be emailed to you when the download completes.

Your document is on its way!

If you do not receive the document in five minutes, contact support at support@docketalarm.com.

Sealed Document

We are unable to display this document, it may be under a court ordered seal.

If you have proper credentials to access the file, you may proceed directly to the court's system using your government issued username and password.


Access Government Site

We are redirecting you
to a mobile optimized page.

We are unable to display this document.

PTO Denying Access

Refresh this Document
Go to the Docket