banner

Noticias

Jul 09, 2023

Los genes pluriempleo albergan ORF antisentido que codifican posibles proteínas de membrana

Scientific Reports volumen 13, número de artículo: 12591 (2023) Citar este artículo

372 Accesos

1 altmétrica

Detalles de métricas

Los genes pluriempleados codifican moléculas polipeptídicas individuales que realizan funciones múltiples y a menudo no relacionadas. Estos genes se encuentran en todos los ámbitos de la vida. Su ubicuidad y diversidad funcional plantean muchas preguntas sobre sus orígenes, evolución y papel en el ciclo celular. En este estudio, presentamos una sonda bioinformática simple que nos permite clasificar genes por potencial de traducción antisentido, y mostramos que esta sonda enriquece, de manera confiable, genes de pluriempleo en una variedad de organismos. Encontramos que los genes pluriempleo albergan supuestos marcos de lectura abiertos (ORF) antisentido ricos en codones para aminoácidos no polares. También encontramos que los genes pluriempleados tienden a ubicarse junto con genes implicados en la producción de la pared celular, la membrana celular o la envoltura celular. Sobre la base de este y otros hallazgos, ofrecemos un modelo en el que proponemos que es probable que los productos del gen pluriempleado escapen de la célula a través de huecos en la pared celular y la membrana, en los sitios de construcción de la pared/membrana; y proponemos que los ORF antisentido produzcan productos proteicos "pegajosos a la membrana", uniendo eficazmente el ADN del gen del pluriempleo a la membrana celular en áreas porosas donde se está llevando a cabo una construcción intensiva de pared celular/membrana celular. Esto conduce a un alto potencial de escape de proteínas pluriempleadas a la superficie celular. Se discuten las implicaciones evolutivas y de otro tipo de estos hallazgos.

Los genes pluriempleo son genes que codifican proteínas que tienen múltiples funciones distintas y a menudo no relacionadas1. Paradójicamente, estas proteínas suelen tener una localización citosólica además de encontrarse en el exterior de la célula. Hasta donde sabemos, no se han identificado socios en el sistema de secreción para estas proteínas. En los 30 años transcurridos desde que se descubrió que la gliceraldehído 3-fosfato deshidrogenasa (GAPDH) tenía un papel secundario en la superficie celular de los estreptococos patógenos2, se han descubierto muchos otros ejemplos de pluriempleo. Tales ejemplos incluyen productos genéticos con funciones citosólicas bien conocidas que de alguna manera terminan en la superficie de la célula o se excretan en medios de cultivo. La base de datos MoonProt, seleccionada manualmente, ahora enumera más de 300 genes de este tipo, que abarcan organismos huéspedes que van desde bacterias hasta levaduras, protistas, arqueones, plantas y mamíferos. Muchas preguntas fundamentales siguen sin respuesta: ¿Cómo adquieren estos genes múltiples funciones? ¿Cómo acceden al exterior de la célula, en ausencia de compañeros en el sistema de secreción? ¿Por qué algunas enzimas metabólicas se secretan y muchas otras no? ¿Y cómo es posible que las mismas proteínas (por ejemplo, GAPDH, enolasa, DnaK, GroEL, Ef-Tu, superóxido dismutasa) cumplan funciones de pluriempleo en diversos huéspedes? Debido a que las mismas proteínas se encuentran a menudo en funciones de pluriempleo en todos los filos, parece probable que el fenómeno sea posible gracias a procesos que son fundamentales para toda la vida. Es de destacar que muchos genes involucrados en el pluriempleo son genes antiguos y altamente conservados, lo que nuevamente apunta a procesos subyacentes que son fundamentales, tal vez incluso primordiales, en algún sentido. En el presente estudio, nuestro objetivo es realizar una investigación bioinformática de arriba hacia abajo de los genes del pluriempleo, en la que buscamos pistas de alto nivel y causas y efectos pangenómicos.

Una característica clave de la vida celular es la encapsulación: las células tienen un interior y un exterior, con estructuras duraderas que los separan. Una forma de verlo es que la célula incorpora un gradiente de entropía, con un ambiente acuoso de alta entropía en el centro, y una envoltura de baja entropía (es decir, altamente estructurada), que abarca una membrana y componentes estructurales, en el centro. la periferia. Los componentes de la membrana de la célula están compuestos en gran medida por proteínas que contienen aminoácidos no polares; mientras que, por el contrario, las proteínas solubles en agua (como las presentes en el centro de la célula) tienen en su superficie aminoácidos mayoritariamente polares. El código genético ofrece un mecanismo conveniente (y universal) para especificar aminoácidos polares versus no polares: una purina en la base dos de un codón prácticamente garantiza la selección de un aminoácido polar, mientras que una pirimidina en la segunda base tiende a garantizar una aminoácido no polar. Esto sugiere un código genético primordial que podría (al menos) haber sido un código binario, permitiendo aminoácidos polares o no polares, basado en el uso de purinas o pirimidinas en codones. (Para una discusión sobre esta posibilidad, ver Trifonov3). Ya sea ARN o ADN, el material genético primordial puede haber sido monocatenario, en cuyo caso la transcripción a ARNm (si ocurriera) podría ocurrir en una sola dirección, es decir, de 3′ a 5′. Sin embargo, con la llegada de los ácidos nucleicos de doble cadena, la transcripción pudo ocurrir en cualquiera de dos direcciones. Debido a la complementariedad, un mensaje que codifica aminoácidos polares en una dirección tendería naturalmente a codificar aminoácidos no polares en la otra dirección. Se puede imaginar un escenario en los primeros días del material genético de doble cadena, es decir, en los días anteriores a los promotores, represores, secuencias de Shine Dalgarno u otras organizaciones de secuencias especializadas como las UTR/regiones no codificantes: en ese momento, la transcripción puede haber ocurrió bidireccionalmente, con proteínas solubles en agua producidas en una dirección y proteínas ricas en aminoácidos hidrofóbicos producidas en la otra dirección, una situación que conduce de manera bastante natural a la producción de proteínas de membrana y la encapsulación de proteínas hidrofílicas dentro de las membranas (es decir, vida celular). . El pluriempleo es en gran medida una cuestión que involucra “adentro versus afuera”. Por lo tanto, es natural preguntarse si las pistas sobre el fenómeno podrían implicar cuestiones sobre el uso de aminoácidos hidrófobos y/o la construcción de la pared y la membrana celular. Consideramos esta y otras cuestiones al formular técnicas bioinformáticas diseñadas para descubrir genes pluriempleo.

Nuestros organismos modelo incluyen Streptococcus pneumoniae NCTC11032 (contenido de G + C 40,6%), Escherichia coli NCTC11775 (G + C 51,7%) y Mycobacterium tuberculosis H37Rv (G + C 65,9%). Los genomas de RefSeq se descargaron del repositorio del NCBI. Se seleccionaron un total de 25 genes de pluriempleo de la base de datos MoonProt. Estos son genes para los cuales existe amplia evidencia de actividad de pluriempleo (Tabla 1). Muchos de estos genes existen en más de una isoforma. Para nuestros experimentos de enriquecimiento, contamos cada isoforma por separado. Por ejemplo, en M. tuberculosis, la cisteína desulfurasa existe como genes csd e iscS; la superóxido dismutasa existe como SodA y sodC; etcétera. En total, contando todas las isoformas de todos los genes, M. tuberculosis contiene 35 genes de proteínas de pluriempleo; Se encontró que E. coli tenía 31; S. pneumoniae tiene 20.

Los genes seleccionados para este estudio tienen en común la característica de que se sabe que todos producen proteínas que tienen una ubicación citosólica así como una ubicación extracitosólica (ya sea en la superficie de la célula o excretada en el medio de cultivo). Por lo tanto, califican bajo la rúbrica que se ha denominado “Excreción de proteínas citosólicas” o ECP4.

Diseñamos un ensayo de enriquecimiento en el que primero puntuamos cada gen según una métrica, luego clasificamos los genes por sus puntuaciones y luego obtenemos el 20% de todos los genes con la puntuación más alta. Dentro de ese corte superior, buscamos genes pluriempleados y otras categorías funcionales de genes. Luego calculamos los números de enriquecimiento de pliegues y calculamos un valor esperado para cada uno en función de la probabilidad hipergeométrica acumulada. (El código para el análisis de enriquecimiento y el análisis de probabilidad hipergeométrica está disponible gratuitamente en https://github.com/kasmanethomas/moonlighting/tree/main). Probamos varios "tamaños de perros" del 5 al 30 % y encontramos constantemente enriquecimientos en todos los puntos de corte. Los enriquecimientos de veces tendieron a ser mayores en tamaños de muestra más pequeños. Nos decidimos por el 20% como un tamaño de corte que sería apropiadamente inclusivo pero no demasiado amplio. Los enriquecimientos de pliegue algo menores observados en este tamaño de corte significan que las cifras son adecuadamente conservadoras.

Las métricas que utilizamos implican contar el número (como porcentaje) de codones que cumplen una determinada descripción: por ejemplo, una métrica cuenta el porcentaje de codones que coinciden con el patrón RNY, donde 'R' es cualquier purina, 'N' es cualquier base , y 'Y' es cualquier pirimidina. Otra métrica que utilizamos implica la obtención de entropías de Shannon para purinas/pirimidinas en las bases uno y tres de todos los codones de un gen; Estas dos entropías se utilizan luego para construir un vector 2D. Asimismo obtenemos las entropías G + C de las bases uno y tres para los codones de un gen; Estas dos entropías forman un vector 2D. Una métrica se deriva del producto escalar de los dos vectores 2D. (La motivación detrás de esta métrica se analiza en “Resultados”).

El código para calcular las métricas y realizar los ensayos de enriquecimiento consiste en código JavaScript nativo creado por los autores (consulte el repositorio de Github en https://github.com/kasmanethomas/moonlighting para obtener listados de códigos). Nuestro código se ajusta a ECMAScript2015 y lo probamos en Google Chrome Versión 107.0.5304.121 (x86_64).

Nuestra investigación reveló que existen dos factores comunes para todos los genes pluriempleo: primero, tienden a ubicarse físicamente cerca de genes de enzimas involucradas en la construcción de la pared celular, la membrana celular o la envoltura celular; y segundo, tienden a codificar, en antisentido, pequeñas proteínas que contienen un alto porcentaje de aminoácidos no polares. Comenzamos observando dónde se encuentran los genes pluriempleo en el genoma de cada modelo biológico y descubrimos que tienden a ubicarse junto con genes involucrados en la construcción de la pared celular y la membrana celular. Luego caracterizamos los genes de pluriempleo con respecto al sesgo de purina de codones y descubrimos que los genes de pluriempleo tienen un sesgo de purina superior al promedio tanto en dirección hacia adelante como hacia atrás (complemento inverso). A continuación, desarrollamos ensayos de enriquecimiento basados ​​en estas características de codones. Los resultados de esos ensayos fueron consistentes con la idea de que podrían existir marcos de lectura abiertos antisentido en los genes pluriempleo. En consecuencia, buscamos ORF antisentido en genes pluriempleo. Descubrimos que estos ORF no solo existen, sino que a menudo contienen dominios transmembrana predichos.

Para tener una idea del entorno local en el que “operan” los genes del pluriempleo, observamos su proximidad a otros genes. Preguntamos: ¿cuáles son sus vecinos? Podemos hacer un experimento simple de muestreo de todos los genes que se encuentran dentro de más o menos una cierta distancia (digamos cinco genes) de genes pluriempleados, teniendo cuidado de eliminar coincidencias duplicadas. Se probó el conjunto de todos los vecinos más cercanos dentro de cinco genes de un gen de pluriempleo. Después de la eliminación de duplicados, en M. tuberculosis H37Rv encontramos 298 genes (N = 298) con características de enriquecimiento como se muestra en la Tabla 2. Nota: Se encontraron resultados similares con un radio de proximidad de tres y diez. Se eligió un radio de cinco porque en rangos más bajos, el conjunto de resultados era comparativamente escaso y contenía solo 136 genes, mientras que en rangos más altos, los enriquecimientos tendían a ser bajos, con valores E más altos. El conjunto de resultados más informativo se obtuvo en un radio de cinco.

Tenga en cuenta que los genes pluriempleados tienden a ubicarse junto con los genes de biogénesis de la pared celular. Sin embargo, el resultado numérico más importante es la gran cantidad de genes de "proteínas hipotéticas" encontrados (Tabla 2). Casi el 30% del conjunto de resultados de la búsqueda está compuesto por genes de proteínas hipotéticas. Resulta que se podrá ver una imagen mucho más informativa una vez que los genes de la "proteína hipotética" ya no diluyan nuestros resultados. Si filtramos los genes de proteínas hipotéticas basándose en que pueden estar oscureciendo resultados ocultos y contamos solo los genes a los que se les ha asignado una función, los enriquecimientos se ven como se muestra en la Tabla 3.

Observe que los genes implicados en la biogénesis, la secreción o la función de la membrana interna de la pared celular están en la parte superior de la lista. Sin embargo, la lista ahora también incluye muchas otras categorías importantes, incluidas la membrana externa, la membrana plasmática y los genes específicamente involucrados en la síntesis de peptidoglicanos. Se obtienen resultados similares en E. coli (Tabla 4) y Streptococcus pneumoniae (consulte la Tabla 5).

Curiosamente, los tres organismos muestran enriquecimientos en ARNt ligasas. La base de datos MoonProt enumera 15 ligasas de ARNt (en su mayoría de eucariotas) que tienen funciones de pluriempleo. Tenga en cuenta que el tema del “entorno local” del gen pluriempleo continúa en la “Discusión”, donde se sugiere que la proximidad de estos genes a los genes que construyen membranas y paredes celulares está lejos de ser una coincidencia.

Al intentar comprender los genes pluriempleados, comenzamos con lo que posiblemente sea la métrica bioinformática más básica y significativa para estudiar cualquier gen, que es el sesgo de purina de la base uno de los codones (en adelante llamado R1). La importancia de R1 (contenido de purinas, base 1) es que es el indicador estadístico más confiable del estado del marco de lectura abierto. Según Ponce de León et al.5: "Es la única señal suficientemente sólida para ayudar en las búsquedas y anotaciones de genes dentro de las investigaciones del genoma". La razón es simple: la mayoría de los genes, en la mayoría de los organismos, en todos los ámbitos de la vida, tienen un valor R1 promedio de 0,6 o más. Es decir, la base 1 de los codones en los genes que codifican proteínas es adenina o guanina el 60% de las veces. Si bien se han ofrecido varias explicaciones para este llamado "sesgo de purina", la hipótesis más simple es que la cadencia DA-da-da-DA-da-da de esta señal proporciona una manera fácil para que el ribosoma detecte y mantenga la alineación del marco. durante la traducción. La Figura 1 muestra el porcentaje de purina para cada una de las tres bases de codones, versus el contenido de G + C del genoma CDS, para N = 159 genomas bacterianos. Se puede observar fácilmente que, para todos los organismos, el contenido de purina de la base uno es significativamente mayor que el de las otras dos bases codón.

Contenido de purina (A + G) de las bases uno, dos y tres de codones para N = 159 genomas bacterianos. Cada punto representa un genoma completo. Consulte el Suplemento A para obtener más detalles.

En M. tuberculosis, se encontró que el valor medio de R1 en todo el genoma CDS para todos los codones era 0,60515 ± 0,05462. Se representan gráficamente los valores de R1 para todos los genes pluriempleo (Fig. 2). Se puede observar que la mayoría (24/35) de los genes pluriempleo muestran valores R1 superiores al promedio.

Contenido de purina (R1) de la base uno de los codones para N = 35 genes pluriempleo en M. tuberculosis H37Rv. El promedio de todo el genoma de 0,60515 ± 0,05462 (para los 3906 genes CDS) se representa en negro.

Los valores inusualmente altos de R1 para los genes pluriempleados nos hicieron preguntarnos si R1 también podría ser alto en la dirección opuesta, en la hebra opuesta de ADN. La Figura 3 muestra el contenido de purina de base uno para anticodones de los mismos genes (es decir, codones en el complemento inverso de la cadena mensaje). Algo sorprendente es que 25/35 genes muestran un sesgo de purina superior al promedio en los codones del complemento inverso.

Contenido de purina de complemento inverso (R1) de la base uno de los anticodones para N = 35 genes pluriempleo en M. tuberculosis H37Rv. El promedio de todo el genoma de 0,53089, 0,05213 ± 0,05213 (para los 3906 genes CDS) se representa en negro.

Los valores altos de R1 directo e inverso de las Figs. 2 y 3 sugieren una estrategia para obtener enriquecimientos de genes pluriempleados: obtener R1FORWARD y R1REVERSE-COMPLEMENT para cada gen en el genoma CDS, sumar los dos y ordenar todos los genes según esa métrica. Luego tome el 20% superior de genes y vea cuántos son genes pluriempleados. Cuando hicimos esto, encontramos enriquecimientos como se muestra en la Tabla 6.

El 20% superior de genes ordenados mediante la métrica contiene 14 de 35 genes pluriempleados, para un enriquecimiento de 2,00 veces, con probabilidades hipergeométricas acumuladas de 0,005. A continuación, consideramos si una suma métrica de R1 directo y R1 inverso sería simplemente equivalente a contar el porcentaje de codones que coinciden con el patrón RNY, donde R es cualquier purina, N es cualquier base e Y es cualquier pirimidina. Nuestro análisis muestra que las dos métricas no son iguales y dan resultados ligeramente diferentes. La métrica RNY es más efectiva (Tabla 7).

El enriquecimiento de genes pluriempleados en M. tuberculosis muestra un valor de 2,29 veces con una expectativa de cero. Esto significa que los genes pluriempleados, más que otros genes, contienen codones que coinciden con el patrón RNY, un patrón que es inherentemente bidireccional (ya que el anticodón de RNY también es RNY). Naturalmente, nos preguntamos si este resultado se limita a M. tuberculosis o si podría aplicarse en general a otros organismos. Así, las Tablas 8 y 9 muestran los resultados para E. coli NCTC11775 y Streptococcus pneumoniae NCTC11032.

La técnica de enriquecimiento RNY fue efectiva en los tres organismos. Además, en particular, las categorías funcionales de genes coincidieron entre todos los organismos; por ejemplo, los genes de proteínas ribosómicas generalmente se enriquecen mediante esta técnica.

Surgen dos preguntas principales con respecto a los resultados anteriores: (1) ¿Podría refinarse o mejorarse nuestra técnica de enriquecimiento de alguna manera? (2) ¿Por qué funciona la técnica? La presencia de un alto sesgo de purinas en direcciones hacia adelante y hacia atrás sugiere el potencial de transcripción inversa y traducción de ARN antisentido en estos genes. Decidimos seguir, como Ansatz, la hipótesis de que los marcos de lectura abiertos antisentido (asORF) podrían existir en los genes pluriempleo. Esto nos llevó a considerar formas en las que la información que corre en dos direcciones en el mismo gen podría coexistir. Nuestra consideración fue que el eje RY (purina/pirimidina) podría codificar información de manera diferente que el eje SW (GC versus AT). Cada eje es capaz de codificar un bit de información. Nos preguntamos si la degeneración en las bases uno y tres de los codones podría permitir la "coexistencia pacífica" de información en estos ejes, de modo que la información RY que va en una dirección pueda superponerse efectivamente a la información SW que va en la otra dirección.

Para probar la idea anterior, se ideó una nueva métrica de la siguiente manera:

Para cada gen, obtenga la entropía de Shannon de la señal RY en la base uno de los codones. Es decir, encuentre la frecuencia promedio de purinas (y frecuencia de pirimidinas) para la base uno y utilícela para calcular la entropía de la manera estándar, como:

Haz lo mismo con la base tres.

Utilice los valores de entropía de base uno y tres para formar un vector, [HRY1, HRY3].

Obtenga la entropía de Shannon de la señal SW (donde 'S' significa G o C y 'W' significa A o T) en base uno, y también en base tres; y formar un vector, [HSW1, HSW3].

Normalice los vectores así obtenidos.

Calcule su producto escalar. Utilice esto como base de una métrica.

El producto escalar de dos vectores mide cuánto difieren los vectores, direccionalmente, porque el producto escalar de vectores normalizados es el coseno del ángulo entre ellos. Se espera una gran diferencia para los vectores RY y SW en el caso de genes pluriempleo. Esperamos un ángulo grande y un coseno pequeño, por lo que el valor de puntuación de los genes se calcula según 1-coseno. Los valores de enriquecimiento para M. tuberculosis se muestran en la Tabla 10, donde los genes se clasifican según esta nueva métrica.

Los resultados que se muestran en la Tabla 10 proporcionan varias categorías funcionales adicionales nuevas. Los cuatro principales, incluidos los genes pluriempleados, tienen enriquecimientos superiores a 2,0 y valores esperados de cero. Se produce un mayor enriquecimiento cuando la métrica RNY se combina con la métrica basada en el producto escalar de entropía. Simplemente sumando las dos métricas (para producir una nueva métrica), pudimos encontrar 20 de 35 genes de pluriempleo en Mycobacterium tuberculosis H37Rv, para un enriquecimiento de 2,86 con expectativa cero. Esta misma métrica produce un enriquecimiento de 2,58 veces (E = 0) para los genes pluriempleo en E. coli y un enriquecimiento de 2,25 veces en S. pneumoniae (con E = 0,009).

Con base en los resultados anteriores, que son consistentes con nuestro Ansatz (que dice que los ORF antisentido podrían existir en los genes pluriempleo), decidimos buscar marcos de lectura abiertos en los complementos inversos de los genes pluriempleo en nuestros tres organismos modelo. Hasta ahora, hemos asumido ingenuamente, basándonos en el sesgo de las purinas en el marco de lectura cero, que existirán productos antisentido en el marco cero en la cadena del complemento. (Consideramos que hay tres marcos de lectura posibles: cero, + 1 y + 2. Estos marcos pueden existir en cualquiera de las hebras, en relación con el extremo 5' de la hebra). Pero, ¿es ésta realmente una expectativa razonable? Por motivos puramente teóricos, consideramos que existen tres posibles marcos de lectura en dirección inversa, con diferentes implicaciones para la superposición de información de codones. Los marcos de lectura hacia adelante y hacia atrás pueden superponerse de las siguientes maneras (Fig. 4):

Posibles alineaciones del marco de lectura en hebras delanteras y traseras. Las flechas designan la dirección de lectura; el número "1 2 3" indica las posiciones de las bases de los codones. 'R' significa cualquier purina; 'n' significa cualquier base. El patrón 'Rnn' es representativo de aproximadamente el 60% de los codones en cualquier organismo, en todos los dominios de la vida. La configuración superior (A) muestra ambas hebras en el marco de lectura cero. En esta configuración, la base 2 de codones y anticodones se alinea. En la configuración intermedia (B), la cadena superior está en el marco de lectura + 1 (en relación con el comienzo de esa cadena), mientras que la cadena inferior está en el marco de lectura cero. En esta alineación, la base 3 de los codones se encuentra frente a la base 3 de los anticodones. Pero observe que la base 2 se encuentra frente a una purina, lo que significa que la base 2 será una pirimidina. En la configuración inferior (C), la cadena superior está en el marco de lectura + 2 (o equivalentemente, - 1), lo que significa que la base uno de los codones se producirá frente a la base 1 de los anticodones. Esta no es una alineación factible si tanto el codón como el anticodón tienen una purina en la posición de la primera base. Véase el texto para más discusión".

En la Fig. 4, las hebras complementarias de ADN se muestran una al lado de la otra, con las bases de los codones numeradas del 1 al 2 al 3 en la hebra inferior (que se lee de izquierda a derecha, en esta representación) y las bases del anticodón numeradas del 3 al 2 y 1 en la hebra inferior. hilo superior (que se lee de derecha a izquierda). El símbolo 'R' representa una purina; 'n' es cualquier base. Las flechas representan direcciones de lectura. En la parte superior del diagrama, en la sección denominada 'A', las hebras están orientadas en forma “2 sobre 2”: la base 2 del codón está opuesta a la base 2 de su anticodón. Esta es la orientación que se produce si el marco de lectura de la traducción es cero (el valor predeterminado) para cada cadena. La parte central del diagrama, denominada 'B', muestra la orientación codón/anticodón cuando la cadena superior está en el marco de lectura + 1. En este caso, la base 3 de un codón se superpone a la base 3 del otro; la llamada orientación “3 sobre 3”. El par de hebras más inferior (etiquetado como 'C' en el diagrama) muestra la situación en la que la hebra inferior está (como de costumbre) en el marco de lectura cero pero la hebra superior está en el marco de lectura + 2 (o, equivalentemente, - 1). Esto coloca la base uno del codón opuesta a la base uno del anticodón (configuración “1 sobre 1”).

Claramente, en un gen que tiene ORF superpuestos, la configuración “1 sobre 1” no es factible si cada ORF tiene un alto sesgo de purinas, porque una purina nunca puede ocurrir en oposición a otra purina en el ADN. Por lo tanto, esperamos que un marco de lectura antisentido + 2 sea algo poco común. Podría existir, pero sólo si un ORF tiene un sesgo de purinas bajo y el otro tiene un sesgo de purinas alto; o si ambas hebras tienen un sesgo de purina del 50%.

La configuración superior (2 sobre 2), donde ambas cadenas están en el marco de lectura cero, es al menos sostenible, ya que un alto contenido de purinas en la base uno de cualquiera de las cadenas puede compensarse con un contenido correspondientemente alto de pirimidina en la base tres. Esto es factible ya que la base tres es mayoritariamente degenerada; el requerimiento de una pirimidina en base tres tiene un bajo costo. Sin embargo, "2 sobre 2" significa que si la base dos es predominantemente purinas en un ORF, debe ser predominantemente pirimidinas en el otro ORF. Por lo tanto, si la cadena inferior codifica un polipéptido hidrofílico, la cadena superior probablemente codificará uno hidrofóbico: una proteína de membrana.

La configuración intermedia (3 sobre 3), que tiene la cadena superior en el marco de lectura + 1, acomodará un sesgo alto de purinas en ambas cadenas simultáneamente si la base dos de cada codón es una pirimidina. Fundamentalmente, esto significa que cada ORF debe codificar un polipéptido con un alto contenido de aminoácidos no polares. (El código genético está organizado de tal manera que una pirimidina en base dos probablemente signifique un aminoácido no polar). Esto, a su vez, significa que es probable que ambos productos de traducción sean proteínas de membrana.

En resumen, esperamos que si existe un ORF antisentido en un gen, rara vez estará en el marco de lectura + 2; puede estar en el cuadro cero; y es razonablemente probable que esté en el marco + 1, particularmente si las proteínas de membrana son los productos de traducción.

De las deducciones lógicas anteriores surge la siguiente pregunta: ¿Cómo podemos buscar ORF antisentido? ¿Por dónde empezarán? La respuesta trivial es que comienzan con un codón de inicio; y cumplen con el requisito de un ORF, es decir:

El codón de inicio debe ir precedido de algo parecido a una secuencia de Shine Dalgarno.

El codón de inicio debería ser ATG o quizás GTG.

El codón de inicio debe ir seguido de un número (adecuadamente grande) de codones que tengan un sesgo de purina significativo en la base uno.

Y la secuencia de codones debe terminar en un codón de terminación (TAA, TAG o TGA).

Se puede realizar una búsqueda de tales estructuras obteniendo el complemento inverso de un gen y comparándolo con una expresión regular, como por ejemplo:

Esta expresión permite una búsqueda de 14 bases cualesquiera, seguidas de ATG o GTG, seguidas de 1 o más tripletes que no incluyen un codón de parada, seguido de tres bases. (La 'g' al final simplemente significa buscar globalmente e informar múltiples resultados). Se puede comprobar que el líder de 14 bases tenga motivos de Shine Dalgarno (o una medida indirecta, como el porcentaje de purina) para filtrar los aciertos de baja calidad. Para obtener la parte traducible de un hit, las primeras 14 bases pueden simplemente eliminarse (o ignorarse). Los aciertos pueden contener cualquier número de codones; Depende del usuario establecer un límite mínimo adecuado. Si bien la expresión regular anterior produce buenos resultados, en la práctica encontramos que se obtienen mejores resultados usando:

Esta expresión busca la combinación de motivos de inicio/parada ATGA, TTGA y GTGA, que son comunes en genes sin líder de nuestros tres organismos modelo (datos no publicados). Las tres primeras bases del motivo constituyen un codón de inicio; las últimas tres bases constituyen el codón de parada “ópalo”, TGA. Cuando este motivo ocurre en genes sin líder, la traducción se detiene en el TGA y luego comienza de nuevo después de un cambio de marco de -1.

Cuando buscamos ORF antisentido putativos en los genes pluriempleados de nuestros tres organismos modelo utilizando la expresión regular con motivo de inicio/parada, encontramos coincidencias en casi todos los genes (consulte la Tabla 11). La mayoría de los aciertos (90/142 = 63,4%) se encontraban en el marco de lectura + 1, como se predijo.

Si bien los valores de R1 (contenido promedio de purina, base 1 de los codones) son aparentemente bastante bajos en los aciertos, esto se debe en gran medida a los valores anormalmente bajos de R1 del marco de lectura + 2 aciertos, que arrastran los promedios hacia abajo. Cuando observamos los valores de R1 por marco de lectura (Tabla 12), vemos que los valores de R1 para los marcos de lectura cero y + 1 son razonablemente altos. Lo más probable es que el marco de lectura + 2 aciertos puedan considerarse falsos positivos. Es probable que también se produzcan algunos falsos positivos en los marcos de lectura cero y + 1.

Un análisis de Y2 (contenido de pirimidina, base 2 de codones) muestra que Y2 es significativamente mayor en el marco de lectura + 1 aciertos que en otros marcos de lectura (Tabla 13), de acuerdo con nuestra predicción (ver sección anterior) y sugiere que cualquier Los supuestos ORF antisentido que existen en el marco + 1 probablemente codifiquen proteínas de membrana. En general, los resultados de las Tablas 11, 12 y 13 concuerdan firmemente con las predicciones teóricas de la sección anterior.

Intentamos obtener más información sobre si los productos de traducción de los supuestos ORF antisentido que se producen en los genes pluriempleo podrían, de hecho, codificar proteínas de membrana. Para hacer esto, buscamos resultados en dirección antisentido usando expresiones regulares basadas en:

La expresión anterior utiliza ATG como presunto codón de inicio. Sin embargo, también utilizamos expresiones que contienen codones de inicio TTG, GTG y CTG, así como codones de inicio alternativos ATA, ATT, ATC y TAC, según un examen de los codones de inicio en los genes anotados de nuestros tres organismos modelo. Los tres organismos modelo utilizan todos estos codones de inicio (según los genomas RefSeq anotados). Realizamos búsquedas de expresiones regulares separadas utilizando cada codón de inicio. Una vez que se localizaron los supuestos ORF, los tradujimos in silico y enviamos las secuencias de polipéptidos resultantes a la aplicación del servidor Consensus Constrained TOPology (CCTOP) en http://cctop.ttk.hu/. CCTOP es una aplicación web que adopta un enfoque basado en el consenso para predecir topologías transmembrana. Utilizando 10 métodos diferentes de predicción de topología, CCTOP incorpora información estructural y topológica previamente determinada en un modelo probabilístico de Markov oculto. Se ha demostrado que su confiabilidad (en términos de reducción de falsos positivos y falsos negativos) es mejor en general que HMMTOP, Phobius o cualquier otra tecnología de predicción transmembrana única utilizada sola. Los detalles se pueden encontrar en el sitio web de CCTOP o en Dobson et al.6.

CCTOP predijo dominios transmembrana en siete ORF antisentido de genes pluriempleados de M. tuberculosis (Tabla 14). Algunos de los ORF se superponían. Por ejemplo, se encontró que la subunidad A1 de la glutamina sintetasa (glnA1) contenía un supuesto ORF antisentido con codones de inicio ATG y TTG en los desplazamientos 613 y 625. Asimismo, se encontró que rpoB contenía un ORF antisentido con tres codones de inicio estrechamente espaciados.

Quince genes pluriempleados de E. coli produjeron 49 asORF con dominios transmembrana predichos (Tabla 15). Los genes fueron: aceB, dnaK, eno, fusA, gapA, glcB, gpmB, gpmM, murI, pfkA, pfkB, pgi, rpoB, sodC y tuf. Nuevamente, al igual que con Mycobacterium tuberculosis H37Rv, muchos de los aciertos se superponen: por ejemplo, en fusA, existen codones de inicio para lo que parece ser un único ORF antisentido en los desplazamientos 682, 697 y 709. En particular, rpoB contiene al menos cuatro espacios muy cercanos. “codones de inicio” dentro de un supuesto ORF antisentido que abarca 2892 bases de longitud total.

Se encontró que diez genes pluriempleados de Streptococcus pneumoniae tenían ORF as putativos con dominios transmembrana predichos (Tabla 16). Seis de los diez genes tienen asORF que contienen múltiples codones de inicio putativos.

Curiosamente, los tres organismos obtuvieron una predicción transmembrana para ORF antisentido en rpoB (subunidad beta de la ARN polimerasa dirigida por ADN), así como fba (fructosa-bisfosfato aldolasa) y dnaK (chaperona DnaK). En particular, del total de 89 predicciones de dominio transmembrana que ocurrieron en los tres organismos modelo, 49 (55,1%) están en el marco de lectura + 1, y solo 8 en el marco de lectura + 2. La mayoría de los supuestos ORF antisentido en las Tablas 14, 15 y 16 son pequeños (con longitudes medianas que varían desde 65 aminoácidos en Streptococcus hasta 92 en E. coli). Esto no es inesperado, dado un trabajo reciente7 que muestra que los genes que codifican proteínas pequeñas (< 100 AA) pueden representar el 16% (± 9%) de todas las proteínas en las bacterias, y muchos de esos genes están involucrados en proteínas de membrana y algunos codificados en antisentido8 . Sin embargo, no todos los asORF que contienen transmembrana son pequeños. El ORF antisentido putativo más grande que contiene transmembrana que encontramos en E. coli tiene 2892 bases de largo y ocurre en rpoB.

En este estudio, analizamos el sesgo de purina del complemento directo e inverso en la base uno de los codones (y anticodones), y encontramos que la mayoría de los genes pluriempleados (no sólo en M. tuberculosis, sino también en E. coli y Streptococcus pneumoniae) puntúan muy por encima del promedio del genoma CDS para el sesgo de purina directo e inverso. Con base en este hallazgo, adoptamos una suposición provisional de que los productos de traducción antisentido podrían estar codificados en genes pluriempleo. Esto nos llevó a plantear la hipótesis de que los codones que cumplen el patrón RNY (purina, cualquier base, pirimidina) podrían existir en relativa abundancia en los genes pluriempleo. Y, de hecho, descubrimos que al calificar todos los genes de un organismo según el “contenido de RNY”, podíamos enriquecer genes pluriempleados: obtuvimos enriquecimientos de 2,29 a 2,58, con expectativas hipergeométricas de cero a 0,002, en los tres organismos modelo. . Razonamos que si la información se codifica bidireccionalmente en al menos algunas porciones de genes pluriempleados, una consecuencia de esto sería que las bases de codones degeneradas (base 1, base 3) necesitarían acomodar la carga de información de tal manera que la información sea esencialmente multiplexado. Para probar esta posibilidad, se nos ocurrió una heurística basada en la idea de que la información de los codones se puede codificar de manera diferencial a lo largo de los ejes RY y SW. (RY se refiere al eje de ambigüedad de la IUPAC de purina versus pirmidina; SW se refiere al eje de GC versus AT). Evaluamos la entropía de Shannon de base 1 en el eje RY y la entropía de Shannon de base 3 en ese eje, para cada gen; Usando estos números, creamos un vector [HRY1, HRY3]. De la misma manera, creamos un vector [HSW1, HSW3] para las entropías SW de las bases 1 y 3. Luego calculamos el producto escalar de los vectores así creados y utilizamos una métrica de 1 − puntoProducto para ordenar los genes. Esta métrica produjo un enriquecimiento sustancial de los genes de pluriempleo en M. tuberculosis, y la combinación de la métrica RNY más la métrica del producto escalar produjo enriquecimientos significativos de genes de pluriempleo en los tres organismos.

Alentados por estos hallazgos, buscamos marcos de lectura abiertos antisentido (asORF) en genes de pluriempleo y encontramos 142 de ellos en 81/86 genes de pluriempleo en los tres organismos modelo. Predijimos, sobre bases puramente teóricas, que la mayoría de las transcripciones antisentido estarían en el marco de lectura +1; y de hecho este resultó ser el caso (90 de 142 asORF fueron + 1). También predijimos que los ORF en el marco + 1 contendrían principalmente pirimidinas en la base dos de los codones. Este también fue el caso. El contenido promedio de Y2 (pirimidina, base 2) de asORF en el marco de lectura + 1 osciló entre 0,6309 y 0,7046. Dado que un codón con pirimidina en la base 2 generalmente especifica un aminoácido no polar, anticipamos que los genes asORF del pluriempleo podrían codificar proteínas de membrana. Cuando verificamos los productos de traducción de los putativos asORF para detectar dominios transmembrana, se predijo que 89 de estos productos proteicos (mediante el servidor de predicción CCTOP en https://cctop.ttk.hu/) contenían dominios transmembrana.

Con base en estos hallazgos, y en base a nuestro hallazgo de que los genes pluriempleo tienden a ubicarse conjuntamente con genes involucrados en la construcción de la pared celular o la membrana celular (consulte la sección "Ubicación de los genes pluriempleo" más arriba), proponemos el modelo para el pluriempleo que se muestra en Fig. 5, al que llamamos Modelo THX1138, que lleva el nombre del protagonista de la primera película de George Lucas (“THX1138”), en la que el héroe, atrapado en una distopía subterránea, escapa a la superficie del planeta, donde ve la luz del sol. por primera vez.

Un posible escenario que involucra la traducción de un gen pluriempleado. La transcripción se produce de forma bidireccional (ver orbes verdes, arriba, que representan la ARN polimerasa). Los RNAP del “camino equivocado”, en los extremos del gen pluriempleo, producen productos antisentido que contienen polipéptidos compatibles con la membrana que se asocian con la membrana, posiblemente mediante transerción (pero posiblemente mediante algún otro mecanismo). Los productos antisentido compatibles con las membranas proporcionan anclajes firmes al ADN. En la zona se está realizando una intensa construcción de muros de celdas; esto significa que hay huecos en la pared. El gen del pluriempleo, anclado en cada extremo mediante ataduras de transerción, se mantiene muy cerca físicamente de la sección abierta de la pared. Una proteína pluriempleada recién producida, cuando se desprende de su ribosoma, atraviesa fácilmente el espacio en la pared celular. De hecho, es posible que no tenga otro lugar adonde ir. Véase el texto para más discusión".

La transcripción bidireccional del gen pluriempleo provoca la producción de proteínas antisentido nacientes, que se adhieren a la membrana. (Esta hipótesis se basa en nuestro hallazgo de que las proteínas antisentido en cuestión a menudo contienen supuestos dominios transmembrana). En la fase de crecimiento, la traducción se acopla transcripcionalmente, de modo que si la proteína antisentido naciente se adhiere a la membrana mientras se fabrica, el ADN queda esencialmente atado a la membrana. Los genes inmediatamente arriba y abajo del gen pluriempleo también pueden tener ataduras de transerción antisentido, formadas mediante el mismo mecanismo. (Se ha documentado evidencia de inmovilización por transerción del tipo mencionado aquí para varias especies bacterianas; consulte la revisión de Woldringh8). Nuestra hipótesis es que el anclaje del ADN a la membrana de esta manera es (posiblemente) un fenómeno generalizado, que tal vez involucre a cientos de genes. (Este punto de vista es consistente con investigaciones recientes sobre pequeñas proteínas en bacterias9, muchas de las cuales tienen ORF que existen en marcos de lectura superpuestos10, a menudo en antisentido11). En el área entre los extremos del gen, puede estar ocurriendo una construcción intensiva de la pared celular, y planteamos la hipótesis de que hay áreas donde existen brechas considerables (~ 10–30 nm), áreas donde la unión de la brecha mediante ADN unido transercionalmente puede, en De hecho, será un refuerzo estructural esencial para evitar que el muro debilitado se abra catastróficamente. Mientras tanto, los huecos en la pared subyacente son lo suficientemente grandes como para permitir que proteínas enteras pasen sin restricciones y sean expulsadas a la fuerza bajo la presión de turgencia.

Independientemente de si se producen proteínas antisentido, el escape de las proteínas del pluriempleo a la superficie de la célula puede explicarse simplemente por el hecho de que la producción de proteínas del pluriempleo se produce muy cerca de áreas de construcción intensiva de la pared celular y la membrana celular. Una hipótesis de fuga sencilla no sólo está justificada sino que es convincente y explica fácilmente por qué nunca se ha implicado ningún sistema de secreción en la liberación de PAE. La “secreción no clásica” es simplemente una fuga propicia. No se deben seguir explicaciones más complicadas hasta que se hayan descartado las simples (la navaja de Occam). La parsimonia dicta que debemos considerar una teoría de la fuga antes que los demás; la carga de la prueba recae en quienes insisten en explicaciones más complejas. Dadas las 5 a 30 atmósferas de presión de turgencia que existen dentro de una célula bacteriana12, los productos genéticos producidos cerca de un “agujero en la pared” bien podrían ser forzados, violentamente, a través del agujero, como un pasajero que sale volando por la ventanilla de un avión después de una descompresión explosiva. a 30.000 pies.

El modelo THX1138 (fuga propicia ayudada por proximidad forzada mediante la acción de polisomas unidos a membranas) explica una serie de aspectos del “pluriempleo” que han logrado eludir explicación durante 30 años:

Explica por qué están involucradas enzimas funcionalmente no relacionadas (enzimas glicolíticas, chaperonas, factores de elongación, superóxido dismutasas, etc.). Tienen algo en común: sus productos antisentido son lo suficientemente ricos en aminoácidos no polares como para adherirse a la membrana.

Explica cómo los genes de pluriempleo de tipo ECP logran la excreción: con la ayuda de la presión de turgencia, son exprimidos a través de agujeros en el complejo membrana/pared subyacente, como consecuencia de que se producen exactamente en el lugar correcto para que esto suceda, sin -proteínas antisentido polares que anclan el gen a la membrana en zonas especialmente porosas.

Explica por qué algunas proteínas, del mismo operón, se excretan y otras no. Algunos genes de glucólisis, por ejemplo, podrían producir productos antisentido que se adhieren a la membrana celular, mientras que otros no tienen ningún producto antisentido (o productos que son demasiado cortos o demasiado polares para cumplir la función de “adherirse a la membrana”). .

Esto explica por qué Boël et al.13 lograron, modificando el extremo 3' del gen GAPDH en los estreptococos, impedir la excreción de GAPDH. La modificación del extremo 3' del gen podría cambiar fácilmente las propiedades de unión a la membrana del producto antisentido de un gen. Podría reducir o eliminar la traducibilidad de los productos antisentido.

Explica por qué los genes pluriempleo se encuentran junto a los genes de construcción de membranas y paredes celulares: ellos (o más bien, sus productos antisentido) desempeñan un papel en mantener unida la membrana mientras se construye.

Se puede considerar que nuestra teoría abarca dos hipótesis: una es que la fuga de proteínas pluriempleadas se produce más allá de áreas de construcción activa de pared/membrana celular. La otra es que dicha fuga (si ocurre) es facilitada por proteínas antisentido amigables con la membrana, que (durante la traducción cotranscripcional) esencialmente unen los genes pluriempleados a la pared/membrana celular. Si bien es posible que la fuga de proteínas pluriempleadas a través de áreas de construcción activa de pared celular/membrana pueda estar ocurriendo sin la ayuda de la unión del ADN relacionada con proteínas antisentido a la membrana interna, creemos que las ataduras (si existen) pueden, en De hecho, sea esencial para “mantener la puerta abierta”.

Cientos de genes se enriquecen conjuntamente con genes pluriempleados cuando se utiliza una métrica de puntuación que supone la bidireccionalidad de la transcripción y la traducción. Según nuestros experimentos de enriquecimiento, parece probable que muchos genes codifiquen información en ambas cadenas de ADN (al menos en algunas secciones). Esta situación, por supuesto, es posible gracias a la degeneración del código genético. La degeneración es también lo que permite que la mayoría de las mutaciones puntuales permanezcan "neutrales" (a través de codones sinónimos). Pero en una región de flujo de información bidireccional, la neutralidad necesariamente se reduce. En una configuración donde los codones y anticodones están compensados ​​por una base, con anticodones en el marco de lectura + 1, la neutralidad se conserva en la base 3, ya que en esta configuración la base 3 de los codones se superpondrá a la base 3 de los anticodones (Fig. 4). Sin embargo, en otras alineaciones, la base 3 se superpondrá a una base rica en información (pobre en degeneración), y las mutaciones sinónimas serán necesariamente más raras. Para grandes regiones de genes aplicables, puede que no exista una “mutación neutral”. A partir de consideraciones teóricas, podemos predecir con seguridad que un desplazamiento +1 del ORF antisentido será el alineamiento que mejor conserva la neutralidad, ya que alinea la base 3 de los codones con la base 3 de los anticodones. Para organismos con entropías de codones de Shannon relativamente altas, es decir, organismos que tienen un contenido promedio de G + C cercano al 50%, esta es la alineación que brinda la mayor protección contra mutaciones no sinónimas. Los organismos con un contenido de GC significativamente mayor o menor tendrán más "margen de información" en sus codones (debido a la redundancia de GC o AT) y, por lo tanto, pueden tolerar compensaciones del marco de lectura antisentido de cero o + 2. Sobre esta base, predeciríamos que los organismos con GC muy bajo podrían no tener ORF que estén sesgados a favor de la compensación antisentido + 1; También se utilizarán otras compensaciones. Aun así, los genes con un contenido significativo de información bidireccional serán (independientemente del marco ORF) menos tolerantes a las mutaciones puntuales y, por lo tanto, se puede esperar que evolucionen lentamente, apareciendo como “genes altamente conservados” que se someten a una selección purificadora. La “teoría neutral”14 original de Kimura no se centraba directamente en las mutaciones puntuales; simplemente postuló que la mayoría de las “mutaciones” tienen poco o ningún efecto sobre los fenotipos. Sin embargo, la existencia de información bidireccional en al menos algunos genes constituye una nota a pie de página importante en cualquier discusión sobre la evolución basada en mutaciones. Será necesario considerar cuidadosamente las tasas de mutación sinónimos versus no sinónimos, las relaciones de transversión/transición y otras dinámicas a la luz de la bidireccionalidad (o no bidireccionalidad) de varias regiones de los genes. Las demandas de la evolución bidireccional pueden imponer restricciones inusuales a la composición de codones.

Debido a que nuestro modelo nos permite construir métricas que enriquecen consistentemente los genes de pluriempleo, permite la predicción de la funcionalidad de pluriempleo en genes que aún no han recibido tales asignaciones. En la Tabla 17, presentamos nueve de estas predicciones, que representan genes que se enriquecen constantemente con genes de pluriempleo en nuestros tres organismos modelo. Esperamos que algunos o todos estos nueve genes sean "pluriempleados" del tipo ECP. Estos son genes que aparecen constantemente en nuestros experimentos de enriquecimiento y lo hacen en los tres organismos modelo.

Si bien es obviamente imposible para nosotros predecir cuál podría ser la función secundaria de cualquiera de estos genes, sin embargo, esperaríamos, como mínimo, que los productos genéticos en cuestión existieran extracelularmente (ya sea en la superficie de las células o en el sobrenadante del cultivo), a través del mecanismo de “fuga propicia”.

Una limitación importante de nuestro estudio es que no intentamos buscar ORF antisentido que abarquen los límites de los genes. Es de esperar que existan algunos de estos ORF, ya que aproximadamente el 15% de los genes en cada uno de nuestros organismos modelo son genes sin líder (contiguos; en algunos casos, superpuestos) que pueden transcribirse policistrónicamente. Tampoco intentamos una búsqueda exhaustiva de promotores intragenes en las cadenas antisentido de los genes pluriempleados. Los promotores intragenes antisentido están presentes en aproximadamente el 11% de los genes de M. tuberculosis (según nuestros datos no publicados), y creemos que estos promotores pueden desempeñar un papel en la modulación de la expresión de asORF. También podrían existir promotores antisentido aguas arriba en los vecinos de los genes pluriempleo. Ésta es un área para futuras investigaciones.

Nuestros enriquecimientos de genes de pluriempleo, aunque moderadamente exitosos (con enriquecimientos de 2,0 a 3,0), no "encontraron" todos los genes de pluriempleo. Entonces es justo preguntar, ¿por qué no? ¿Por qué no se enriquecieron todos los pluriempleados? Creemos que hay varias respuestas posibles. En primer lugar, nuestras métricas no tuvieron en cuenta los efectos que podrían involucrar ORF antisentido que cruzan los límites de los genes (como se mencionó anteriormente), y es posible que tales efectos puedan ser importantes. Después de todo, creemos que el pluriempleo es un fenómeno de autostop, que surge de la tendencia de ciertos acompañantes, genes metabólicos y otros a “montarse en los faldones” de los genes de síntesis de la pared celular en el curso de muchos eventos de cruce sinténico y/o u otros eventos de reubicación de genes. Tendría sentido si el pluriempleo estuviera relacionado no sólo con productos antisentido que surgieran de los propios genes del pluriempleo, sino también de genes vecinos cercanos. También puede ser que algunos genes pluriempleados tengan compañeros de secreción silenciosos en forma de proteínas hipotéticas. Esto podría ser particularmente cierto para M. tuberculosis, donde las estadísticas de enriquecimiento fueron generalmente más débiles que para E. coli o S. pneumonia. En M. tuberculosis, más que en los otros dos organismos, los genes pluriempleados tienden a agruparse cerca de genes proteicos hipotéticos, como resultado de que ese organismo tiene un 26,9% de genes proteicos hipotéticos frente a un 5,5% para E. coli y un 9,7% para Streptococcus. Pero la respuesta a la pregunta "¿Por qué no se enriquecieron todos los genes pluriempleados?" podría ser aún más sencillo. Nuestras sondas de enriquecimiento fueron efectivas para enriquecer muchas otras categorías de genes (por ejemplo, genes para proteínas ribosómicas, biogénesis de la pared celular, síntesis de ácidos grasos, transportadores, permeasas y otros), lo que sugiere que los ORF antisentido con potencial para producir proteínas de membrana pequeñas podrían ser extremadamente útiles. común, que involucra quizás ~ 20% de todos los genes. Nuestras técnicas enriquecieron todos esos genes, haciendo inevitable la dilución de nuestra cosecha de pluriempleo.

De manera más general, una limitación del estudio actual es que no llevamos a cabo investigaciones en laboratorio húmedo para determinar si los ORF antisentido se traducen realmente, ni buscamos en línea los datos de perfiles de ribosomas para ver si alguno de estos ORF se ha descubierto en alta concentración. -perfiles de rendimiento. Identificamos ORF antisentido utilizando lo que creemos que es la lógica de llamada ORF estándar de la industria, pero no podemos hacer (y no hacemos) ninguna afirmación, de una manera u otra, sobre si estos ORF están, de hecho, traducidos in vivo. Invitamos a otros investigadores a seguir profundizando en esta área.

En este estudio, encontramos que los genes pluriempleados de tres organismos modelo (Mycobacterium tuberculosis H37Rv, Escherichia coli NCTC11775 y Streptococcus pneumoniae NCTC11032) tienden a ubicarse conjuntamente, en el genoma, cerca de genes implicados en la biogénesis de la pared celular, la secreción y la biogénesis interna o externa. Síntesis de la membrana externa. Pudimos crear una sonda bioinformática simple que cuantifica el potencial de transcripción inversa y traducción antisentido, y descubrimos que dicha sonda nos permite descubrir genes pluriempleados mediante una técnica de ensayo de enriquecimiento sencilla. Basándonos en consideraciones teóricas, predijimos que si existieran marcos de lectura abiertos antisentido en genes pluriempleo, lo más probable es que existieran en marcos de lectura cero o + 1; frame + 2 probablemente no se utilizaría bien. También predijimos que cualquier ORF que se encontrara en el marco de lectura + 1 codificaría proteínas con un alto porcentaje de aminoácidos no polares. Pudimos validar estas predicciones. Cuando buscamos ORF antisentido en genes de pluriempleo, encontramos 142 ORF putativos en los tres organismos modelo, 90 de los cuales estaban en el marco de lectura + 1. Además, los 90 ORF antisentido del marco de lectura + 1 tenían aminoácidos no polares comparativamente altos. contenido. Cuando verificamos los supuestos productos de traducción de ORF antisentido utilizando el servidor de predicción transmembrana CCTOP, encontramos que siete productos de traducción de M. tuberculosis, quince productos de E. coli y diez productos de S. pneumoniae contenían dominios transmembrana predichos. Se espera que la mayoría de los productos restantes sean proteínas de membrana basadas en un alto contenido de aminoácidos no polares. Con base en estos hallazgos, presentamos un modelo que propone un papel para las proteínas de membrana antisentido en la unión de genes pluriempleo a la membrana interna bacteriana, en áreas de construcción activa de la pared celular. Debido a que las proteínas pluriempleadas se producen en “proximidad forzada” a áreas porosas de la nueva pared celular, y debido a que la presión de turgencia en las células bacterianas es extrema (5 a 30 atmósferas), las proteínas pluriempleadas escapan al exterior de la célula, a través de huecos en la pared. , es (creemos) inevitable. Nuestro modelo nos permite predecir que ciertas proteínas (que aún no se ha descubierto que sean pluriempleadas) probablemente tendrán un papel extracelular. Así, hicimos predicciones específicas para nueve genes: rpoC, gyrA, gyrB, LigA, typA, ptsP, infB, purH y aspS.

Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles en el repositorio de Github, [https://github.com/kasmanethomas/moonlighting] y [https://cctop.ttk.hu/].

Jeffery, CJ Proteínas pluriempleo. Tendencias Bioquímica. Ciencia. 24, 8-11. https://doi.org/10.1016/S0968-0004(98)01335-8 (1999).

Artículo CAS PubMed Google Scholar

Agarwal, V. y col. La endopeptidasa O (PepO) de Streptococcus pneumoniae es una proteína multifuncional de unión a plasminógeno y fibronectina que facilita la evasión de la inmunidad innata y la invasión de las células huésped. J. Biol. Química. 288(10), 6849–6863. https://doi.org/10.1074/jbc.M112.405530 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Trifonov, EN, Kirzhner, A., Kirzhner, VM y Berezovsky, IN Distintas etapas de la evolución de las proteínas según lo sugiere el análisis de secuencia de proteínas. J. Mol. Evolución. 53(4–5), 394–401. https://doi.org/10.1007/s002390010229 (2001).

Artículo ADS CAS PubMed Google Scholar

Gotz, F. y col. Excreción de proteínas citosólicas (PEC) en bacterias. En t. J. Med. Microbiol. 305(2), 230–237 (2015).

Artículo PubMed Google Scholar

Ponce-de-Leon, M., de-Miranda, AB, Alvarez-Valin, F. & Carels, N. El sesgo de las purinas en las secuencias codificantes está determinado por restricciones fisicoquímicas de las proteínas. Bioinformar. Biol. Perspectivas 8, 93–108. https://doi.org/10.4137/BBI.S13161 (2014).

Artículo PubMed Google Scholar

Dobson, L., Reményi, I. y Tusnády, GE CCTOP: un servidor web de predicción de TOPología restringida por consenso. Ácidos nucleicos res. 43(1), W408–W412 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Miravet-Verde, S. et al. Desentrañando el universo oculto de pequeñas proteínas en genomas bacterianos. Mol. Sistema. Biol. 15, e8290. https://doi.org/10.15252/msb.20188290 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Woldringh, CL El papel de la traducción cotranscripcional y la translocación (transerción) de proteínas en la segregación cromosómica bacteriana. Mol. Microbiol. 45, 17-29 (2002).

Artículo CAS PubMed Google Scholar

Ardern, Z., Neuhaus, K. y Scherer, S. ¿Son funcionales las proteínas antisentido en procariotas? Frente. Mol. Biosci. 7, 9. https://doi.org/10.3389/fmolb.2020.00187 (2020).

Artículo CAS Google Scholar

Kreitmeier, M. y col. Foco en la codificación de marcos alternativos: dos genes largos superpuestos en Pseudomonas aeruginosa se traducen y se someten a selección purificadora. iCiencia. 25, 2. https://doi.org/10.1016/j.isci.2022.103844 (2022).

Artículo CAS Google Scholar

Wright, BW, Molloy, MP y Jaschke, PR Genes superpuestos en genomas naturales y modificados genéticamente. Nat. Rev. Genet. 23, 154-168. https://doi.org/10.1038/s41576-021-00417-w (2022).

Artículo CAS PubMed Google Scholar

Bugg, Biosíntesis de peptidoglicano bacteriano TDH y su inhibición, en Comprehensive Natural Products Chemistry 241–294 (Pergamon, 1999). https://doi.org/10.1016/B978-0-08-091283-7.00080-1.

Reservar Google Académico

Boël, G., Jin, H. & Pancholi, V. La inhibición de la exportación de la superficie celular de la deshidrogenasa de superficie sin anclas de estreptococos del grupo A afecta la adherencia bacteriana y las propiedades antifagocíticas. Infectar. Inmune. 73, 6237–6248 (2005).

Artículo PubMed PubMed Central Google Scholar

Kimura, M. Tasa evolutiva a nivel molecular. Naturaleza 217 (5129), 624–626. https://doi.org/10.1038/217624a0 (1968).

Artículo ADS CAS PubMed Google Scholar

Xolalpa, W. et al. Identificación de nuevas proteínas bacterianas de unión a plasminógeno en el patógeno humano Mycobacterium tuberculosis. Proteómica 7 (18), 3332 (2007).

Artículo CAS PubMed Google Scholar

Ashiuchi, M., Kuwana, E., Komatsu, K., Soda, K. y Misono, H. Diferencias en los efectos sobre la actividad de la ADN girasa entre dos glutamato racemasas de Bacillus subtilis, la enzima Glr que une la síntesis de poli-gamma-glutamato y la isozima YrpC (MurI). Microbiol FEMS. Letón. 2, 221–235 (2003).

Artículo de Google Scholar

Ashiuchi, M. y col. La glutamato racemasa es un inhibidor endógeno de la ADN girasa. J. Biol. Química. 224, 39070 (2002).

Artículo de Google Scholar

Kunert, A. y col. Evasión inmune del patógeno humano Pseudomonas aeruginosa: El factor de elongación Tuf es una proteína de unión al factor H y al plasminógeno. J. Inmunol. 179(5), 2979–2988 (2007).

Artículo CAS PubMed Google Scholar

Kinhikar, AG y cols. La malato sintasa de Mycobacterium tuberculosis es una adhesina de unión a laminina. Mol. Microbiol. 60(4), 999–1013 (2006).

Artículo CAS PubMed Google Scholar

Wang, W. & Jeffery, CJ Un análisis de los resultados de la proteómica de superficie revela nuevos candidatos para proteínas de pluriempleo intracelulares/superficiales en bacterias. Mol. BioSistema. 12, 1420-1431 (2016).

Artículo CAS PubMed Google Scholar

Reddy, VM & Suleman, FG Mycobacterium avium-superóxido dismutasa se une a la aldolasa de células epiteliales, gliceraldehído-3-fosfato deshidrogenasa y ciclofilina A. Microb. Pato. 36, 67–74 (2004).

Artículo CAS PubMed Google Scholar

Enzo, E. et al. La glucólisis aeróbica sintoniza la actividad transcripcional de YAP/TAZ. EMBO J. 34(10), 1349-1370. https://doi.org/10.15252/embj.201490379 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Yuan, W., Tuttle, DL, Shi, YJ, Ralph, GS y Dunn, WA La microautofagia inducida por glucosa en Pichia pastoris requiere la subunidad alfa de la fosfofructoquinasa. J. Ciencia celular. 110, 1935-1945 (1997).

Artículo CAS PubMed Google Scholar

Daniely, D. et al. La 6-fosfogluconato-deshidrogenasa neumocócica, una supuesta adhesina, induce una respuesta inmune protectora en ratones. Clínico. Exp. Inmunol. 144, 254263 (2006).

Artículo de Google Scholar

Antikainen, J., Kuparinen, V., Lähteenmäki, K. & Korhonen, TK Las enolasas de patógenos bacterianos grampositivos y lactobacilos comensales comparten similitud funcional en los rasgos asociados a la virulencia. Inmunol FEMS. Medicina. Microbiol. 51(3), 526–534. https://doi.org/10.1111/j.1574-695X.2007.00330.x (2007).

Artículo CAS PubMed Google Scholar

Castaldo, C. et al. La alfa-enolasa desplazada en la superficie de Lactobacillus plantarum es una proteína de unión a fibronectina. Microbio. Hecho celular. 16(8), 14. https://doi.org/10.1186/1475-2859-8-14 (2009).

Artículo CAS Google Scholar

Knaust, A. y col. Las proteínas citosólicas contribuyen al reclutamiento de plasminógeno superficial de Neisseria meningitidis. J. Bacteriol. 189(8), 3246–3255 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Kinnby, B., Booth, NA y Svensater, G. Unión del plasminógeno por estreptococos orales de placa dental y lesiones inflamatorias. Microbiología 154 (Parte 3), 924–931. https://doi.org/10.1099/mic.0.2007/013235-0 (2008).

Artículo CAS PubMed Google Scholar

Kesimer, M., Kili, N., Mehrotra, R., Thornton, DJ y Sheehan, JK Identificación de proteínas de unión a mucina salival MUC7 de Streptococcus gordonii. BMC Microbiol. 9, 163 (2009).

Artículo PubMed PubMed Central Google Scholar

Kainulainen, V. y col. La glutamina sintetasa y la glucosa-6-fosfato isomerasa son proteínas adhesivas de pluriempleo de Lactobacillus crispatus liberadas por la catelicidina epitelial LL-37. J. Bacteriol. 194(10), 2509–2519. https://doi.org/10.1128/JB.06704-11 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Candela, M. et al. Unión del plasminógeno humano a Bifidobacterium. J. Bacteriol. 189(16), 5929–5936. https://doi.org/10.1128/JB.00159-07 (2007).

Artículo CAS PubMed PubMed Central Google Scholar

Kinoshita, H. y col. Superficie celular Lactobacillus plantarum LA 318 gliceraldehído-3-fosfato deshidrogenasa (GAPDH) se adhiere a la mucina del colon humano. J. Aplica. Microbiol. 104(6), 1667–1674. https://doi.org/10.1111/j.1365-2672.2007.03679.x (2008).

Artículo CAS PubMed Google Scholar

Basu, D. y col. Una nueva proteína asociada a nucleoides de Mycobacterium tuberculosis es una secuencia homóloga de GroEL. Ácidos nucleicos res. 37, 4944–4954 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Bergonzelli, GE et al. GroEL de Lactobacillus johnsonii La1 (NCC 533) está asociado a la superficie celular: papel potencial en las interacciones con el huésped y el patógeno gástrico Helicobacter pylori. Infectar. Inmune. 74(1), 425–434 (2006).

Artículo CAS PubMed PubMed Central Google Scholar

Ensgraber, M. & Loos, M. Una proteína de choque térmico de 66 kilodaltons de Salmonella typhimurium es responsable de la unión de la bacteria al moco intestinal. Infectar. Inmune. 60(8), 3072–3078 (1992).

Artículo CAS PubMed PubMed Central Google Scholar

Garduo, RA, Garduo, E. y Hoffman, PS La chaperonina hsp60 asociada a la superficie de Legionella pneumophila media la invasión en un modelo de células HeLa. Infectar. Inmune. 66(10), 4602–4610 (1998).

Artículo de Google Scholar

Pantzar, M., Teneberg, S. & Lagergard, T. La unión de Haemophilus ducreyi a los receptores de carbohidratos está mediada por la proteína de choque térmico GroEL de 58,5 kDa. Los microbios infectan. 8(9–10), 2452–2458 (2006).

Artículo CAS PubMed Google Scholar

Wuppermann, FN, Melleken, K., Julien, M., Jantos, CA y Hegemann, JH La proteína GroEL1 de Chlamydia pneumoniae está asociada a la superficie celular y es necesaria para la infección de células HEp-2. J. Bacteriol. 190(10), 3757–3767. https://doi.org/10.1128/JB.01638-07 (2008).

Artículo CAS PubMed PubMed Central Google Scholar

Wiker, HG, Sletten, K., Nagai, S. y Harboe, M. Evidencia de tres genes separados que codifican las proteínas del complejo del antígeno 85 de las micobacterias. Infectar. Inmune. 58, 272–274 (1990).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, G. y col. El papel de las proteínas pluriempleadas en las bacterias. actual. Problemas Mol. Biol. 16, 15-22 (2014).

PubMed Google Académico

Alvarez, RA, Blaylock, MW y Baseman, JB La gliceraldehído-3-fosfato deshidrogenasa localizada en la superficie de Mycoplasma genitalium se une a la mucina. Mol. Microbiol. 48(5), 1417-1425 (2003).

Artículo CAS PubMed Google Scholar

Winram, SB y Lottenberg, R. La proteína Plr de unión a plasmina de los estreptococos del grupo A se identifica como gliceraldehído-3-fosfato deshidrogenasa. Microbiología 142 (Parte 8), 2311–2320 (1996).

Artículo CAS PubMed Google Scholar

Boone, TJ, Burnham, CA y Tyrrell, GJ Unión de la fosfoglicerato quinasa del estreptococo del grupo B al plasminógeno y la actina. Microbio. Pato. 51(4), 255–261. https://doi.org/10.1016/j.micpath.2011.06.005 (2011).

Artículo CAS PubMed Google Scholar

Blau, K. y col. Cadherina de flamenco: un receptor putativo del huésped para Streptococcus pneumoniae. J. Infectar. Dis. 195(12), 1828–1837 (2007).

Artículo CAS PubMed Google Scholar

Crowe, JD y cols. Candida albicans se une al plasminógeno humano: identificación de ocho proteínas de unión al plasminógeno. Mol. Microbiol. 47(6), 1637–1651 (2003).

Artículo CAS PubMed Google Scholar

Kozik, A. y col. Proteínas de unión a fibronectina, vitronectina y laminina en las paredes celulares de levaduras patógenas Candida parapsilosis y Candida tropicalis. BMC Microbiol. 15, 197 (2015).

Artículo PubMed PubMed Central Google Scholar

Descargar referencias

Laboratorio Synevovet, Bucarest, Rumania

Kasman E. Thomas y Elvira Gagniuc

Facultad de Ingeniería en Lenguas Extranjeras, Universidad Politécnica de Bucarest, Bucarest, Rumania

Pablo A. Gagniuc

Facultad de Medicina Veterinaria, Universidad de Ciencias Agronómicas y Medicina Veterinaria, Bucarest, Rumania

Elvira Gagniuc

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

KET ideó el diseño del estudio. KET y PAG escribieron el texto principal del manuscrito y EG coordinó el estudio y preparó las Figs. 1, 2 y 3. Todos los autores revisaron el manuscrito.

Correspondencia a Paul A. Gagniuc.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Thomas, KE, Gagniuc, PA y Gagniuc, E. Los genes de pluriempleo albergan ORF antisentido que codifican posibles proteínas de membrana. Informe científico 13, 12591 (2023). https://doi.org/10.1038/s41598-023-39869-x

Descargar cita

Recibido: 07 de febrero de 2023

Aceptado: 01 de agosto de 2023

Publicado: 03 de agosto de 2023

DOI: https://doi.org/10.1038/s41598-023-39869-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR