KZ:// / blog / la-metafora-el-canon-y-el-poder
◆ series-entry · 02 MAY 2026

Neuronas que no son neuronas · I: la metáfora, el canon y el poder

La 'neurona artificial' es una caricatura de 1943 que se disfrazó de modelo del cerebro. Primera parte: de McCulloch y Pitts a la genealogía borrada del deep learning (Rashevsky, Cajal, Ivakhnenko, Amari, Fukushima), lo que una neurona real hace y la artificial no, y por qué el backprop y Hopfield funcionan sin parecerse al cerebro.

AUTORVictor
FECHA02 MAY 2026
SECCIÓNblog

1. Disclaimer

El otro día, en un meetup, en una conversación sobre IA y cerebro con varias birras arriba, traté de argumentar esto, mezclé cosas que no había que mezclar, y llegué a casa con esa sensación incómoda de tener algo que decir y no haberlo encontrado en los pasillos oscuros de la memoria. Era una discusión que quería enriquecer. Ahora, más sobrio, lo escribo despacio, con notas y verificando fuentes, para tenerlo prolijo la próxima vez. Vengo de un viaje largo, hecho de lecturas y experimentación empírica, que me dejó incómodo con la palabra "neurona" en "red neuronal" (artificial): está haciendo un trabajo retórico enorme que la mayoría de la gente que la usa no nota. Y cuando uno empieza a mirar de cerca, la pregunta se vuelve más interesante que la respuesta.

Esto no es un enfoque contra la inteligencia artificial. Es un aporte a un tema que me parece corre el riesgo de quedarse en la superficie por poseer una estructura muy compleja en varias ciencias que satisfacen al lector más técnico.


2. El relato oficial: McCulloch y Pitts, 1943

La historia empieza con un paper de Warren McCulloch (neurofisiólogo) y Walter Pitts (lógico autodidacta sin título), publicado en 1943: A Logical Calculus of the Ideas Immanent in Nervous Activity.[1] Su propuesta fue simple y elegante: modelar la neurona como una unidad lógica binaria. Recibe entradas, las suma con pesos, y si supera un umbral, dispara. Si no, no dispara. Cero o uno. Como un transistor con personalidad.

Era una abstracción increíblemente útil para la lógica formal. McCulloch y Pitts demostraron que redes de estas unidades podían computar cualquier función lógica. Era, en un sentido muy preciso, una "neurona suficiente" para construir computación. El problema vino después: lo que era una abstracción matemática para entender la lógica del sistema nervioso se transformó, en las décadas siguientes, en el modelo estándar de "neurona artificial" en ingeniería. Frank Rosenblatt agregó el perceptrón en 1958. Rumelhart, Hinton y Williams publicaron backpropagation con redes multicapa en 1986. Yann LeCun aplicó las convoluciones a reconocimiento de dígitos escritos en 1989. Cada paso fue ingeniería, no biología.

La neurona artificial estándar de hoy, la que usa GPT, Gemini, Claude, todas las redes profundas, sigue siendo en lo esencial una versión enriquecida del modelo de 1943: una suma ponderada de entradas, una función de activación no lineal (ReLU, GELU, sigmoid), y una salida. Le sumamos arquitecturas (transformers, attention, normalización por capas), pero la unidad básica es la misma caricatura de hace ochenta años.

Y la caricatura funciona. Eso es lo confuso. Funciona increíblemente bien para tareas que en 2010 parecían inalcanzables. Pero que funcione no significa que se parezca al cerebro.


3. Los borrados del canon

Si esa fuera toda la historia, el problema sería filosófico: una abstracción matemática se confundió con un modelo biológico. Pero la historia que conté arriba no es toda la historia. Es la historia oficial. La que se cuenta en cada keynote, cada manual, cada documental sobre IA. Y como toda historia oficial, está construida tanto por lo que cita como por lo que omite.

Empecemos por lo más cercano. Walter Pitts no apareció de la nada. Era discípulo directo de Nicolas Rashevsky, biofísico de origen ucraniano-judío que en 1938 había publicado Mathematical Biophysics, una obra fundacional que ya proponía modelos matemáticos de actividad neuronal con umbrales y funciones de activación.[2] Rashevsky fundó la escuela de biofísica matemática en la Universidad de Chicago, dirigió el Bulletin of Mathematical Biophysics (la revista donde McCulloch y Pitts publicaron en el 43) y fue mentor de toda una generación. El paper del 43 es, en buena medida, una formalización lógico-booleana de un programa que Rashevsky venía empujando hacía una década. McCulloch lo reconocía explícitamente. Las narrativas posteriores lo borraron. Hoy la mayoría de la gente que cita "McCulloch y Pitts" no podría decir quién fue Rashevsky, y la escuela de biofísica matemática de Chicago se desmanteló en los sesenta porque la biología experimental la consideraba "demasiado teórica".

Hay precursores aún más anteriores. Alexander Bain (1873) y William James (1890) ya proponían algo cercano a redes asociativas con conexiones que se fortalecen por uso. La regla de Hebb (1949), canónica en el campo, es básicamente la formalización de una intuición que James había puesto en prosa cincuenta años antes. Y hay alguien que el canon de IA simplemente no nombra: Santiago Ramón y Cajal, premio Nobel 1906, que estableció empíricamente la doctrina neuronal. Cajal no hizo modelos computacionales, pero la idea misma de "neurona como unidad funcional" es suya, no de los anglosajones del siglo XX. Que la genealogía estándar arranque en Chicago en 1943 y no en Madrid en 1888 ya es una decisión política sobre qué se considera ancestro legítimo y qué se considera mera prehistoria.

Después está la historia no occidental, que es donde el patrón se vuelve sospechosamente sistemático.

Alexey Ivakhnenko, ingeniero ucraniano/soviético, publicó entre 1965 y 1971 el Group Method of Data Handling: redes multicapa entrenables con selección automática de features.[3] Es deep learning antes de que el término existiera. Sus papers están en revistas soviéticas, en ruso primero y luego traducidos al inglés. Jürgen Schmidhuber, que lleva años librando una cruzada bibliométrica por reabrir esta historia, lo llama directamente "el padre del deep learning" y argumenta que la genealogía estándar lo borra por ser soviético en plena Guerra Fría.[4] No es una exageración paranoica: la historiografía de la IA tiene una correlación sospechosa con los frentes de financiamiento DARPA y la geografía de la Guerra Fría.

Shun-ichi Amari, matemático japonés, publicó stochastic gradient descent aplicado a redes neuronales multicapa en 1967, casi veinte años antes de Rumelhart, Hinton y Williams.[5] También trabajó en dinámica de campos neuronales y fundó la geometría de la información como rama matemática. Amari está en los círculos teóricos (los que leen) pero raramente aparece en las narrativas de divulgación.

Kunihiko Fukushima, también japonés, construyó el Neocognitron entre 1979 y 1980: una red con convoluciones, pooling y feature maps jerárquicos.[6] Es el ancestro directo de las CNNs que LeCun popularizaría una década después. LeCun lo cita honestamente (es de los pocos que lo hace) pero el crédito popular cayó sobre Bell Labs y el LeNet del 89.

El patrón es difícil de mirar y no verlo. Rashevsky borrado por incómodo y porque su escuela perdió la batalla institucional. Cajal subordinado a la categoría de "antecedente histórico" y no de fundador. Ivakhnenko borrado por soviético. Amari y Fukushima minimizados por japoneses publicando fuera del eje angloamericano. Lo que queda en pie es una genealogía limpia que va de Chicago a Cornell a Toronto a Bell Labs a Mountain View. Es la misma geografía que produjo, en paralelo, el sistema de financiamiento que decide qué se investiga y qué no.

Rivera Cusicanqui llamaría a esto un dispositivo: el "saber occidental" no es solo un cuerpo de ideas, es una máquina que produce su propio origen y subordina toda otra genealogía a la categoría de "antecedente local" o "paralelo menor". El canon de la IA es un caso de manual. La doctrina del citation funciona como cualquier canon religioso: lo que no fue citado en Nature o Science en inglés, simplemente no existió. Y cuando alguien como Schmidhuber intenta reabrir el archivo, la respuesta automática del campo es tratarlo como un viejo molesto y autorreferencial, en lugar de leer la sustancia de la corrección.

No estoy diciendo que el deep learning moderno sea robo de propiedad intelectual. Estoy diciendo algo más específico y más interesante: la historia oficial de la "neurona artificial" no es solo una metáfora floja, como apuntaba la sección anterior. Es también un artefacto de poder. Y leer ese artefacto con cuidado es un primer paso para no comprar entera la siguiente metáfora floja que nos vendan.


4. Lo que una neurona real hace (y la artificial no)

Acá quiero ir despacio porque es donde más confusión hay. Una neurona biológica no es una suma ponderada con activación. Es un sistema dinámico no lineal, con muchas escalas de tiempo en paralelo, embebido en un tejido que también participa de la computación. Algunas cosas que ocurren en una neurona real y que la neurona artificial no contempla:

Dendritas que computan. El soma de la neurona no recibe una suma plana de entradas. Las dendritas, que son las ramificaciones por donde llegan las señales, hacen su propia computación local. Spikes dendríticos, integración no lineal, segmentación por compartimientos. Trabajos como los de Bartlett Mel y Jackie Schiller mostraron que una sola neurona piramidal del córtex puede comportarse como una red multicapa por sí sola.[7] Lo que la IA llama "una unidad" tiene, en biología, la complejidad de una red entera.

Sinapsis con química. En la red neuronal artificial, los pesos son números reales que se multiplican por las entradas. En la sinapsis real hay neurotransmisores (glutamato, GABA, dopamina, serotonina, acetilcolina, decenas más), receptores ionotrópicos y metabotrópicos, ventanas de tiempo, vesículas, recaptación. La transmisión sináptica no es un escalar: es un proceso bioquímico con dinámica propia.

Plasticidad dependiente del tiempo de los spikes. En IA, el aprendizaje se hace ajustando pesos por gradiente descendente. En el cerebro, la regla canónica es el STDP, spike-timing dependent plasticity: si la neurona presináptica dispara antes que la postsináptica, la conexión se fortalece; si dispara después, se debilita. Es una regla local, asimétrica, en el tiempo de los milisegundos.[8] No hay backprop. No hay función de pérdida global. No hay batch.

Glía que no es decoración. Los astrocitos, oligodendrocitos y microglía (las células gliales) son aproximadamente la mitad del volumen del cerebro humano. Durante décadas se las consideró soporte. Hoy sabemos que los astrocitos modulan la transmisión sináptica, regulan la plasticidad, sincronizan poblaciones neuronales y participan activamente en la computación.[9] La neurona artificial no tiene glía. Ni equivalente.

Neuromoduladores que reescriben la red. Dopamina, noradrenalina, serotonina, acetilcolina no son señales más entre neuronas. Son neuromoduladores difusos que cambian el estado computacional de regiones enteras: cuán plástica es una sinapsis ahora, cuán "atenta" está una corteza, qué patrón de conectividad efectiva está activo. Una red neuronal artificial no tiene neuromoduladores: sus pesos son fijos durante la inferencia.

Ritmos. Theta, alpha, beta, gamma. El cerebro vivo es un sistema oscilatorio en múltiples bandas, con sincronización entre regiones, fases que codifican información, ventanas temporales que se abren y cierran. Las redes neuronales artificiales son fundamentalmente atemporales: una vez entrenadas, computan en un paso forward sin reloj propio.

La lista sigue. La cuestión es: la palabra "neurona" en IA refiere a una abstracción matemática útil, no a un modelo de la neurona biológica. Decir "una red neuronal aprende como un cerebro" es como decir que un avión vuela como un pájaro. En un sentido muy laxo, sí. En cualquier sentido técnico, no.


5. Backpropagation no es biológico, y los premios Nobel lo saben

Esto vale la pena subrayarlo. El algoritmo que entrena prácticamente todas las redes profundas del mundo, backpropagation, no tiene un equivalente conocido en el cerebro. Lo dijo Francis Crick (sí, el del ADN) en un editorial breve en Nature en 1989, cuando empezaba el primer boom de redes neuronales: el cerebro no parece capaz de implementar el algoritmo de retropropagación porque requiere transmitir información hacia atrás por las mismas vías que la transmiten hacia adelante, con precisión perfecta, y eso no se observa.[10]

Hinton, premio Nobel de Física 2024 junto a Hopfield justamente por su trabajo en redes neuronales, ha sido público sobre esta tensión. En una entrevista de 2017 dijo que sospechaba que "el cerebro no hace backpropagation" y que probablemente había que repensar el aprendizaje desde cero si uno quería un modelo plausiblemente biológico.[11] Sin embargo, las redes que ganaron el ImageNet, las que escribieron este texto, las que estás usando para resumir esto, todas usan backprop. Funciona. Funciona tan bien que la cuestión de si se parece al cerebro pasó a ser una pregunta interesante sólo para neurocientíficos.

La maniobra histórica fue: empezamos llamando "neurona" a la unidad porque queríamos modelar al cerebro. Cuando descubrimos que el modelo no se parecía mucho al cerebro pero funcionaba para problemas de ingeniería, nos quedamos con el nombre y abandonamos la pretensión biológica en silencio. Es honesto cuando lo dicen los técnicos. Es marketing cuando aparece en una keynote.


6. Hopfield, Boltzmann y la física estadística disfrazada de cerebro

El Nobel 2024 a Hopfield y Hinton fue un evento curioso. Lo dieron en Física, no en Medicina ni en Ciencias de la Computación. La razón es genuina: lo que Hopfield introdujo en 1982, las "redes de Hopfield", y lo que Hinton extendió con las máquinas de Boltzmann, son sistemas de física estadística aplicada a la memoria y al aprendizaje.[12]

Una red de Hopfield es una colección de nodos binarios con conexiones simétricas, donde el estado del sistema evoluciona minimizando una función de energía análoga a la de un vidrio de spin. Patrones almacenados se vuelven mínimos locales de esa energía. La red recuerda relajando hacia el mínimo más cercano. Es una idea hermosa. Y es física, no biología. La inspiración fue el cerebro, sí, pero el aparato matemático viene de Ising, de Boltzmann, de Gibbs.

Esto no es una crítica. Es una observación. Algunas de las ideas más fértiles de la "neurociencia computacional" no vienen de la neurociencia: vienen de la mecánica estadística aplicada por analogía. Y producen modelos que aprenden y memorizan, pero que no están fundados en cómo el cerebro real implementa la memoria. Cuando un manual le explica al lector que "tu cerebro funciona como una red de Hopfield", está tomando una abstracción inversa: usa una analogía física para explicar la biología, después de haber inventado la analogía física para resolver un problema de física.

Vale la pena notar, igual, que la red de Hopfield moderna (la "modern Hopfield network" de Ramsauer y otros, 2020) es matemáticamente equivalente al mecanismo de atención de los transformers.[13] Es decir: el motor de los modelos grandes de lenguaje hoy es, formalmente, una memoria asociativa de Hopfield generalizada. Eso es interesante. Y profundo. Y muy poco biológico.


7. Lo que sí converge: predictive coding, embeddings, columnas corticales

Dije que iba a hacer puentes, no sólo críticas. Hay tres convergencias reales entre la IA actual y la neurociencia que vale la pena tomar en serio.

Predictive coding. Karl Friston, neurocientífico inglés, lleva veinte años desarrollando el "principio de la energía libre": la idea de que el cerebro es esencialmente una máquina de predicción, que procesa principalmente errores entre lo que esperaba y lo que efectivamente llegó.[14] Cada nivel jerárquico del córtex predice la actividad del nivel inferior, y sólo los errores propagan hacia arriba. Es una idea que tiene evidencia experimental (estudios de fMRI, registros intracraneales en pacientes neurológicos) y un correlato matemático sofisticado. Y se parece, formalmente, a varios entrenamientos auto-supervisados modernos: los modelos que aprenden prediciendo la siguiente palabra (GPT), o el siguiente frame de video, o el patch enmascarado de una imagen, están haciendo algo análogo. La diferencia es que el cerebro lo hace en línea, jerárquicamente, con neuromoduladores que regulan la confianza de la predicción según contexto.

Representaciones distribuidas y embeddings. Una de las pocas cosas que la neurociencia y la IA hacen igual es representar conceptos como vectores en espacios de alta dimensión donde la similitud semántica corresponde a proximidad geométrica. El hipocampo y la corteza entorrinal codifican lugar y memoria episódica con poblaciones de neuronas que se comportan funcionalmente como embeddings.[15] Lo que un transformer hace cuando ubica "rey" cerca de "reina" en su espacio latente tiene un análogo conceptual real en cómo un cerebro de mamífero representa categorías. No es la misma implementación. Es la misma estrategia computacional emergente.

Columnas corticales. Jeff Hawkins, fundador de Numenta y autor de On Intelligence (2004) y A Thousand Brains (2021), ha sostenido que la corteza cerebral está construida por la repetición de un mismo módulo, la columna cortical, cada una capaz de aprender modelos del mundo. Su tesis es que la inteligencia emerge de la integración masiva de miles de modelos paralelos, no de un único proceso jerárquico.[16] Es una idea que la IA dominante todavía no ha tomado en serio, pero que tiene paralelos sugerentes con arquitecturas modulares y mixture of experts. Numenta es un grupo pequeño y heterodoxo, pero su crítica al deep learning convencional es articulada y vale la pena leer.

Estos tres ejemplos muestran que el puente IA-neurociencia es posible cuando uno deja la metáfora floja y trabaja con análogos formales. La metáfora "neurona artificial" no es ese puente: es un nombre heredado.


8. Neuromorphic: la pista que casi nadie sigue

Existe una rama minoritaria de la computación que se toma en serio la pregunta "¿qué pasaría si construyéramos hardware que se pareciera al cerebro?". Se llama neuromorphic computing, el término lo acuñó Carver Mead en los años 80. La idea: en lugar de simular neuronas en GPUs Von Neumann (memoria separada del cómputo, sincronizada por reloj global), construir chips donde cada "neurona" es una pequeña unidad analógica o digital que dispara spikes asincrónicos, con plasticidad local en silicio.

IBM construyó el TrueNorth en 2014, un chip con un millón de neuronas digitales y 256 millones de sinapsis, consumiendo 65 milivatios.[17] Intel construyó Loihi en 2018 y Loihi 2 en 2021, con plasticidad on-chip y soporte para STDP.[18] La universidad de Manchester construyó SpiNNaker, una arquitectura masivamente paralela diseñada para simulación neuronal en tiempo real.[19]

Estos chips consumen una fracción de la energía de una GPU equivalente para tareas de procesamiento de señales, reconocimiento de patrones temporales y aprendizaje no supervisado. Son, en términos termodinámicos, mucho más cerebro que cualquier H100. Y sin embargo, están en los márgenes. La comunidad de IA mainstream no los toma en serio porque el ecosistema (frameworks, datasets, métodos de entrenamiento) está construido alrededor del paradigma diferenciable y sincrónico. Los neuromorphic chips son spike-based, asincrónicos, no diferenciables, y eso los hace incompatibles con backprop.

Es una pista enorme escondida a plena vista. Si alguien quiere construir IA realmente parecida al cerebro, ahí hay una línea de investigación que lleva cuarenta años acumulando saber, y que casi nadie nombra cuando habla de "redes neuronales".



Hasta acá, una punta del cable: la "neurona artificial" como nombre heredado, y la historia de poder que lo sostiene. Pero hay otra punta. Si la IA es el cerebro proyectado sobre matrices, el electroencefalograma es el cerebro real proyectado sobre electrodos. De esa otra punta, los psicodélicos, el tiempo y por qué quiero hacer música con electrodos, va la segunda parte.


Notas y fuentes


  1. McCulloch, W. S., y Pitts, W. (1943). "A logical calculus of the ideas immanent in nervous activity". Bulletin of Mathematical Biophysics, 5, 115-133. El paper fundacional. Disponible en archivo. ↩︎

  2. Rashevsky, N. (1938). Mathematical Biophysics: Physico-Mathematical Foundations of Biology. University of Chicago Press. Para una recuperación histórica del personaje y su relación con Pitts: Abraham, T. H. (2002). "(Physio)logical circuits: The intellectual origins of the McCulloch–Pitts neural networks". Journal of the History of the Behavioral Sciences, 38(1), 3-25. ↩︎

  3. Ivakhnenko, A. G., y Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier. Ivakhnenko, A. G. (1971). "Polynomial theory of complex systems". IEEE Transactions on Systems, Man, and Cybernetics, 1(4), 364-378. ↩︎

  4. Schmidhuber, J. (2015). "Deep learning in neural networks: An overview". Neural Networks, 61, 85-117. La cruzada bibliométrica de Schmidhuber es tan sistemática como polémica; su website personal mantiene una "historia alternativa" del deep learning que vale la pena leer aun con escepticismo sobre el tono. ↩︎

  5. Amari, S. (1967). "A theory of adaptive pattern classifiers". IEEE Transactions on Electronic Computers, EC-16(3), 299-307. ↩︎

  6. Fukushima, K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics, 36(4), 193-202. ↩︎

  7. Beniaguev, D., Segev, I., y London, M. (2021). "Single cortical neurons as deep artificial neural networks". Neuron, 109(17), 2727-2739. Un estudio que mostró que reproducir la actividad de una sola neurona piramidal de capa 5 requiere una red artificial profunda de varias capas. Línea de investigación iniciada por trabajos previos de Bartlett Mel. ↩︎

  8. Bi, G. Q., y Poo, M. M. (1998). "Synaptic modifications in cultured hippocampal neurons: dependence on spike timing, synaptic strength, and postsynaptic cell type". Journal of Neuroscience, 18(24), 10464-10472. Paper canónico sobre STDP. ↩︎

  9. Araque, A., et al. (2014). "Gliotransmitters travel in time and space". Neuron, 81(4), 728-739. Una revisión sobre la transmisión astrocítica y su rol en la plasticidad. ↩︎

  10. Crick, F. (1989). "The recent excitement about neural networks". Nature, 337(6203), 129-132. Editorial breve, muy citado, donde Crick señala que la implausibilidad biológica de backprop es un problema serio si uno quiere modelos del cerebro. ↩︎

  11. Hinton ha repetido esta posición en varios medios. Una buena cobertura: "Geoffrey Hinton: 'I don't think AI is conscious yet'", entrevistas en MIT Technology Review (2020) y luego del Nobel 2024 en The Guardian. La idea recurrente: backprop funciona en máquinas, pero el cerebro probablemente usa otra cosa. ↩︎

  12. Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences, 79(8), 2554-2558. El paper canónico de la red de Hopfield. La conexión con física estadística es explícita desde el título. ↩︎

  13. Ramsauer, H., et al. (2020). "Hopfield Networks is All You Need". arXiv:2008.02217. El paper que estableció la equivalencia formal entre redes de Hopfield modernas y el mecanismo de atención de transformers. ↩︎

  14. Friston, K. (2010). "The free-energy principle: a unified brain theory?". Nature Reviews Neuroscience, 11(2), 127-138. La formulación canónica del principio. Friston tiene literatura técnica densa, pero esta revisión es relativamente accesible. ↩︎

  15. Bottini, R., y Doeller, C. F. (2020). "Knowledge across reference frames: Cognitive maps and image spaces". Trends in Cognitive Sciences, 24(8), 606-619. Sobre representaciones espaciales y semánticas en hipocampo y corteza entorrinal, y su parentesco con embeddings. ↩︎

  16. Hawkins, J. (2021). A Thousand Brains: A New Theory of Intelligence. Basic Books. La exposición más reciente y accesible de la tesis de Numenta. Su libro previo, On Intelligence (2004), sigue siendo referencia. ↩︎

  17. Merolla, P. A., et al. (2014). "A million spiking-neuron integrated circuit with a scalable communication network and interface". Science, 345(6197), 668-673. El paper de TrueNorth. ↩︎

  18. Davies, M., et al. (2018). "Loihi: A Neuromorphic Manycore Processor with On-Chip Learning". IEEE Micro, 38(1), 82-99. La descripción técnica de Loihi. ↩︎

  19. Furber, S. B., et al. (2014). "The SpiNNaker Project". Proceedings of the IEEE, 102(5), 652-665. Manchester, ARM cores, simulación neuronal en tiempo real. ↩︎