¡Lanzamiento del premio ICLR 2021 por papel destacado!
¡Lanzamiento del premio ICLR 2021 por papel destacado! El proceso de selección de este destacado trabajo es extremadamente riguroso.
¡El 1 de abril de 2021, se publicaron recientemente artículos destacados de ICLR 2021! Entre los 860 artículos de alta calidad aceptados en ICLR este año, 8 artículos se destacaron y recibieron el premio ICLR 2021 Outstanding Paper Award.
El proceso de selección de este destacado trabajo es extremadamente riguroso. Primero, el comité de revisión de artículos sobresalientes dará una lista de artículos candidatos basada en los comentarios de revisión cuando se acepte el artículo; luego, el comité de revisión de artículos pendientes revisará más a fondo los artículos de la lista.
Los expertos no solo necesitan evaluar la calidad técnica de los artículos, sino también evaluar el posible impacto del artículo. Este impacto incluye la introducción de nuevas perspectivas de investigación, la apertura de nuevas y emocionantes direcciones de investigación y una gran contribución a la resolución de problemas importantes.
Después del riguroso proceso de revisión mencionado anteriormente, finalmente se determinó que los 8 artículos mejor calificados ganaron el premio ICLR 2021 Outstanding Paper Award.
Más allá de las capas completamente conectadas con cuaterniones: parametrización de multiplicaciones hipercomplejas con parámetros 1 / n
[Autores del artículo] Aston Zhang, Yi Tay, Shuai Zhang, Alvin Chan, Anh Tuan Luu, Siu Hui, Jie Fu
[Organización] Amazon AWS, Google Research, ETH Zurich, Universidad Tecnológica de Nanyang, Mila Lab
[Enlace de tesis] https://www.aminer.cn/pub/6008327b9e795ed227f5310e/?conf=iclr2021
[Resumen] En los últimos años, algunos estudios han demostrado el éxito del aprendizaje de la representación en un espacio supercomplejo. Específicamente, la capa completamente conectada con el cuaternión (el cuaternión es un número supercomplejo de cuatro dimensiones) reemplaza la multiplicación de matrices de valor real en la capa completamente conectada con el producto de Hamilton del cuaternión. Este método utiliza solo 1/4. En el caso de los parámetros que se pueden aprender, se ha logrado un rendimiento comparable al del método anterior en varias aplicaciones.
Sin embargo, el espacio supercomplejo solo existe en unas pocas dimensiones predefinidas (cuatro, ocho y dieciséis dimensiones), lo que limita la flexibilidad de los modelos que utilizan la multiplicación supercompleja. Para ello, el autor de este artículo propone un método de parametrización para la multiplicación supercompleja, de modo que el modelo pueda aprender reglas de multiplicación basadas en datos, independientemente de si dichas reglas están predefinidas. De esta forma, el método propuesto en este artículo no solo introduce el producto de Hamilton, sino que también aprende a operar en cualquier espacio hipercomplejo n-dimensional. En comparación con la capa correspondiente completamente conectada, la capa PHM propuesta en este documento utiliza cualquier 1 / n de parámetros aprendibles, lo que logra una mayor flexibilidad arquitectónica. En experimentos,

Figura 1: Diagrama esquemático de la capa PHM.
2.Respuesta de consultas complejas con predictores de enlaces neuronales
[Autores de artículos] Erik Arakelyan, Daniel Daza, Pasquale Minervini, Michael Cochez
[Organización] University College London, VU University Amsterdam, University of Amsterdam, Elsevier Discovery Laboratory
[Enlace de tesis] https://www.aminer.cn/pub/5fa9175f91e011e83f7407f4/?conf=iclr2021
[Enlace de código] https://github.com/uclnlp/cqd
[Resumen] Los predictores de enlaces neuronales son muy útiles para identificar los bordes faltantes en los gráficos de conocimiento a gran escala. Sin embargo, no está claro cómo usar estos modelos para responder consultas más complejas que involucran múltiples dominios (por ejemplo, en el caso de considerar bordes faltantes, el procesamiento usa conjunción lógica (∧), disyunción (∨), cuantificador existencial (∃) consulta ).
En este artículo, el autor propone un marco que puede responder de manera eficiente consultas complejas sobre gráficos de conocimiento incompletos. El autor de este artículo convierte cada consulta en un objetivo diferenciable de un extremo a otro y utiliza un predictor de enlace neuronal previamente entrenado para calcular el valor real de cada átomo. El autor de este artículo analizó además dos soluciones para optimizar el cambio de objetivo (incluida la búsqueda basada en gradientes y la búsqueda combinada.
Los resultados experimentales muestran que el método propuesto en este artículo logra un método mejor que el actual (un modelo neuronal de “caja negra” entrenado con millones de consultas generadas sin utilizar un entrenamiento de conjuntos de consultas diverso y a gran escala). Mayor tasa de precisión. En el caso de utilizar varios órdenes de magnitud menos de datos de entrenamiento, el modelo propuesto en este trabajo ha logrado una mejora relativa del rendimiento de Hits @ 3 que va del 8% al 40% en varios gráficos de conocimiento que contienen información fáctica. Finalmente, el autor de este artículo señala que de acuerdo con la solución intermedia de cada átomo de consulta complejo, la salida del modelo es interpretable.

Figura 2: La asignación de variables intermedias y los resultados de clasificación de las dos consultas obtenidas por CQD-Beam.
3.EigenGame: PCA como equilibrio de Nash
[Autores del artículo] Ian Gemp, Brian McWilliams, Claire Vernade, Thore Graepel
【Organización】 DeepMind
[Enlace de tesis] https://www.aminer.cn/pub/5f77013191e011f31b980711/?conf=iclr2021
[Enlace de código] https://github.com/uclnlp/cqd
[Resumen] En este artículo, el autor propone una perspectiva novedosa, que considera el análisis de componentes principales (PCA) como un juego competitivo, en el que cada vector de características aproximado es controlado por un jugador del juego, y el objetivo del participante es maximizar su utilidad función.
El autor de este artículo analiza las características del juego PCA y el efecto del comportamiento de actualización basado en gradientes. Al final, el autor propone un algoritmo que combina los elementos de las reglas de aprendizaje de Oja con la ortogonalización generalizada “Klemschmidt”, que naturalmente realiza computación descentralizada y paralela mediante el paso de mensajes. A través de experimentos con conjuntos de datos de imágenes a gran escala y activación de redes neuronales, el autor demostró la escalabilidad del algoritmo. El autor señala que esta nueva perspectiva sobre PCA como un microjuego conducirá a un mayor desarrollo de algoritmos y una comprensión más profunda.

Figura 3: EigenGame guía cada vector en la esfera unitaria al mismo tiempo.
4 Aprendizaje de simulación basada en mallas con redes gráficas
[Autores del artículo] Tobias Pfaff, Meire Fortunato, Alvaro Sanchez-Gonzalez, Peter W. Battaglia
【Organización】 DeepMind
[Enlace de tesis] https://www.aminer.cn/pub/5f7ee8c991e011a5faf0ffad/?conf=iclr2021
[Enlace de código] https://sites.google.com/view/meshgraphnets
【Resumen】 En muchas disciplinas de la ciencia y la ingeniería, la simulación basada en cuadrículas es el núcleo del modelado de sistemas físicos complejos. La caracterización de cuadrícula puede admitir métodos de integración numérica potentes y su resolución puede lograr un buen equilibrio entre precisión y eficiencia. Sin embargo, el costo de la simulación científica de alta dimensión es extremadamente alto y, a menudo, es necesario ajustar el solucionador y los parámetros por separado para cada sistema que se va a estudiar.
En este artículo, el autor propone “MeshGraphNets”, que es un marco para el aprendizaje de simulaciones basadas en cuadrículas utilizando redes neuronales de gráficos. Al entrenar el modelo propuesto en este trabajo, podemos hacer que transmita mensajes en el gráfico de cuadrícula y se adapte a la discretización de la cuadrícula durante el proceso de simulación feedforward. Los resultados experimentales muestran que el modelo propuesto en este artículo puede predecir con precisión la dinámica de muchos sistemas físicos (incluida la aerodinámica, la mecánica estructural y la tela). La adaptabilidad del modelo nos permite aprender dinámicas independientes de la resolución y puede extenderse a espacios de estado más complejos durante las pruebas. El método propuesto en este documento también es muy eficiente, y se ejecuta en el momento de la prueba 1-2 órdenes de magnitud más rápido que la simulación de entrenamiento.

Figura 4: Operación MeshGraphNets en el dominio SphereDynamic.
5.Síntesis neuronal del habla binaural a partir de audio mono
[Autores del artículo] Alexander Richard, Dejan Markovic, Israel D. Gebru, Steven Krenn, Gladstone Alexander Butler, Fernando Torre, Yaser Sheikh
[Organización] Laboratorio de realidad de Facebook
[Enlace de tesis] https://www.aminer.cn/pub/600830f39e795ed227f53086/?conf=iclr2021
[Enlace de código] https://github.com/facebookresearch/BinauralSpeechSynthesis
【Resumen】 Este artículo propone un método de representación neuronal para la síntesis de sonido de dos canales, que puede generar un sonido de dos canales realista y espacialmente preciso en tiempo real. La red toma una fuente de sonido de un solo canal como entrada, sintetiza el sonido de dos canales de acuerdo con la posición relativa y la dirección del oyente con respecto a la fuente de sonido y lo emite. En el análisis teórico, el autor de este artículo estudia las deficiencias de la pérdida L2 de la forma de onda original e introduce una función de pérdida mejorada para resolver las deficiencias anteriores. A través de una investigación empírica, el autor determinó que el método propuesto en este artículo genera una salida de forma de onda espacialmente precisa (medida por registros reales) por primera vez, y es mucho mejor que los métodos existentes en la investigación tanto cuantitativa como perceptual.

Figura 5: Diagrama esquemático del sistema.
6.Tasas óptimas para el descenso del gradiente estocástico promedio bajo el régimen del núcleo tangente neuronal
[Autores del artículo] Alexander Richard, Dejan Markovic, Israel D. Gebru, Steven Krenn, Gladstone Alexander Butler, Fernando Torre, Yaser Sheikh
[Organización] Universidad de Tokio, Centro de Proyectos de Inteligencia Avanzada RIKEN, Agencia de Ciencia y Tecnología de Japón
[Enlace de tesis] https://www.aminer.cn/pub/5ef3247a91e0110c353da898/?conf=iclr2021
[Resumen] En este artículo, el autor analiza la convergencia del descenso del gradiente estocástico promedio de la red neuronal de dos capas sobreparamificada para el problema de regresión. En los últimos años, algunos trabajos de investigación han señalado que el núcleo neurotangente (NTK) juega un papel importante. Estos trabajos han estudiado la convergencia global de métodos basados en gradientes bajo el mecanismo NTK, en el que casi podemos describir el mecanismo de aprendizaje de redes neuronales parametrizadas a través del espacio de Hilbert regenerativo relevante (RKHS). Sin embargo, el análisis de la tasa de convergencia bajo el mecanismo NTK sigue siendo muy prometedor. En este artículo, el autor utiliza la función objetivo y la complejidad de RKHS relacionada con NTK para mostrar que el descenso de gradiente promedio puede alcanzar la tasa de convergencia óptima minimax y puede converger globalmente. Además,
7. Repensar la selección de la arquitectura en NAS diferenciables
[Autores de artículos] Ruochen Wang, Minhao Cheng, Xiangning Chen, Xiaocheng Tang, Cho-Jui Hsieh
[Organización] Universidad de California, Los Ángeles, Laboratorio de inteligencia artificial Didi
[Enlace de tesis] https://www.aminer.cn/pub/600834609e795ed227f53207/?conf=iclr2021
【Resumen】 Debido a su eficiencia y simplicidad de búsqueda, la búsqueda de arquitectura neural diferenciable (NAS) es actualmente uno de los métodos de búsqueda de arquitectura neural más populares. Usamos algoritmos basados en gradientes para optimizar simultáneamente los pesos de los modelos y los parámetros de la arquitectura en la superred de peso compartido para lograr una búsqueda de arquitectura neuronal diferenciable. Al final de la fase de búsqueda, seleccionaremos la operación con el parámetro de arquitectura más grande para obtener la arquitectura final. Entre ellos, el supuesto implícito es que el valor del parámetro de arquitectura refleja la intensidad de la operación. Aunque hay mucho trabajo de investigación que discute la optimización de superred, pocos estudios se han centrado en el proceso de selección de arquitectura. El autor de este artículo muestra a través de experimentos y análisis teóricos:
En este artículo, el autor propone una alternativa a la selección de arquitectura basada en perturbaciones, que puede medir directamente el impacto de cada operación en la superred. El autor reevaluó varios métodos NAS diferenciables a través de la estrategia de selección de arquitectura propuesta en este artículo y descubrió que esta estrategia siempre puede extraer una arquitectura significativamente mejorada de la superred subyacente. Además, el autor encontró que la estrategia de selección de arquitectura propuesta en este artículo puede mejorar en gran medida varios modos de falla de DARTS, lo que indica que la falta de capacidades de generalización observada en DARTS se debe a la selección incompleta de arquitectura basada en escala. Se debe al problema de optimización de la superred.

Figura 6: Selección de arquitectura basada en perturbaciones
8. MODELADO GENERATIVO BASADO EN PUNTUACIONES MEDIANTE ECUACIONES DIFERENCIALES ESTOCÁSTICAS
[Autor del artículo] Yang Song
[Organización] Universidad de Stanford, Google Brain
[Enlace de tesis] https://www.aminer.cn/pub/5fc4cfdf91e011abfa2faf94/?conf=iclr2021
[Resumen] Es fácil generar ruido a partir de datos, y el proceso de generar datos a partir del ruido se denomina modelado formal. El autor de este artículo propone una ecuación diferencial estocástica (SDE), que convierte suavemente la distribución de datos complejos en una distribución previa conocida mediante la inyección lenta de ruido; Además, el autor también propone una SDE de tiempo inverso correspondiente, que convierte la distribución anterior de nuevo en la distribución de datos eliminando lentamente el ruido. Fundamentalmente, la SDE de tiempo inverso solo se basa en el campo de gradiente temporal (es decir, fracción) de la distribución de datos perturbados. Aprovechando el modelado generativo basado en puntuaciones, podemos utilizar redes neuronales para estimar con precisión estas puntuaciones y utilizar un solucionador SDE numérico para generar muestras. En este articulo,
Específicamente, el autor introdujo un marco de “predictor-corrector” para corregir errores en la evolución de la SDE discretizada en tiempo inverso. A continuación, el autor también deriva una ecuación diferencial regular divina equivalente, que toma muestras de la misma distribución que SDE, y admite cálculos de probabilidad precisos, lo que mejora la eficiencia del muestreo. Además, el autor propone un nuevo método para resolver el problema inverso del modelo basado en puntajes y realiza experimentos sobre generación de condiciones de clase, imagen en tareas de pintura y coloración.

Figura 7: Construya un modelo generativo basado en puntaje a través de ecuaciones diferenciales estocásticas
(fuente: internet, solo referencia)