The purpose of this repository is to collect and investigate language oriented neural decoding work, and then making a comprehensive survey.
1. Deep Neural Networks and Brain Alignment: Brain Encoding and Decoding (Survey) 2023-07-17
对脑编码和脑解码的全面调查,主要包含了刺激表现形式、按照刺激形式划分的数据集、评估指标,视、听、多模态、语言任务上的脑编码,视、听、语言任务上的脑解码。
挑战:(1)理解视觉/语音/多模态模型与大脑信息处理相似性
(2)解码多模态刺激
(3)大脑不同部位损伤导致认知程度下降
(4)如何自监督训练NN,像人脑一样组成单词含义、理解图像和语音
(5)如何利用神经科学改进NN架构,提升准确性
2. Mapping Brains with Language Models: A Survey2023-06-08
3. fMRI Brain Decoding and Its Applications in Brain–Computer Interface: A Survey 2022-02 Brain Sciences
4. Application of Transfer Learning in EEG Decoding Based on Brain-Computer Interfaces: A Review 2020-01 Sensors
5. fMRI-based Decoding of Visual Information from Human Brain Activity: A Brief Review 2021-04 International Journal of Automation and Computing
1. Open Vocabulary Electroencephalography-to-Text Decoding and Zero-Shot Sentiment Classifcation2022AAAI
该工作发表在AAAI-22上,提出了EEG2Text任务,并在ZuCO数据集上使用BART模型,完成EEG信号生成开放域内的文本重建任务,并在此基础上进一步进行零样本情感分类。
2.Decoding EEG Brain Activity for Multi-Modal Natural Language Processing2021-7
探究EEG数据对NLP任务的潜力,提出多模态机器学习架构,联合文本和EEG作为输入。在二元/三元情绪分类分类上由于多个基线。在复杂的关系检测任务上,仅在BERT嵌入优于基线,有待进一步研究。表明EEG可以稳定改善情感分析任务,但对关系检测任务改善有限。
1. UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive signals and human language 2023ACL
该工作发表于2023ACL上,提出了fMRI2Text任务和通过脑信号生成文本的UniCoRN框架,并使用该框架在Narratives和ZuCO数据集上完成了fMRI2Text和EEG2Text任务,该工作还使用了多种划分数据集的方法进行测试。
2. Semantic reconstruction of continuous language from non-invasive brain recordings 2023-05-01
该工作发布于Nature Neuroscience,为每个受试者建立编码器,编码器为fMRI体素级建模,提取刺激词的语义特征,通过正则化线性回归预测体素中BOLD信号。并为每个受试者估计一个词率模型,预测单词何时被感知。GPT-1语言模型用于生成候选词序列,维护一个beam,包含k个候选词,当词率模型检测到新词时,为每个候选生成续词,编码模型为每个续词打分,保留分数最高的k个。迭代生成最可能的词序列。
训练数据来自受试者听16小时的叙述故事的fMRI影响。
3. Brain2Word: Decoding Brain Activity for Language Generation 2020-11
4. Linking artificial and human neural representations of language2019-10 EMNLP2019
主要工作通过大脑解码任务比较不同的语言模型的句子表示与人脑活动匹配效果。通过微调NNLM研究其句子表示与人脑活动的匹配程度。结果表明NLP标准任务的微调降低了脑解码的性能,而语言模型表示的脑解码效果更优,表明fMRI可能无法解码细粒度的语法信息。
5. Syntactic Structure Processing in the Brain while Listening2023-01
使用三种句法解析方法(选区解析树、依存解析树、递增自上而下解析树)提取词特征,以及BERT提取语义特征。在NarrativesfMRI数据集上训练编码模型预测大脑响应,评估不同特征在不同区域的的预测能力。选取解析树有助于解释temporal lobe 和 middlefrontal gyrus的激活,依存解析树更好的编码 angular gyrus 和 posterior cingulate cortex的句法结构,说明不容脑区对不同的句法解析方法敏感。尽管BERT的语义信号效果最好,无法解释脑区的差异。
6. Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features2023-03 Transactions on Pattern Analysis and Machine Intelligence
2. MINDGPT: INTERPRETING WHAT YOU SEE WITH NON-INVASIVE BRAIN RECORDINGS
该工作主要探索通过视觉线索将大脑活动转换为文本,换言之就是将fmri编码至clip视觉空间,再进一步转换到语义空间,此外该工作探究了脑区域之间的联系,比较了模型从高、低和全部视觉皮层中信号学习到的概念(下图如生物、金属以及方、圆)。即低级视觉皮层和高级视觉皮层信号的协同/冗余作用,排除了二者之间的协同作用可能性。最终计算学习到的fmri编码与clip编码之间的余弦相似度,探究fmri编码学到了哪些信息。

3. BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity arxiv preprint 10.6
该工作通过数据驱动的方式探究/验证视觉皮层脑区与对应刺激之间的关系,通过为脑区中每一个体素构建natural language caption,后续通过caption中的名词数量,caption生成的image探索该体素与对应刺激之间的联系,验证了不同脑区与不同刺激的对齐。

1. BrainCLIP: Bridging Brain and Visual-Linguistic Representation Via CLIP for Generic Natural Visual Stimulus Decoding
2. MindDiffuser: Controlled Image Reconstruction from Human Brain Activity with Semantic and Structural Diffusion 2023-08-08
3. Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors 2023-05-29
4. Natural scene reconstruction from fMRI signals using generative latent diffusion
5. Rethinking Visual Reconstruction: Experience-Based Content Completion Guided by Visual Cues
6. Brain Captioning: Decoding human brain activity into images and text 2023-05-19
重建图像和文本任务,数据集为Natural Scenes Dataset(八位受试者看COCO数据集受试者的fmri)。首先使用GIT模型生成大脑字幕(先进行脑编码),并通过VDVAE估计initial 和 depths 图像(均需进行脑编码),最终通过Stable Diffusion v2 + ControlNet实施重建最终图像。缺陷:生成的caption较泛化,如用'动物'代替'牛',且生成的caption细节的缺失和错误对生成图片造成了误导

7. UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity
该工作完成fmri解码为图片和文本的任务。

1. CvFormer: Cross-view transFormers with Pre-training for fMRI Analysis of Human Brain 2023-09-14 arxiv
该工作提出一种用于结合fMRI中region of interest(RoI)和脑区域之间连接性两种视图的CvFormer架构,用于两种视图之间互补信息。并在ABIDE和ADNI两个数据集上进行Alzheimer’s Disorder (AD) 和 Autism Spectrum Disorder(ASD) 疾病诊断任务。表明这种交叉试图的方法的准确率超过其他单视图模型。
2. Neural decoding of music from the EEG 2023-01-12 Scientific Reports
3. Brain Encoding and Decoding in fMRI with Bidirectional Deep Generative Models 2019-09 Engineering
1. A natural language fMRI dataset for voxelwise encoding models
提供了包含8名受试者聆听27个自然叙述性故事(约370分钟)的fMRI数据,其中有3名受试者额外听了57个故事(约629分钟)进行扫描,刺激来源于The Moth和New York Times的Modern Love。此外,提供了构建编码模型的代码,使用岭回归进行预测,用于将单词语义特征拟合脑反应。
2. The “Narratives” fMRI dataset for evaluating models of naturalistic language comprehension
该数据集在345名受试者上收集了891份fMRI扫描,刺激呈现方式为语音播放。刺激包含27个故事,每个故事3-56分钟,共4.6小时。刺激材料来源于广播录音、公共演讲、电影动画等。刺激分布如下图所示。
3. A synchronized multimodal neuroimaging dataset for studying brain language processing
该数据集收集了12名来自北京的大学生fMRI和MEG扫描记录,在听60个来自人民日报的故事(包含不同话题)时进行扫描,每个故事包含608-1076个词,4-7分钟。其中fMRI经7次扫描,每次1.5小时,第一次扫描结构MRI和静息状态MRI,后六次进行任务扫描fMRI。MEG数据也经6次任务扫描,与fMRI后6次扫描相对应。(但fMRI和MEG扫描中间间隔一个月以上,避免材料被熟记)每次扫描结束时,受试者需回答与故事相关的选择题。
刺激来源(人民日报评论):https://www.ximalaya.com/album/30917322
4. ZuCo, asimultaneous EEG and eye-tracking resource for natural sentence reading
该数据集提供了12名受试者进行阅读任务时的EEG和EyeTrack数据。刺激来源为斯坦福情感树库中影评和维基百科关系抽取语料中的句子。分为三个任务进行扫描(情感自然阅读,自然阅读和特定任务阅读)并回答问题,每次EEG扫描进行2-3小时。
5. Open multimodal iEEG-fMRI dataset from naturalistic stimulation with a short audiovisual film
6. Natural Scenes Dataset (NSD) 该数据集包含了来自8位观看COCO图像的受试者的fMRI数据
1. Predictive Coding or Just Feature Discovery? An Alternative Account of Why Language Models Fit Brain Data LM and brain
2. Explaining black box text modules in natural language with language models 2023-05 Arxiv Preprint
本文探讨了如何使用大型语言模型(LLMs)来解释黑匣子文本模块,并提供了一种名为Summarize and Score(SASC)的方法来自动获取文本模块的自然语言解释及可靠度评分。黑匣子文本模块指的是任何将文本映射到标量连续值的函数,例如LLM中的子模块或大脑区域的拟合模型。文章阐述了SASC方法在三种情境下的使用,分别是用于合成模块的评估、解释预训练BERT模型中的模块以及生成用于解释语言刺激下单个fMRI体素响应的解释。这一研究表明,虽然LLMs的使用越来越广泛,但对它们的可解释性的要求也越来越高,而SASC提出的方法有望解决这一问题。
3. UNVEILING A CORE LINGUISTIC REGION IN LARGE LANGUAGE MODELS 2023-10-23 Arxiv preprint
复旦大学自然语言处理实验室最新研究发现,大语言模型中存在一个明显的语言能力(Linguistic Competence)核心区,该区域占据了模型参数的约1%。修改这一核心语言区的参数会严重破坏模型的语言能力。此外,研究还发现大语言模型存在严重的维度依赖(Dimension Dependence)问题。针对LLaMA2-13B模型,仅修改130亿参数中的一个,就会导致模型的语言能力完全丧失。这些发现为揭示大语言模型能力和知识如何构成提供了新思路,并能够在一定程度解释大语言模型的预训练和指令微调中很多与此前小模型训练非常不同的现象。
4. THE TEMPORAL STRUCTURE OF LANGUAGE PRO-CESSING IN THE HUMAN BRAIN CORRESPONDS TO
THE LAYERED HIERARCHY OF DEEP LANGUAGE MODELS 2023-10-11 Arxiv Preprint
这篇论文主要研究了人类大脑和深度语言模型(Deep Language Models,简称DLMs)在自然语言处理中的相似性。研究者通过记录使用电皮层脑电图(ECoG)技术收集到听30分钟叙事故事的参与者大脑中神经活动的数据,并以GPT2-XL(一种高性能的DLM)作为研究对象。在实验过程中,研究者首先发现了人脑的时间序列在处理过程中与DLM的层次结构的相似性。研究者发现,该模型不仅可以应用于人类的语言相关区域,还可以深入了解人脑在空间层次上的神经活动。具体而言,研究结果揭示了人类大脑中的自然语言处理和深度语言模型之间的紧密联系以及两者间在语言理解方面的时间层次结构的相似性。