基于词嵌入技术的心理学研究:方法及应用
Using word embeddings to investigate human psychology: Methods and applications
查看参考文献100篇
文摘
|
词嵌入是自然语言处理的一项基础技术。其核心理念是根据大规模语料中词语和上下文的联系,使用神经网络等机器学习算法自动提取有限维度的语义特征,将每个词表示为一个低维稠密的数值向量(词向量),以用于后续分析。心理学研究中,词向量及其衍生的各种语义联系指标可用于探究人类的语义加工、认知判断、发散思维、社会偏见与刻板印象、社会与文化心理变迁等各类问题。未来,基于词嵌入技术的心理学研究需要区分心理的内隐和外显成分,深化拓展动态词向量和大型预训练语言模型(如GPT、BERT)的应用,并在时间和空间维度建立细粒度词向量数据库,更多开展基于词嵌入的社会变迁和跨文化研究。我们为心理学专门开发的R语言工具包PsychWordVec可以帮助研究者利用词嵌入技术开展心理学研究。 |
其他语种文摘
|
As a fundamental technique in natural language processing(NLP), word embedding quantifies a word as a low-dimensional, dense, and continuous numeric vector(i.e., word vector). Word embeddings can be obtained by using machine learning algorithms such as neural networks to predict the surrounding words given a word or vice versa(Word2Vec and FastText) or by predicting the probability of co-occurrence of multiple words(GloVe) in large-scale text corpora. Theoretically, the dimensions of a word vector reflect the pattern of how the word can be predicted in contexts; however, they also connote substantial semantic information of the word. Therefore, word embeddings can be used to analyze semantic meanings of text. In recent years, word embeddings have been increasingly applied to study human psychology, including human semantic processing, cognitive judgment, divergent thinking, social biases and stereotypes, and sociocultural changes at the societal or population level. Future research using word embeddings should(1) distinguish between implicit and explicit components of social cognition,(2) train fine-grained word vectors in terms of time and region to facilitate cross-temporal and cross-cultural research, and(3) apply contextualized word embeddings and large pre-trained language models such as GPT and BERT. To enhance the application of word embeddings in psychology, we have developed the R package "PsychWordVec", an integrated word embedding toolkit for researchers to study human psychology in natural language. |
来源
|
心理科学进展
,2023,31(6):887-904 【核心库】
|
DOI
|
10.3724/SP.J.1042.2023.00887
|
关键词
|
自然语言处理
;
词嵌入
;
词向量
;
语义表征
;
语义关联
;
词嵌入联系测验
|
地址
|
1.
中国科学院心理研究所, 中国科学院行为科学重点实验室, 北京, 100101
2.
中国科学院大学心理学系, 北京, 100049
3.
英国曼彻斯特大学曼彻斯特中国研究院, 曼彻斯特, M13 9PL
4.
北京师范大学和IDG/麦戈文脑科学研究院, 认知神经科学与学习国家重点实验室, 北京, 100875
5.
天津大学智能与计算学部, 天津, 300350
|
语种
|
中文 |
文献类型
|
研究性论文 |
ISSN
|
1671-3710 |
学科
|
社会科学总论 |
基金
|
国家社会科学基金重大项目
;
中国科学院心理研究所自主部署项目
|
文献收藏号
|
CSCD:7482156
|
参考文献 共
100
共5页
|
1.
蔡华俭. 半个多世纪来中国人的心理与行为变化--心理学视野下的研究.
心理科学进展,2020,28(10):1599-1688
|
CSCD被引
36
次
|
|
|
|
2.
蔡华俭. 心理学视野下的社会变迁研究:研究设计与分析方法.
心理科学进展,2023,31(2):159-172
|
CSCD被引
5
次
|
|
|
|
3.
车万翔.
自然语言处理:基于预训练模型的方法,2021
|
CSCD被引
3
次
|
|
|
|
4.
陈萌. 词嵌入模型研究综述.
河北省科学院学报,2021,38(2):8-16
|
CSCD被引
1
次
|
|
|
|
5.
黄梓航. 个人主义上升, 集体主义式微?--全球文化变迁与民众心理变化.
心理科学进展,2018,26(11):2068-2080
|
CSCD被引
30
次
|
|
|
|
6.
黄梓航. 中国社会转型过程中的心理变化:社会学视角的研究及其对心理学家的启示.
心理科学进展,2021,29(12):2246-2259
|
CSCD被引
12
次
|
|
|
|
7.
王垚. 基于词向量的多维度正则化SVM社交网络抑郁倾向检测方法.
计算机应用与软件,2022,39(3):116-120
|
CSCD被引
1
次
|
|
|
|
8.
吴胜涛. 正义动机的他人凸显效应: 基于词嵌入联想测验的证据.
科学通报,2020,65(19):2047-2054
|
CSCD被引
3
次
|
|
|
|
9.
薛栢祥.
社会媒体语言中外显及内隐社会态度的自动化分析(硕士学位论文),2019
|
CSCD被引
1
次
|
|
|
|
10.
杨紫嫣. 内隐联系测验的应用:国内外研究现状.
心理科学进展,2015,23(11):1966-1980
|
CSCD被引
6
次
|
|
|
|
11.
Agarwal O. Word embeddings (also) encode human personality stereotypes.
Proceedings of the Eighth Joint Conference on Lexical and Computational Semantics,2019:205-211
|
CSCD被引
1
次
|
|
|
|
12.
Aka A. Machine learning models for predicting, understanding, and influencing health perception.
Journal of the Association for Consumer Research,2022,7(2):142-153
|
CSCD被引
1
次
|
|
|
|
13.
Arseniev-Koehler A. Integrating topic modeling and word embedding to characterize violent deaths.
Proceedings of the National Academy of Sciences,2022,119(10):Article e2108801119
|
CSCD被引
1
次
|
|
|
|
14.
Bailey A H. Based on billions of words on the internet, PEOPLE = MEN.
Science Advances,2022,8(13):Article eabm2463
|
CSCD被引
1
次
|
|
|
|
15.
Bao H W S.
PsychWordVec: Word embedding research framework for psychological science [Computer software],2022
|
CSCD被引
1
次
|
|
|
|
16.
Bao H W S. Discerning cultural shifts in China? Commentary on Hamamura et al. (2021).
American Psychologist,2022,77(6):786-788
|
CSCD被引
3
次
|
|
|
|
17.
Beaty R E. Automating creativity assessment with SemDis: An open platform for computing semantic distance.
Behavior Research Methods,2021,53:757-780
|
CSCD被引
2
次
|
|
|
|
18.
Bengio Y. A neural probabilistic language model.
Journal of Machine Learning Research,2003,3:1137-1155
|
CSCD被引
373
次
|
|
|
|
19.
Bhatia N. Changes in gender stereotypes over time: A computational analysis.
Psychology of Women Quarterly,2021,45(1):106-125
|
CSCD被引
2
次
|
|
|
|
20.
Bhatia S. Associative judgment and vector space semantics.
Psychological Review,2017,124(1):1-20
|
CSCD被引
1
次
|
|
|
|
|