首页 文章详情

2G数据集 | 80w知乎用户问答数据

大邓和他的Python | 388 2023-03-11 13:07 0 0 0
UniSMS (合一短信)





一、ZhihuRec数据集介绍

ZhihuRec数据集由 清华大学信息检索组(THUIR)和  知乎公司 共同构建,仅供研究使用。ZhihuRec 数据集是从知识共享平台(知乎)收集的,该平台由 10 天内收集的约 一亿(100M) 次交互、798K 用户、165K 问题、554K 答案、240K 作者、70K 主题和超过 501K 用户查询日志组成。还有用户、答案、问题、作者和主题的描述,这些都是匿名的。据我们所知,这是用于个性化推荐的最大的真实世界交互数据集。由于ZhihuRec数据集包含约100M的用户回答印象日志,因此也称为ZhihuRec-100M。还构建了从 ZhihuRec-100M 数据集随机采样的两个较小的数据集,分别称为 ZhihuRec-20M 和 ZhihuRec-1M,以满足各种应用需求。它们包含大约 20M 和 1M 的用户回答印象日志,可以看作是一个中等大小的数据集和一个相对较小的数据集。


ZhihuRec项目及下载地址

  • https://github.com/THUIR/ZhihuRec-Dataset
  • https://cloud.tsinghua.edu.cn/d/d6c045c55aa14bb39ebc/



二、数据集详情

2.1 数据集内的文件

FilenameSizeDescription
inter_impression.csv2.6GBuser clicks and impressions
inter_query.csv111MBuser queries
info_user.csv135MBthe features of the users occured in the dataset
info_answer.csv917MBthe features of the answers occured in the dataset
info_question.csv14MBthe features of the questions occured in the dataset
info_author.csv3.1MBthe features of the authors occured in the dataset
info_topic.csv413KBthe IDs of the topics occured in the dataset
info_token.csv409MBthe features of the tokens occured in the dataset

2.2 数据集统计信息

DatasetZhihuRec-100MZhihuRec-20MZhihuRec-1M
#impressions *99,978,52319,999,857999,970
#clicks26,981,5835,402,345268,656
#clicks : #non-clicks1 : 2.711 : 2.701 : 2.72
#queries *3,899,553776,20138,422
#users *798,086159,6427,974
avg #impressions per user125.27125.28125.40
avg #clicks per user33.8133.8433.69
#users with queries501,893100,2715,047
avg #queries per user7.777.747.61
#answers *554,976343,10381,563
#questions *165,012104,13029,340
#authors *240,956167,79647,888
#topics *72,31854,78522,897
#tokens *556,546428,334249,586

2.3  数据集字段

Some fields in the data set are null, which are represented by empty strings in the file.

inter_impression.csv

IndexNullableDescription
0
user ID
1
answer ID
2
impression timestamp
3
click timestamp (0 for non-click)

inter_query.csv

IndexNullableDescription
0
user ID
1
token IDs in the query (separated by spaces)
2
query timestamp

info_user.csv

IndexNullableDescription
0
user ID
1
register timestamp
2
gender
3
login frequency
4
#followers
5
#topics followed by this user
6
#questions followed by this user
7
#answers
8
#questions
9
#comments
10
#thanks received by this user
11
#comments received by this user
12
#likes received by this user
13
#dislikes received by this user
14
register type
15
register platform
16
from android or not
17
from iphone or not
18
from ipad or not
19
from pc or not
20
from mobile web or not
21
device model
22
device brand
23
platform
24
province
25
city
26
topic IDs followed by this user (separated by spaces)

info_answer.csv

IndexNullableDescription
0
answer ID
1
question ID
2
anonymous or not
3
author ID (null for anonymous)
4
labeled high-value answer or not
5
recommended by the editor or not
6
create timestamp
7
contain pictures or not
8
contain videos or not
9
#thanks
10
#likes
11
#comments
12
#collections
13
#dislikes
14
#reports
15
#helpless
16
token IDs in the answer (separated by spaces)
17
topic IDs of the answer (separated by spaces)

info_question.csv

IndexNullableDescription
0
question ID
1
create timestamp
2
#answers
3
#followers
4
#invitations
5
#comments
6
token IDs in the question (separated by spaces)
7
topic IDs of the queation (separated by spaces)

info_author.csv

IndexNullableDescription
0
author ID
1
is excellent author or not
2
#followers
3
is excellent answerer or not

info_topic.csv

IndexNullableDescription
0
topic ID

info_token.csv

IndexNullableDescription
0
token ID *
1
word vector trained by word2vec (64 dimensions, separated by spaces)

* ZhihuRec can't provide the corresponding text of tokens for privacy reasons. Researchers can use word vectors in the dataset or train word vectors from scratch.



引用说明

ZhihuRec dataset can be downloaded from here, and it is for the paper:

Bin Hao, Min Zhang, Weizhi Ma, Shaoyun Shi, Xinxing Yu, Houzhi Shan, Yiqun Liu and Shaoping Ma, 2021, A Large-Scale Rich Context Query and Recommendation Dataset in Online Knowledge-Sharing. arXiv preprint arXiv:2106.06467.

please cite the paper if you use this dataset:

@misc{hao2021largescale,
      title={A Large-Scale Rich Context Query and Recommendation Dataset in Online Knowledge-Sharing},
      author={Bin Hao and Min Zhang and Weizhi Ma and Shaoyun Shi and Xinxing Yu and Houzhi Shan and Yiqun Liu and Shaoping Ma},
      year={2021},
      eprint={2106.06467},
      archivePrefix={arXiv},
      primaryClass={cs.IR}
}




精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

赶快收藏 | 社会科学文本挖掘技术资料汇总

B站社会科学文本分析视频合集

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

支持开票 | Python实证指标构建与文本分析

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

数据集 | cctv新闻联播文稿数据

数据集 | 睡前消息文稿数据集

good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter