-
Notifications
You must be signed in to change notification settings - Fork 15
关于数据集的询问 #19
Copy link
Copy link
Open
Description
您好,我观察到论文中提到了蛋白质任务中每个子任务的数据个数:
非常感谢您开源了数据集。我通过代码,发现开源数据的个数似乎和论文中的结果不一致。
type = "domain_motif" # 论文中说:46,028,实测:45100
type = "general_function" # 论文中说:88,259 实测:86572
type ="protein_function" # 论文中说:116,458, 实测:114183
另外,开源的数据集中测试集的个数也并不是1k。
验证集是随机从训练集中选择80%吗?提供的json文件中,metadata中貌似只有train和test。
非常期待得到您的回复~
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels