Skip to content

关于数据集的询问 #19

@21-10-4

Description

@21-10-4

您好,我观察到论文中提到了蛋白质任务中每个子任务的数据个数:

Image

非常感谢您开源了数据集。我通过代码,发现开源数据的个数似乎和论文中的结果不一致。

type = "domain_motif" # 论文中说:46,028,实测:45100
type = "general_function" # 论文中说:88,259  实测:86572
type ="protein_function" # 论文中说:116,458, 实测:114183

另外,开源的数据集中测试集的个数也并不是1k。
验证集是随机从训练集中选择80%吗?提供的json文件中,metadata中貌似只有train和test。

Image

非常期待得到您的回复~

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions