在国际知名生物学数据库如NCBI GEO面临停用的背景下,科研人员面临测序数据上传及获取Accession Number用于投稿的迫切需求。事实上,上传国产数据库也是大势所趋,国家基因组科学数据中心开发的组学原始数据归档库(GSA) 作为主流平台,具备国际期刊认可的权威性,可有效满足数据归档需求。
GSA(Genome Sequence Archive 组学原始数据归档库):为我国首个国际认可的组学数据发布平台,等效于国际SRA数据库。适用范围覆盖动植物、微生物等非人类组学原始数据,人类遗传资源数据可上传至专属子库GSA-Human(需提前完成科技部备案)。GSA已获得多个国际期刊的认可,并已被国际著名出版商Springer Nature和Elsevier收录为指定基因数据归档库。
上传至组学原始数据归档库GSA
01. GSA官网:https://ngdc.cncb.ac.cn/gsa/
02. 注册/登录GSA账号(或CNCB账号)

填写注册信息
注意:邮箱需要通过该邮箱接收用户激活链接,请确保该邮箱属于您自己或有密码能够登录,否则注册的账号无法激活和使用!请合理配置垃圾邮件判断策略,检查是否被转移到垃圾邮箱;如无法收到激活链接,请联系您单位的邮箱服务器管理员把"@big.ac.cn"添加进邮箱白名单后,再次激活。

新注册账号验证
官方会发一封验证邮件至账号注册表填写的邮箱中,点击邮件中链接进行验证(建议注册完立即认证,链接有效期24h),账号注册完成(账号、密码记得保存好,邮箱一定要记得,后续可用来找回密码)
重回GSA官网点击登录

进入账号页面,确认登陆,点击“提交数据到GSA”

03. 新建GSA数据文件夹
为保证元数据信息与测序数据文件的一致性与完整性,便于后续数据使用者检索与使用,在开始创建GSA数据集前,用户需要为 GSA 数据集的研究任务创建 BioProject,并为数据集的实验样本创建相应的 BioSample(s) 。

提交者信息填写
系统会帮您自动填入用户注册时的姓名和电子邮件信息,如部分信息需要调整,如名字和邮箱不用和注册时保持一致,可直接修改并通过“保存并进入下一项(Save and forward)“键完成修改。
注意:若注册GSA邮箱与提交者信息邮箱不一致,当数据信息审核与文件归档过程中出现任何问题,信息将反馈到您的注册邮箱,而非此处填入的提交者信息邮箱。

GSA基本信息填写
用于收集 GSA 数据集的描述信息,包括发布日期(Release date)、标题和描述信息(Description)、项目信息(BioProject accession)、样本信息(Sample Information)

04. 点击上一步中的“BioProject”链接创建BioProject;若有已建好的,填入项目编号,并往下从“填写本次提交数据基本信息”开始参考

填写BioProject基本信息

选择BioProject项目数据类型

填写项目数据出版信息【非必需】

BioProject 提交
【提交】检查无误后进入下一步提交即可;
【修改】检查有误,需要更改,直接点击上面对应模板进行修改即可

05. 提交后会自动回到GSA数据集页面,填写本次提交数据基本信息,对应前面的“GSA基本信息填写”步骤

样本信息

06. 样本属性
1) 下载模板文件,如下图中的 “Plant.cn.xlsx (中文版) ”,“e.g. Plant.cn.xlsx” 则为示例文档。

2) 编辑模板文件并检查无误后,通过文件选择框进行文件上传。

3) 上传完成后,通过点击“校验”键,进行批量表格在线审核。

4) 若文件审核不通过,请点击“删除”键,删除已上传的文件并按系统提示信息修改后,再重新上传批量表格文件,直至审核通过:当文件审核通过,请点击“保存并进入下一项”键,完成 BioSample 批量提交。


07. 填写元数据信息Metadata(按照1,2,3,4,5步骤操作)

08. 上传原始数据了,数据文件上传方式选择为 FTP 客户端(推荐使用)和Aspera 命令行上传;
1.Aspera 命令行上传
您可以通过 Aspera 命令行,使用以下的命令来上传文件:
[path/to/ascp/] -P33001 -i [path/to/key/file] -QT -l100m -k1 -d [path/to/folder/containing/files] aspsub@submit.big.ac.cn:uploads/ [user dir]
[path/to/ascp/]: 指 ascp 的执行程序, 一般安装了 aspera connect plugin 的操作系统,都有这个执行程序。不同的操作系统, ascp 存在于不同的位置。
Microsoft Windows: C:\Program Files\Aspera\Aspera Connect\bin\ascp.exe
Mac OS X: /Applications/Aspera/Connect.app/Contents/Resources/ascp
Linux: /opt/aspera/bin/ascp or /home/[username]/aspera/connect/bin/ascp
2. 推荐使用!!FTP客户端上传
在云序生物测序报告中,云序生物为您提供了FTP压缩包,按照操作系统选择相应版本直接点击安装即可。如果用户使用的电脑操作系统为 macOS 或 Linux,可以前往 FileZilla 官网的下载页面(https://filezilla-project.org/download.php?type=client)下载与用户操作系统对应的客户端版本。
打开软件,界面如下图所示,填写主机信息为“submit.big.ac.cn” ,用户名和密码填写 GSA 数据库的登陆帐号邮箱和密码,然后点击“快速连接” ,状态栏显示登陆成功,如果提示错误,请根据提示信息查看错误原因;

登陆成功后,“本地站点”选择需要上传数据的本地数据路径,“远程站点” 中,双击 GSA 文件夹,进入 GSA 目录


在“本地站点” 中选择上传的数据文件或者文件夹,点击右键,选择“上传”,或者直接拖拽到“远程站点”


可能遇到的问题
问题 1:FTP 登陆时,出现如图5 所示,状态栏出现 431 Service;AUTH SSL 的报错信息。
解决方案:如下图所示点击菜单栏“文件” 中的“站点管理器” ,修改“加密”选项为“只使用普通 FTP”或者“” ,同时,填写正确的主机地址:submit.big.a.cn ,帐号和密码信息。最后点击“连接” 即可。

问题 2:FTP 登陆时,状态栏出现 MLSD 的报错,显示“读取目录列表失败”。

解决方案:Filezila –>编辑->设置中修改传输模式,改为被动模式

核对+提交本次项目数据
进入“概览&提交”页面后,对 GSA 数据及其相关信息进行整体预览:在正式提交之前,用户可通过点击进度条上的按钮,进入相应页面修改信息。请务必检查无误后再点击“提交(Submit)”完成递交。
官方数据审核后,会发邮件到GSA账号邮箱中,通知审核结果。审核通过后收到的数据编号可以提供给期刊;审核不通过,根据邮件中提出原因对应进行修改后,重新提交,然后等官方下一轮邮件审核通知即可。
Tips:系统中 GSA 的提交状态共有 10 种,具体情况详见下表:

修改[1]: 用户可通过点击“Submission ID”进入样本总览界面修改 GSA 元数据信息
# END #
上海云序生物科技有限公司
电话:021-64878766
邮箱:market@cloud-seq.com.cn
Shanghai Cloud-seq Biotech Co.,Ltd.
地址:上海松江莘砖公路518号24号楼4楼
