BH13.13/DDBJ/product rule
提供:TogoWiki
目次 |
/product qualifier 記載の推奨ルール
/product qualifier の値を考える上で、DDBJ 登録査定において推奨する記載則
拘束力の高いルール
- 生物名を含めない
source feature, SOURCE line, DEFINITION で表現するので 学名だけでなく、"human", "mouse" など common name も不可
- complete, partial の類は含めない
各 feature の location で表現するので
- 基本は名詞(句)を記載する
- スペルミスは補正する
当然ではあるが、記載する側 査定する側 とも人的ミスはある。 BLASTベースの安易な引用もミスを増やす。
CDS
mat_peptide, sig_peptide, transit_peptide もほぼ同様だが、「feature location に対応する産物」を指す名称なので、 基本はタンパク質を指す
community nomenclature に従うことが可能な場合は準拠することを強く推奨
以下は、網羅しきれないので、代表的な例
モデル生物など
- HGNC
- MGI
- RGD
- Zebrafish Nomenclature Committee
- TAIR Nomenclature Guidelines
- Guidelines for Nomenclature of Cloned Genes or DNA Fragments in Rice
- Fungal Genetic Nomenclature Resources
- dictyBase Nomenclature Guidelines
- 古いタイプ: genetic nomenclature (Wikipedia)
- The Journal of Bacteriology, Genetic Nomenclature
- 場合によっては登録者の独自則でも community の開始として
特定のタンパク質
- 酵素名
- HLA : leukocyte antigen, major histocompatibility complex
- 植物の細胞周期関連遺伝子、cyclin と cyclin-dependent kinase (CDK)
- Plant Mol. Biol. 32, 1003 (1996) PMID:9002599
- Nomenclature of Arabidopsis aquaporin genes
- Johanson et al. 2001. Plant Physiol 126: 1358-1369.
タンパク質一般の参照先
- UniProt
- Annotation guidelines
- Standard operating procedure for UniProt manual curation
- Nomenclature/classification of specific proteins 他
- UniProtKB/Swiss-Prot 自体、curated な辞書として
- RefSeq
- INSDC (DDBJ/EMBL-Bank/GenBank) 自体
- 例えば、何らかの辞書を作って PubDictionaries に置かせてもらう
記載に迷う場合の推奨 (DDBJ の運用)
上記とは矛盾し得る
- 略称の類ではない一般名。
- 微生物などで一般的な略称は gene symbol としての意味合いが強いので、 /gene qualifier に記載すれば十分
- 例えば、"IgG" より "immunoglobulin G" を推奨
- ただし、略称の方が一般的なケース、DNA, RNA などは略称で
- どの程度の単語を許容するか?
- 可能な限り、機能的類推が可能となるような名称
- かつてのショウジョウバエのような phenotype ベースの命名が氾濫する状況は、できれば避けたい
- 妥当な先例 (ゲノム、特定遺伝子コミュニティに限らず) がある場合は踏襲
- もちろん、新規な機能同定から名前を付与し直す流れを妨げる意図はないので、柔軟に
- allele 間差、multi-loci 由来のloci間差、locus を共有する alternative splicing などの isoform 間差の表現
- allele 間差: /gene 共通、/allele で区別、/product には allele id を含めても含めなくても可
- multi-loci 間差: /gene で区別 /product には gene id を含めても含めなくても可
- isoform 間差: /gene 共通、/product には isoform id を含めて記載
- 語頭は小文字
- ただし、DNA などの略称、固有名詞の語頭は大文字
- 酵素の異性体表現の D-, L- など意味が変わるケースは正しい方を記載
- 例えば、UniProt などとは異なる方針
- このルールは長く運用を続けてきたが、廃止するか?
- 酵素名など大文字小文字の別で意味が異なるケースもある
- 一般的な使用で大文字なのか否か、見る人が区別しやすいように
- 当時の DDBJ の検索システム事情 # 大文字小文字を区別
- 一般名が複数ある場合でも、複数の名称を記載しない。また、そのために不必要な区切り記号「 (),- 」など を使用しない。
- 後に DEFINITION などへの引用されると特に「 , 」は複数のCDSの存在を表現しているのか、区別できなくなる
- ただし、妥当な酵素名は ,- など許容しなければならない
- RefSeq、あるいは、GenBank の DEFINITION に "[product name] ([gene name])" といった書式が多く、そのまま引用して登録してくるケースは避けたい
- ただし、ID 付与による product の識別を禁止しているのではない。仮の例として /gene="TF1" とある場合、/product には
- 推奨する書式例: "transcription factor 1", "transcription regulator TF1"
- 推奨しない書式例: "transcription factor 1 (TF1)", "transcription factor 1, TF1", "transcription factor TF1"
- 基本はTF と transcription factor が同義な場合、同義反復を避けて欲しいという考え方で、"transcription regulator TF1" の場合は trans-acting factor かもしれないし、単なる ID かもしれない
- synonym, alternative name 相当の複数記載は、代表名を /product qualifier に、その他の名称を /note qualifier に記載。
- 機能が複数ある場合、併記的記載は許容
- fusion protein の扱い、人為的、天然、疾患の変異体とも併記的記載になる
- 機能、名称等が不明なタンパク質の場合は、hypothetical protein と記載。
- 他のこと、例えば、以下のような記載の推奨なども考察すべきか?
- "putative ~", "possible ~", "similar to ~" or "~ like protein"
- "[domain name] containing protein"
- "conserved hypothetical protein"
- 他のこと、例えば、以下のような記載の推奨なども考察すべきか?
ただし、similarity/coverage の閾値設定は対象生物間の進化的距離で異なるため一般化は無理
mRNA
- 下位の CDS が記載されている場合、一般的には mRNA には /product は不要としている
- 記載する場合、mRNA 転写産物を指す名称
protein を指す名称は CDS の /product に記載
rRNA
http://en.wikipedia.org/wiki/Ribosomal_RNA
rRNA feature は rRNA 転写産物を指す
- "~ rDNA", "~ ribosomal DNA" は記載不可
- "internal transcribed spacer", "intergenic spacer" の類はrRNA ではなく、それぞれ misc_RNA, misc_feature に記載し、/product よりも /note への記載を勧めている
- ほぼ、以下の何れか
- ##S ribosomal RNA
- ##S rRNA
- small subunit ribosomal RNA
- SSU rRNA
- large subunit ribosomal RNA
- LSU rRNA
tRNA
ほぼ、以下の何れか
- "tRNA-[アミノ酸三文字表記]"
- 特殊例: tRNA-fMet, tRNA-iMet, tRNA-Sup (for suppressor), tRNA-Und (for undetermined) を規定。
- "tRNA-[アミノ酸三文字表記][suffix]"
- [suffix] は通し番号が多い
- [suffix] に認識部位 (codon) を含めた記載あり
[suffix] には通し番号、認識部位を /note="recognition site: ***" と記載することを推奨
ncRNA
/ncRNA_class によって事情が異なる。
例えば miRNA, snRNA, snoRNA は命名が体系化しているのに対し、antisense, lncRNA などでは体系化されていないため、現状は推奨記載の考察が難しい。
実質は大半が自由記述になっている。
参照できそうなデータ
tmRNA
ゲノム中に平均1つであり、/product は特に記載しなくても良いかもしれない。
一応、推奨する記載は "tmRNA" or "transfer-messenger RNA"