1簡介

SMILES(Simplified molecular input line entry specification),簡化分子線性輸入規範,是一種用ASCII字元串明確描述分子結構的規範。SMILES由Arthur Weininger和David Weininger於20世紀80年代晚期開發,並由其他人,尤其是日光化學信息系統有限公司(Daylight Chemical Information Systems Inc.),修改和擴展。
由於SMILES用一串字元來描述一個三維化學結構,它必然要將化學結構轉化成一個生成樹,此系統採用縱向優先遍歷樹演算法。轉化時,先要去掉氫,還要把環打開。表示時,被拆掉的鍵端的原子要用數字標記,支鏈寫在小括弧里。
SMILES字元串可以被大多數分子編輯軟體導入並轉換成二維圖形或分子的三維模型。轉換成二維圖形可以使用Helson的「結構圖生成演算法」(Structure Diagram Generation algorithms)。

2典範SMILES

典範SMILES保證每個化學分子只有一個SMILES表達式。典範SMILES常用於分子資料庫的索引。
記法:
1.原子用在方括弧內的化學元素符號表示。
例如[Au]表示「金」,氫氧根離子是[OH-]。
有機物中的CNOPSBrClI等原子可以省略方括弧,其他元素必須包括在方括弧之內。
2.氫原子常被省略。
對於省略了方括弧的原子,用氫原子補足價數。
例如,水的SMILES就是O,乙醇是CCO
3.雙鍵用「=」表示;三鍵用「#」表示。
含有雙鍵的二氧化碳則表示為O=C=O,含有三鍵的氰化氫表示為C#N
4.如果結構中有環,則要打開。斷開處的兩個原子用同一個數字標記,表示原子間有鍵相連。
環己烷(C6H12)表示為C1CCCCC1。需要注意,標誌應該是數字(在此例中為1)而不是「C1」這個組合。擴展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。
5.芳環中的COSN原子分別用用小寫字母c,o,s,n表示。
6.碳鏈上的分支用圓括弧表示。
比如丙酸表示為CCC(=O)OFC(F)F或者C(F)(F)F表示三氟甲烷。

3異構SMILES

異構SMILES是指擴展的,可以表示同位素、手性和雙鍵結構的SMILES版本。它的一個顯著特徵是可以精確地說明局部手性。
雙鍵兩側的結構分別用符號/\表示,例如,F/C=C/F表示反二氟乙烯,它的兩個氟原子位於雙鍵的兩側。
F/C=C\F表示順二氟乙烯,它的兩個氟原子位於雙鍵的同一側。

4發展

SMARTS是SMILES基礎之上的改進版。SMARTS中增加的一點是,它允許使用通配符表示原子和化學鍵。因此,它在化合物資料庫中廣泛用於結構的計算機化搜索。這種搜索的機理是先通過輸入的SMILES式重構化學式,再搜索子圖的同形;而不是直接通過SMILES式的對比完成的。

5其他記法及比較

其他著名的線性記法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近國際純粹與應用化學聯合會推薦國際化合物標識(InChI)作為標準的分子式表達式。
然而普遍認為,SMILES與InChI相比更具有可讀性;而且很多軟體都支持SMILES,其中不少軟體都具有圖論等方面的理論基礎。
上一篇[致突變性]    下一篇 [PubChem]

相關評論

同義詞:暫無同義詞