Skip to content

struktury wstep

filips edited this page Nov 9, 2015 · 8 revisions

Formaty "plików chemicznych"

Subiektywna lista najpopularniejszych formatów zapisu struktur chemicznych.

1D

format opis
.smi, .smiles SMILES - liniowy format zapisu struktur chemicznych. Zawiera informację o sposobie połączenia poszczególnych atomów, ale nie mówi nic o tym, jak atomy są połączone w przestrzeni. Np: CC1=CC=CC=C1 - toluen
.inchi InChI - IUPAC International Chemical Identifier. Liniowy sposób zapisu struktury chemicznej. Np: InChI=1S/C7H8/c1-7-5-3-2-4-6-7/h2-6H,1H3 - toluen
.sln SYBYL Line Notation (SLN). Based on SMILES, it incorporates a complete syntax for specifying relative stereochemistry. Np C[1]H:CH:CH:CH:CH:CH:@1 - benzen.

Inne:

format opis
InChIKey InChIKey - 25 znakowy ~unikalny identyfikator związku; używany w zastosowaniach bazodanowych. Np: InChIKey=YXFVVABEGXRONW-UHFFFAOYSA-N (toluen)

2D-3D

Mogą zawierać informacje o przestrzennym (2D, 3D) umiejscowieniu atomów w strukturze. Niektóre formaty mogą także przechowywać metadane (np informacje o właściwościach związku itp).

format opis
.mol Popularny format do zapisu małych molekuł. Podobny do sdf. Bez informacji o ładunkach cząstkowych i metadanych przykład: toluen
.sdf .sd Rozszerzenie formatu .mol. Chyba najpopularniejszy format zapisu struktur, zwłaszcza w zastosowaniach bazodanowych (itp). Nie zawiera informacji o ładunkach cząstkowych! przykład: toluen, przykład: toluen + metadane
.mol2 Często używany w "modelowaniu" (np dokowanie molekularne). Używany do zapisu zarówno małocząsteczkowych struktur jak i np białek. Może zawierać informacje o ładunkach cząstkowych. np: toluen
.pdb The Protein Data Bank File Format. Służy głównie do przechowywania informacji o strukturach białkowych (to domyślny format dla tych struktur). Stworzony w latach 70-tych, ma szereg wad i niekompatybilności, ale jak na razie niczego lepszego nie wymyślono/nie wprowadzono w życie. np: toluen
.xyz Prosty format zapisu struktur chemicznych, używany głównie w zastosowaniach hardkorowego modelowania (obliczenia kwantowe itp). przykład: toluen
.cml, .mrv Chemical Markup Language oparty na XMLu; chyba coraz bardziej popularny

Opis tych i innych formatów plików chemicznych znaleźć można na stronie openbabel

Wujek dobra rada

Formaty

  • Raczej nie używać formatów PDB, XYZ dla małych molekuł bo gubimy część informacji o strukturze
  • InChi - może zawierać niepełną informację o strukturze (konieczne pole AuxInfo)
  • SMILES, mol, sdf - OK, szeroko rozpoznawalny

Jednoznaczność zapisu

  • format SMILES nie jest unikalny - tj jedna struktura chemiczna może być zapisana na wiele różnych sposobów
  • mimo to wszystkie te zapisy kodują tą samą strukturę

smiles

  • format Canonical SMILES powinien być jednoznaczny.

Rysowanie

  • Uwaga na chiralność!

chiralność

  • a - ok
  • b - nie wiadomo
  • c - przeciwnie niż a

Aromatyczność

kekule

benzeny

  • należy raczej używać formy "Kekulizowanej" gdyż niektóre programy mogą mieć problem przy wczytywaniu struktury "aromatycznej"

Normalizacja

tautomers

nitro

  • czasem warto znormalizować struktury (ręcznie lub automatycznie)

Jonizacja

jony

  • należy zadbać o taką samą jonizację struktur w obrębie baz danych
  • wszystkie neutralne łatwe
  • wszystkie zjonizowane w ustalonym pH (np fizjologicznym 7.4) trudne
  • Więcej porad w języku angielskim tutaj.
Clone this wiki locally