자바 RMI(Remote Method Invocation)을 이용한 분산 컴퓨팅 환경에 관한 논문이 나왔다. 대강 기술을 해 보자면, PubChem에 저장되어 있는 약 1,800만개의 화합물을 대상으로 Marvin toolkit, 그리고 JOELib 등 두 가지 프로그램으로 간단한 분자 표현자들을 계산해 보고 이 중에서 LogP와 TPSA 두 개의 결과를 두 프로그램에 대해 비교해 본 것이다. 원래는 구글 API를 이용해 구현(ChemXtreme)되어 있었던 것을 자바 RMI로 구현을 바꾼 것이다.


이렇게 해서 만들어진 데이터베이스가 바로 ChemStar이다. 이 데이터베이스는 자바 RMI로 만들어진 최초의 분산 화학 컴퓨팅 환경이며, 여러 종류의 플러그인을 통해 쉽게 확장될 수 있는 것이 특징이라고 한다.


(ChemStar의 브라우징 페이지를 보면, 화합물 구조를 SMILES로 넘기고, 이것을 애플릿을 통해 표시하도록 되어 있다. 결국, 모든 화합물 구조를 SMILES로 가지고 있다는 것인데, 이런 점은 SMILES가 용량 면에서 큰 이점을 가지고 있다는 것을 보여주는 좋은 예이다)


PubChem의 데이터가 공개됨으로 인해, 그리고 화학과 관련된 다양한 오픈 소스 프로그램들이 등장함으로 인해 이런 일들이 가능해졌다. 이 논문에서 보여주는 결과에서도 알 수 있지만, logP나 TPSA같은 분자 표현자들은 주로 drug-like 화합물을 대상으로 만들어졌기 때문에, drug-like 화합물의 경우에는 프로그램에 따라 큰 편차가 나지 않지만 drug-like하지 않은 화합물들의 경우에는 큰 차이를 보이기도 한다. 실제로 어느 소프트웨어가 이런 화합물의 경우에 정확한 값을 주는지에 대해서는 실험값으로 검증을 해 봐야 하는 일이기 때문에 쉽게 결론이 날 수 있는 문제는 아니겠지만, 최소한 존재하는 대부분의 화합물에 대한 계산을 분산환경에서 진행할 수 있다는 것은 큰 의미가 있는 일이 아닐 수 없다.


우리나라에서도 GRID나 e-Science와 같은 것들을 통해 분산 환경을 구현하고, 이를 활용하려는 노력들이 많이 있어왔는데, 가시적으로 보이는 성과들은 많이 내지 못한 것 같다. 여러 가지 이유가 있겠지만, 이런 일들을 위해 오픈된 데이터들이 충분히 제공되지 않는 것도 하나의 원인일 수 있다는 생각이 든다. 결국 분산환경이라는 것도 컴퓨팅의 입장에서 접근하는 것이 아니라, 이런 기술을 필요로 하는 application의 차원에서 접근을 해야만 가시적인 성과를 얻을 수 있는 것이 아닐까?


사실 GRID나 e-Science와 같은 개념이 일반화된 지금, 이 논문을 보면서도 별다른 감흥이 없었는데, 실제로 내가 이런 환경에서 뭔가를 하고 싶다고 생각하는 순간, 그것을 어떻게 실제로 구현해서 사용할 것인가 하는 문제는 매우 현실적인 문제가 되고, 그렇기 때문에 어쨌든 실제로 이것을 구현해 보고 사용해 보면서 개선해 나가는 노력이 (비록 선구적인 연구는 아니겠지만) 반드시 필요하다는 생각이 든다.

크리에이티브 커먼즈 라이센스
Creative Commons License
이올린에 북마크하기(0) 이올린에 추천하기(0)
2008/04/14 08:39 2008/04/14 08:39
받은 트랙백이 없고, 댓글 하나가 달렸습니다.

댓글+트랙백 RSS :: http://agile2robust.com/tt/rss/response/36