Ion Torrent次世代シーケンサは弊社で販売中のNGS(次世代シーケンサ)で、シーケンサから遺伝子の変異や発現量などの情報が得られます。シーケンサからの情報では、リファレンスやコントロールとの差異を確認できますが、変化の重要性の判断ができません。
そのため、シーケンサから得られた情報に対して研究者自身がデータベースの検索、実験結果の解析や作図を行う必要があります。今回はそれらの課題解決のために、OpenAI社のChatGPT™、DALL.E™、OpenAI™ APIの3つのサービスのうち、OpenAI APIを使用した事例をご紹介します。Chat型AIのOpenAI APIは、研究者自身がデータベースの検索や実験結果の解析と作図を行う必要がなく、欲しい情報をOpenAI APIに伝えるだけで解決できます。特にOpenAI APIは、異なるソフトウエア間で情報を共有しやすいことが強みです。これにより、複雑な外部ツールやバイオインフォマティクスの技術、煩雑な実験結果の解析や作図の負担を削減できます。
本ブログでは、OpenAI APIの概要を説明しながら、弊社NGSから得られたデータに対して、発現量の比較と作図を行います。
内容
・OpenAI APIについての概要を紹介する。
・シーケンスデータに対して2群間の比較を行うためのコードを書いてもらう。
・比較結果を作図するためのコードを書いてもらう。
▼こんな方におすすめです!
・Chat型AIで、どのようなことができるか知りたい。
・Ion Torrent™次世代シーケンサの出力結果に対して、さらなる解析を行いたい。
・複雑なバイオインフォマティクスの技術や、実験結果の解析や作図が負担に感じる。
OpenAI APIの概要
初めにOpenAI APIについて簡単に説明します。OpenAI API は1つのアカウントで上限があるものの、無料で使用できるChat型AIサービスです。AIの原理としては、与えられた文章に対して、インターネット上で検索を行い回答を作成します。OpenAI APIに登録後、Examplesより使用したいアプリケーションを選択します。選択後、右上のOpen in Playgroundからアプリケーションを選択すると、OpenAI APIが使用できます。続いてOpenAI APIを使用する上での注意点をいくつかご紹介します。
利用規約上の注意点(1)
- 機密情報や個人情報の取り扱い→OpenAI APIは機密情報や個人情報を入力すると内容が学習されてしまいます。
- 著作権上の取り扱い→OpenAI APIの出力では、著作権が利用者に譲渡されています。ただし、OpenAI APIが返す回答には、他人が著作権を所有する内容が含まれる可能性があるので注意が必要です。
使用上の注意点
- OpenAI API使用上の注意点→質問する場合は具体的に条件を絞り、丁寧な文章にします。また、同じ質問を再度すると回答が異なる場合があります。
- 外部データベースの利用→論文データベースへは現状アクセスが困難であり、その他の有料データベースへのアクセスも難しいです。最後にOpenAI APIを使用する上で重要なパラメーターについて画像で説明します。
(1)参照元 :OpenAI 利用規約 https://openai.com/policies/terms-of-use
OpenAI APIを使用した2群間の比較
サンプルデータをOpenAI APIにcopy & pasteした後、2群間で比較を行い遺伝子を絞り込みます。今回使用したデータの取得には、弊社のIon PI™ Chipと、約21,000個の遺伝子を標的としたIon AmpliSeq™ Transcriptome Human Gene Expression Panelを使用しています。データの値はRPMで正規化されており、6サンプルのデータがあります。そのうちa1 a2 a3のデータとb1 b2 b3のデータをレプリケートデータとして、2群の比較を行いました。
今回上記のデータを使用し解析を行う際の注意点としては、OpenAI APIに命令をする際に細かく条件を指定する事です。以下が実際の命令文となります。
Q:各遺伝子に対してa1 a2 a3で平均値を出し、同様にb1 b2 b3でも平均値を出してT検定を行い、P値を算出してください。
正規分布に従っていると仮定し、計算結果を表にしてください。
計算結果を用いた作図
2群間で比較を行った結果を使用し、2群間の増減が分かる図と、2群間の増減およびP値の変動が分かる図を作成します。今回も同様に作図するためのプログラミングコードをOpenAI APIに考えてもらい、そのコードを外部ツールRStudio™ に入れ作図を行います。
Rはオープンソースで利用可能な統計やデータ解析に特化したプログラミング言語で、基本使用は無料です。RStudioはRを利用した、ファイル、関数、変数、パッケージ、図などを管理できるソフトウエアです。
下記に簡単なRStudioの画面を表示します。パソコンのドキュメントに解析対象のデータを入れ赤枠内にコマンドを貼り付けると青枠のplotsに作図結果が表示されます。
①2群間の増減が分かる図を作成します。
Q:今回のデータからGeneの増減が分かる図をRで書くプログラミングコードを教えてください。
棒グラフと遺伝子名が見えづらいため、修正を依頼します。
Q:今回のデータからGeneの増減が分かる図をRで書くプログラミングコードを教えてください。また、xlab(“Gene”)の文字の大きさを小さくし、増加は赤、減少は青にしてください。
→変更後のコードを貼り付けて作図を行うとエラーが発生しました。
上記のエラーコードをそのまま, OpenAI APIに入れると修正後のプログラミングコードが生成されます。
Q: Error: attempt to use zero-length variable name
一回でイメージした図が再現できない場合は再度質問をして修正を行います。エラーコードが出た場合はそのコードをそのままOpenAI APIに質問します。ここからはより複雑な図を作成します。
②増減とP値が分かるVolcano plotを作成します。
Q:今回のデータからRStudioでVolcano plotを作成するコードを教えて下さい 。Y軸はP.Valueです。X軸はIon_001 MeanとIon_002 Meanで倍率を計算してlog2に変換した値を使用してください。X軸は0.1間隔にしてください。P.Valueとlog2_fold_changeにN/Aがあった場合はそのデータは除いてください。どんなGeneか分かるようにしてください。P.Valueが0.05未満でlog2_fold_changeが1または-1の物は青丸にしてください。
遺伝子名が重なっていますが、①と同じ手順で修正後のプログラミングコードを生成できます。
まとめ
本ブログではOpenAI APIの概要を説明した後、OpenAI APIを使用してシーケンサから出力されたデータに対して2群間の比較と作図を行いました。弊社テクニカルサポートではシーケンサから得られたデータに対して、お客さまのご要望を伺いデータ解析や作図も行っております。弊社の、次世代シーケンス(NGS)データ解析コンサルティングサービスの内容について興味がありましたら、弊社テクニカルサポートまでお問い合わせください
次世代シーケンサ(NGS)入門
次世代シーケンスの原理や何ができるかがよくわからない、または自分の研究領域にどのように活用できるかわからないという方向けに、次世代シーケンスの基本や各研究領域に特化したアプリケーションをまとめました。リンク先から、それぞれの領域に応じたページをご覧いただけます。
研究用にのみ使用できます。診断用には使用いただけません。
ChatGPT is a trademark of ChatGPT Artificial Intelligence Institute Inc.
DALL.E is a trademark of Open AI, L.P.
OpenAI is a trademark of OpenAI, Inc.
RStudio is a trademark of RStudio, Inc.