ChatGPT 自然言語処理
2024.04.24 更新
ChatGPTは、自然言語処理を行うAIモデルで、OpenAIによって開発されました。当社では、この技術をいち早く活用して、お客様の業務課題の改善のためにITシステムとして提供できるよう取り組んでいます。
今回は、ChatGPTを企業で活用するにあたっての最新状況を整理したいと思います。
ChatGPTは、OpenAIによって開発された自然言語処理を行うためのモデルです。AttentionメカニズムとTransformerアーキテクチャを基盤としています。並列処理によって大量のデータを効率的に学習することが可能であり、自然言語での会話能力が飛躍的に向上しました。
ChatGPTサービスは2022年11月に開始されました。当初から驚きをもって世間に受け入れられ、瞬く間に活用が広がっています。モデルはGPT-3.5から始まって現在はGPT-4にいたっており、さらにGPT-5のリリースも噂されています。バージョンが上がるごとに、学習パラメータ数もどんどん増加し、性能が向上しています。
過去のデータに基づく機械学習である以上、ChatGPTもある時点までの情報に基づいて学習を行っています。これをナレッジカットオフといいます。
現在のナレッジカットオフは2023年12月であり、それ以降の情報については学習されていないため直接の知識がありません。たとえば、それ以降に起こった世界のニュースなどを質問してみてもモデルだけの知識では正しく答えることはできません。
ChatGPTは、Web検索を通じて最新情報を取得できる機能を持っています。これにより、ナレッジカットオフによって知識のないことでも正しい回答をすることができます。普通に質問する際に「最新情報を調べて」などと補足で指示すれば、裏でWeb検索して答えてくれます。
たとえば、以下のように質問してみました。回答が英語になってしまいましたが、今年3月19日に決定された日銀のマイナス金利解除のニュースについて、ナレッジカットオフを超えて回答できています。
ChatGPTはプログラミングコードの生成も可能です。仕様を整理したうえて、「プログラムを書いて」などと指示すれば、かなり正確にコードを記述できます。そのまま実行環境にコピペして動いてしまうことも全く珍しくありません。特に当社のようなITシステム開発においては、開発の手間とコストを大幅に削減することが期待され、上手に活用していきたいところです。
ためしに、Googleスプレッドシートから情報を読み取って処理するApp Scriptを作成させてみました。
ChatGPTに入力できるのは自然文だけではなくなりました。マルチモーダルの能力を持ち、画像などの入力にも対応しています。この機能を利用するには、ファイルをChatGPTにドラッグアンドドロップするだけです。その後、「画像の概要を説明して」「写っているものをリストアップして」などと指示すれば、入力したデータをもとに処理してくれます。
試しに、いつも当社の教務パッケージ製品を応援してくれているこちらの画像について説明をさせてみました。
ChatGPTは、特定のドキュメントを追加することにより、その情報を基にした対話が可能になります。追加方法には、追加したデータを含めた再学習(ファインチューニング)をする方法と、追加データをプロンプトに入力する方法と2つがあります。後者の応用として、他の検索エンジンと連携させたRetrieval-Augmented Generation (RAG) を構築することで、より専門的な応答も可能になります。
この機能は、企業でChatGPTを活用する際の本命になりそうです。社外に出せない自社独自のデータ(たとえば顧客からの問合わせ履歴データ、社内マニュアルなど)をもとにチャットで質問したい、などのユースケースが可能です。
ChatGPTはPythonコードを実行する機能も備えており、たとえばCSVなどのデータファイルを入力して、Pandasなどでデータ分析したり、他にもデフォルトで使えるライブラリが豊富にあるので活用範囲が広い機能です。CSVデータを入力するには、画像と同様にドラッグアンドドロップするだけです。
ためしに、2023年の東京の平均気温CSVデータを渡してグラフを描いてもらいました。
DALL-E 3という画像生成モデルを使い、新しい画像を生成することもできます。欲しい画像のイメージを説明して指示するだけです。またマルチモーダルと組み合わせて、参考にしてほしい画像をドラッグアンドドロップして入力し、「こんな感じの画像を作成して」などということもできました。
もちろん本ブログ先頭のアイキャッチ画像も作ってもらいました。プロンプトも以下のようにとても簡単な指示をしただけです。
企業がChatGPTを利用する際には、入力したデータが外部に漏れるリスクを理解する必要があります。ChatGPTは入力された情報をベースに回答を生成しますが、これが予期せずデータベースに蓄積され、学習材料として使用される可能性があるため、重要な情報の入力は慎重に行うべきです。
ChatGPTでは、入力データを学習に使用しないようオプトアウトする設定が提供されています。
ChatGPTは事実に基づく情報を提供することを目指していますが、ナレッジカットオフや確率的なデータ処理の性質上、時には現実と異なる「ハルシネーション」と呼ばれる回答をすることがあります。このため、生成された回答が事実と一致するかどうかを常に確認することが重要です。特に、法律や医療、金融といった専門性が求められる分野での使用には十分な注意が必要です。
企業でChatGPTを導入する場合、どの社員がどのように使用しているかを把握し管理することが必須です。不適切な使用を防ぎ、効果的なツールとして機能させるためには、使用状況を定期的にレビューし、適切なガイドラインとトレーニングを提供する必要があります。
ChatGPTの使用には料金が伴います。企業としては、予算内で効率良く使用するために、使用料金を事前に把握し、計画的に管理することが重要です。予期せぬ高額請求を避けるためにも、料金体系を理解し、必要に応じて使用限度を設定すべきです。
またChatGPTは、Plus、Team、Enterpriseの各プランを提供しています。Plusは個人向けの有料プランのため、企業で利用の際は、TeamかEnterpriseになると想定されますが、用途に応じて選択することが必要です。
MicrosoftのクラウドであるAzureでは、OpenAIのAPIが簡単に活用できるAzure OpenAI Serviceが提供されています。クラウド環境でSLAが設定されているなど安定稼働が見込め、エンタープライズでの使用が想定されています。Entra IDによる認証も使え、ユーザー管理の点でも優れています。Azure AI Searchとのオーケストレーションで、RAGが比較的簡単に構築できる点もメリットです。
今回は、ChatGPTの現在の概要、および企業で採用する観点での整理を行いました。ChatGPTは非常に革新的な技術で多くの可能性を秘めており、さまざまな応用が見込まれます。当社もこの力を最大限に活用していく方針です。これからも技術の進化に注目し、お客様にとって最適なソリューションを提供できるよう努めたいと思います。
※なお、本ブログの執筆自体もChatGPT先生にほとんどお願いしたことは言うまでもありません
[1] ChatGPT
https://chat.openai.com/
[2] Azure OpenAI Service
https://azure.microsoft.com/ja-jp/products/ai-services/openai-service