自治体DX最前線

その情報、ChatGPTに読み込ませても大丈夫? 自治体DXの専門的立場から考える(3/3 ページ)

» 2024年12月17日 07時00分 公開
[川口弘行ITmedia]
前のページへ 1|2|3       

すぐにでも情報資産の分類をしたいのなら

 「そんなに長い期間待ってられない」「すぐにでも情報資産の分類をしたい」と言うのならば、現在のファイルサーバの中を自動的に検索して判別する仕組みが必要となります。

 以前、私が開発した「PIスキャナー」というシステムがあります。このシステムはネットワーク分離環境でレベル2ネットワークからレベル1ネットワークへ情報資産を持ち出す際に内容をチェックするというものです。3種類のチェック方法があり、

  • あらかじめ登録していたキーワードの有無を確認する方法
  • 日本語コーパス(辞書)に基づき単語を検知する方法
  • 過去に判別した文書の傾向と似ている文書をブロックする方法

 を組み合わせるというものでしたが、特に過去の文章の傾向を分析してブロックするには、ブロックすべき文章を数多く学習させておかなればならないこともあり、ビジネス的にはイマイチな結果となっていました。

 ところが最近の生成AIでは、事前学習なしで文書の判別ができそうだということで紹介したのが前回の機密性判別のプロンプトでした。そうは言っても、結局、最初の疑問に戻っている状態なので、もう少し技術的に解決する方法も考えてみましょう。

 以前の記事で「ローカルLLM」という分野があることを書いたのですが、覚えているでしょうか。

(関連記事:「弱者の戦略」がDX成功の鍵に 生成AIに「できない理由」を投げてみると……?

 外部のサービスであるChatGPTに情報資産を持ち出すことが難しいのならば、庁内で動く生成AIを使うことで、この問題を解決できるかもしれません。

 例えば、カナダの新興Cohere(コーヒア)社から提供されている「Command R+」というモデルは日本語処理の性能も高いとのことですし、 東大発のAIスタートアップELYZA社の「Llama-3-ELYZA-JP」というモデルも、GPT-4を上回る高い性能を持つと発表されています(なお、Command R+は商用利用不可なので、あくまでも非営利、研究目的利用となります)。これらを組み合わせることで、

 ファイルサーバ内のファイルを順次取得

→取得したファイルからテキストデータを抽出

→事前登録キーワード判別などの下処理

→ローカルLLMでの判別

→判別結果に基づいたファイルのラベリング

――という処理を継続的に動作させることで、少しずつ庁内のファイルサーバの整理を進めていくことは、現実味を帯びてきているともいえます。

 ちなみに私自身もこの仕組みは未検証ですが、来年あたりにGPUを多めに積んだサーバを準備して検証環境を作ってみたいと思います。

 次回は「自治体における情報セキュリティの考え方」について、総務省のガイドラインのうち、2024年10月に改定された点を中心に考えを整理していきましょう。自治体にとって、なるべく人的負担や金銭的な負担をかけずに、どこまで実効性の高い対策を進められるかについて私も知恵を絞りたいと思います。

前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

アイティメディアからのお知らせ

SaaS最新情報 by ITセレクトPR
あなたにおすすめの記事PR