「そんなに長い期間待ってられない」「すぐにでも情報資産の分類をしたい」と言うのならば、現在のファイルサーバの中を自動的に検索して判別する仕組みが必要となります。
以前、私が開発した「PIスキャナー」というシステムがあります。このシステムはネットワーク分離環境でレベル2ネットワークからレベル1ネットワークへ情報資産を持ち出す際に内容をチェックするというものです。3種類のチェック方法があり、
を組み合わせるというものでしたが、特に過去の文章の傾向を分析してブロックするには、ブロックすべき文章を数多く学習させておかなればならないこともあり、ビジネス的にはイマイチな結果となっていました。
ところが最近の生成AIでは、事前学習なしで文書の判別ができそうだということで紹介したのが前回の機密性判別のプロンプトでした。そうは言っても、結局、最初の疑問に戻っている状態なので、もう少し技術的に解決する方法も考えてみましょう。
以前の記事で「ローカルLLM」という分野があることを書いたのですが、覚えているでしょうか。
(関連記事:「弱者の戦略」がDX成功の鍵に 生成AIに「できない理由」を投げてみると……?)
外部のサービスであるChatGPTに情報資産を持ち出すことが難しいのならば、庁内で動く生成AIを使うことで、この問題を解決できるかもしれません。
例えば、カナダの新興Cohere(コーヒア)社から提供されている「Command R+」というモデルは日本語処理の性能も高いとのことですし、 東大発のAIスタートアップELYZA社の「Llama-3-ELYZA-JP」というモデルも、GPT-4を上回る高い性能を持つと発表されています(なお、Command R+は商用利用不可なので、あくまでも非営利、研究目的利用となります)。これらを組み合わせることで、
ファイルサーバ内のファイルを順次取得
→取得したファイルからテキストデータを抽出
→事前登録キーワード判別などの下処理
→ローカルLLMでの判別
→判別結果に基づいたファイルのラベリング
――という処理を継続的に動作させることで、少しずつ庁内のファイルサーバの整理を進めていくことは、現実味を帯びてきているともいえます。
ちなみに私自身もこの仕組みは未検証ですが、来年あたりにGPUを多めに積んだサーバを準備して検証環境を作ってみたいと思います。
次回は「自治体における情報セキュリティの考え方」について、総務省のガイドラインのうち、2024年10月に改定された点を中心に考えを整理していきましょう。自治体にとって、なるべく人的負担や金銭的な負担をかけずに、どこまで実効性の高い対策を進められるかについて私も知恵を絞りたいと思います。
ChatGPTを使って「文書機密レベル」を判別する方法 自治体の情報セキュリティについて考える
ChatGPTに重要な情報を送っても安全か? 自治体のネットワーク分離モデルから考える
自治体を苦しめてきた「オープンデータ公開」 負担軽減へ生成AIが秘める可能性とは?
自治体の「DX推進計画」が失敗するのはなぜ? 評価指標を生成AIで正しく設定する方法
プロンプトの悩み不要 自治体で使うべき「ChatGPT Plus」の機能とは?Copyright © ITmedia, Inc. All Rights Reserved.
Special
PR注目記事ランキング