最新記事一覧
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第8回。今回は、相関係数の検定方法について解説します。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第7回。今回は、2つのカテゴリが独立であるか(=関連がないか/あるか)を調べる方法について解説します。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第6回(番外編)。今回は、G*Powerという便利なツールを使い、検定に当たって必要となるサンプルサイズを簡単に求める方法を紹介します。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第5回。今回は、正規分布する2つの母集団の分散が等しいかどうかを調べる方法について解説します。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第4回。今回は、正規分布する母集団の分散がある値よりも大きいかどうかを検定する方法について解説します。
()
3D CADが使えるからといって、必ずしも正しい設計ができるとは限らない。正しく設計するには、アナログ的な知識が不可欠だ。連載「若手エンジニアのための機械設計入門」では、入門者が押さえておくべき基礎知識を解説する。第9回は、公差設計の運用、PDCAを回す重要性について取り上げる。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第3回。今回は、正規分布する母集団の平均に差があるかどうかを検定する方法について解説します。
()
2つの確率分布間の“距離”を測る指標で、「ある分布をもう一方に重ねるために、どれだけ“確率質量”を動かす必要があるか」を表す。値が0なら「完全一致」、大きいほど「異なる」ことを意味する。主に統計学や機械学習で使われ、データドリフト検出や生成モデル(WGAN)などに応用される。別名「アースムーバー距離」。
()
2つの確率分布間の“距離”を測る指標で、値は0(一致)〜1(不一致)の範囲に収まる。ユークリッド距離に似た計算式で定義されており、確率分布の違いを直感的に扱えるのが特徴である。主に統計学や機械学習の分野で、確率分布間の比較や類似度評価に利用されている。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ(仮説検定編)の第2回。今回は、正規分布する母集団の平均が、ある値と異なるかを検定する方法について解説します。
()
2つ(以上)の確率分布間のズレを測る指標で、KLダイバージェンスをベースに「対称化」し、「値の範囲が0以上〜1以下に収まる」ようにしたもの。複数の分布間の類似度を測ることができ、主に自然言語処理や生成モデルの評価、クラスタリングなどで利用されている。
()
3D CADが使えるからといって、必ずしも正しい設計ができるとは限らない。正しく設計するには、アナログ的な知識が不可欠だ。連載「若手エンジニアのための機械設計入門」では、入門者が押さえておくべき基礎知識を解説する。第8回では、穴と軸のはめ合いを題材に、公差設計に確率統計を応用し、不良率をどのように予測できるかを取り上げる。
()
初歩から応用までステップアップしながら学んでいく『やさしいデータ分析』シリーズ第4弾がスタート。第1回は仮説検定の考え方や知っておくべきキーワード、今後の連載予定を紹介します。データ分析を実践的に役立てるための基礎をしっかり学んでみませんか?
()
3D CADが使えるからといって、必ずしも正しい設計ができるとは限らない。正しく設計するには、アナログ的な知識が不可欠だ。連載「若手エンジニアのための機械設計入門」では、入門者が押さえておくべき基礎知識を解説する。第7回では、設計におけるバラつきを前提に、確率統計の考え方を公差設計にどう応用するかを分かりやすく説明する。
()
人気連載を電子書籍として無料ダウンロードできる@IT eBookシリーズ。第143弾は連載『やさしい確率分布』全編を収録。身近な疑問を題材に、Excelで楽しく体験しながら、確率分布の基本と活用法をやさしく学べます。前提知識は不要。ここからデータ分析を始めましょう!
()
ChatGPTやGeminiなどのLLM(大規模言語モデル)は、翻訳や企画案の相談、文章の要約などビジネスシーンでも大いに役立つツールとなっている。しかし、個人情報や社内情報などを扱いたい場合は、情報漏えいなどのセキュリティ面に不安を感じることも多い。そこで、商用利用も無料になったLM Studioをインストールして、ローカルLLMを実行してみよう。
()
「バリラックス・フィジオ・エクステンシー」は、瞳孔の動的データとAIに基づき設計された新しい累進度数レンズだ。明るさによって瞳孔の大きさが変化することと、メガネの見え方にどういう関係があるのか? 実際に使って確かめた。
()
一色からは「ずんだもん校正術」という題で、ずんだもんに原稿を読ませて文章のミスをチェックする方法を紹介。かわさきからは「自分で実装する浮動小数点数値の加算」という題で、浮動小数点数の内部構造を解説しつつ、Pythonで加算処理を再現する関数の実装に挑戦しました。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第8回。今回は適切に区間推定を行うために必要なサンプルサイズの求め方とその考え方を解説します。
()
3D CADが使えるからといって、必ずしも正しい設計ができるわけではない。正しく設計するには、アナログ的な知識が不可欠だ。連載「若手エンジニアのための機械設計入門」では入門者が押さえておくべき基礎知識を解説する。第6回は、公差計算の代表的な2つの考え方と、その使い分けについて取り上げる。
()
箱ひげ図ってうまく使うと便利ですよね。でも、Matplotlibとpandasでは箱ひげ図をプロットする方法が幾つもあるんです。その辺を中心に、Matplotlibでグラフを描くのか、pandasでやるのか。そんなことを考えてみましょう。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第7回。今回は正規分布する母集団同士の相関係数を区間推定する方法と考え方を解説します。
()
「知識ゼロから学べる」をモットーにした機械学習入門連載の第5回。いよいよ今回から、「Yes/No」や「スパムかどうか」といった“分類”予測を扱います。これを実現する代表的な手法が「ロジスティック回帰」です。図を使って仕組みや考え方をやさしく学び、Pythonとscikit-learnでの実装も体験します。初めての人でも安心して取り組める内容です。
()
グラフのサイズを調整したり、タイトルや軸ラベル、凡例、グリッド線、注釈などを追加したり、一度に複数のグラフを表示したりする方法をマスターしよう!
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第6回。今回は正規分布する母集団の分散の比を区間推定する方法と考え方を解説します。
()
Pythonでデータを可視化するために広く使われているMatplotlib。そのpyplotインタフェースを使って、さまざまなグラggフを手軽に作成する方法を紹介します。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第5回。今回は正規分布する母集団の平均の差を区間推定する方法と考え方を解説します。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第4回。今回は本編のお話から少し離れ、ベイズ統計の確信区間について、その考え方と求め方を解説します。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第3回。今回は正規分布する母集団の分散(=母分散)を区間推定する方法と考え方を解説します。
()
用語「交差エントロピー」について説明。分類タスクを解くための機械学習モデルの訓練に広く用いられる損失関数の一つで、「“正解ラベルの確率分布”から“モデル出力の確率分布”がどれくらいズレている(=不一致)か」を数値で表す。特に、ロジスティック回帰やニューラルネットワークの分類タスクでよく使用される。
()
ビジネスを進める上で、日本経済の立ち位置を知ることはとても大切です。本連載では「スキマ時間に読める経済データ」をテーマに、役立つ情報を皆さんと共有していきます。今回は日本の等価可処分所得について見ていきます。
()
用語「KLダイバージェンス」について説明。2つの確率分布間のズレを測る指標で、「ある確率分布が別の確率分布とどれだけ異なるか」を評価するために使用される。値が0なら「完全一致」、大きいほど「異なる」ことを意味する。主に統計解析や機械学習モデルの評価、データドリフト検出などで利用されている。
()
データ分析の初歩から応用まで少しずつステップアップしながら学んでいく連載(区間推定編)の第2回。区間推定の第一歩として、正規分布する母集団の平均(=母平均)を区間推定する方法と考え方を解説します。
()
静岡大学は、発声などの補足動作を利用することで、複数の球種の効果的な打ち分けなど、運動タイミングの正確さを向上できることを明らかにした。
()
箱ひげ図や四分位範囲を用いた外れ値の検出、正解ラベルの分布の調査、データセットのZスコア標準化を行って、Diabetesデータセットで回帰分析をする準備をしていきます。
()
初歩からステップアップしながら学んでいく『やさしいデータ分析』シリーズ第3弾。「記述統計と回帰分析編」「確率分布編」に続き、「推測統計(区間推定編)」がスタート。第1回は出発点として、推測統計の「点推定」と「区間推定」の意義や考え方を学びます。この機会に、データ分析の基礎をしっかり学んでみませんか?
()
データ分析の初歩から学んでいく連載(確率分布編)の第13回。ワイブル分布は機械の寿命や故障率の分析に使われる分布です。今回も具体例を基に、ワイブル分布の利用例や、確率密度関数と累積分布関数の形を見ていきます。母数(パラメーター)として指定するαやβの適切な値の決め方も解説します。
()
正規化と標準化はデータセットのスケーリングに大いに役立ちますが、今回は実際にどんなふうにスケーリングが行われるかについてちょっと見てみましょう。
()
データ分析の初歩から学んでいく連載(確率分布編)の第12回。ベータ分布は「確率の確率」とも呼ばれる分布です。ある事象の成功数と失敗数が分かっているときに、成功率が一定の範囲に入っている確率を求めるのに使われます。今回も具体例を基に、ベータ分布の利用例や、確率密度関数と累積分布関数の形を見ていきます。
()
Google DeepMindは、生成AIベースの高精度天気予測モデル「GenCast」を発表した。最大15日先までの日々の天気と台風などの気象現象の両方を正確に予測できるとしている。
()
データ分析の初歩から学んでいく連載(確率分布編)の第11回。ガンマ分布やアーラン分布は、待ち行列の分析などに使われる分布です。ある事象が起こる平均の間隔が分かっているときに、ある期間内にその事象が何回か以上起こる確率が求められます。今回は具体例を基に、その確率を求め、ガンマ分布の確率密度関数や累積分布関数の形を見ていきます。
()
データ分析の初歩から学んでいく連載(確率分布編)の第10回。指数分布は待ち行列の分析などに使われる分布です。一定期間に起こる事象の数が分かっているときに、ある期間内にその事象が起こる確率が求められます。今回は具体例を基に、確率を求めたり、指数分布の確率密度関数や累積分布関数の形を見ていきます。
()
Google DeepMindは、AI生成テキストを識別する電子透かし技術「SynthID Text」をリリースした。Hugging Faceで公開している。検出ツールもGitHubで公開した。
()
データ分析の初歩から学んでいく連載(確率分布編)の第9回。F分布は分散の比に関連する分布です。2つの母集団から取り出されたサンプルを基に「それぞれの母集団の分散に違いがあるのか」を調べる場合などに使われます。F分布の確率変数と自由度の求め方を見た後、その確率密度関数や累積分布関数について解説します。
()
データのスケーリング、正規化、標準化とはどんな処理なのか、その違いは何かなどを簡単なDataFrameオブジェクトを例に見ていきましょう。
()
データ分析の初歩から学んでいく連載(確率分布編)の第8回。t分布は母分散が分からない場合の平均値に関連する分布です。中心極限定理を出発点とし、正規分布と比較しながらt分布の姿を明らかにしていきます。続けて、確率密度関数や累積分布関数の求め方や可視化の方法を解説し、利用例などを紹介します。
()
大小かかわらず、官民問わず、さまざまなプロジェクトが進行する中で、「予算内、期限内、とてつもない便益」という3拍子をそろえられるのは0.5%にすぎない。なぜなのか。
()
タイタニックデータセットを使って、欠損値の扱い方、不要な列の削除、カテゴリカルデータのエンコーディングなど、前処理の仕方を見ていきましょう。
()
グリッドと電気通信大学の共同提案「仮想発電所受給調整におけるリスクヘッジ型量子古典確率最適化手法の開発」が、新エネルギー・産業技術総合研究所(NEDO)のプロジェクトに採択された。
()