目次:
- SciPyを使用した科学ツールへのアクセス
- クラスタリング
- モデル選択
- matplotlibライブラリMATLABのようなインターフェイスを使用して、実行する分析のデータプレゼンテーションを作成します。ライブラリは現在2D出力に限定されていますが、解析したデータに表示されるデータパターンをグラフィカルに表現する手段を提供します。このライブラリがなければ、データサイエンスコミュニティ以外の人々が容易に理解できる出力を作成することはできませんでした。
ビデオ: データサイエンス・アドベンチャー杯「本選」 2024
Pythonでデータサイエンスタスクを実行するには、ライブラリをロードする必要があります。ここでは、データサイエンスに使用できるライブラリの概要を示します。これらのライブラリは、データ科学者に複数の機能を実行することができます。
SciPyを使用した科学ツールへのアクセス
SciPyスタックには、別途ダウンロードできる他のライブラリが多数含まれています。これらのライブラリは、数学、科学、工学のサポートを提供します。 SciPyを入手すると、さまざまな種類のアプリケーションを作成するために一緒に働くように設計された一連のライブラリが用意されています。これらのライブラリは
<! SciPyライブラリ自体は、数値積分と最適化のためのルーチンなどの数値ルーチンに焦点を当てています(図9参照)。 。 SciPyは、複数の問題領域の機能を提供する汎用ライブラリです。また、Scikit-learn、Scikit-image、statsmodelsなどのドメイン固有のライブラリもサポートしています。-
<! NumPyを使用した基本的な科学計算の実行NumPyライブラリは、データサイエンスの作業に不可欠なn次元配列操作を実行する手段を提供します。線形代数、フーリエ変換、乱数生成のサポートを含むNumPy関数を使用しないと、n次元配列に簡単にアクセスできませんでした。
-
パンダを使ってデータ分析を行う
-
<! - 3 - >
-
pandasライブラリは、データ構造とデータ解析ツールをサポートします。このライブラリは、特に迅速かつ効率的にデータサイエンスタスクを実行するように最適化されています。パンダの基本原理は、Rなどの他の言語に似た、Pythonのデータ解析とモデリングのサポートを提供することです。
-
Scikitを使った機械学習の実装
-
Scikit学習ライブラリは、 ScikitライブラリはNumPyとSciPyが提供する機能をベースにしており、Python開発者はドメイン固有のタスクを実行できます。この場合、ライブラリはデータマイニングとデータ分析に重点を置いています。
Classification
回帰クラスタリング
次元削減
モデル選択
前処理matplotlibを使用してデータをプロットする
matplotlibライブラリMATLABのようなインターフェイスを使用して、実行する分析のデータプレゼンテーションを作成します。ライブラリは現在2D出力に限定されていますが、解析したデータに表示されるデータパターンをグラフィカルに表現する手段を提供します。このライブラリがなければ、データサイエンスコミュニティ以外の人々が容易に理解できる出力を作成することはできませんでした。
美しいスープを使ったHTML文書の解析
-
美しいスープの図書館のダウンロードは、実際にはPythonのWebサイトにあります。このライブラリは、Pythonが理解できるようにHTMLまたはXMLデータを解析する手段を提供します。ツリーベースのデータを扱うことができます。
-
ツリーベースのデータを扱う手段を提供するだけでなく、Beautiful SoupはHTML文書の処理に多くの労力を費やします。たとえば、HTMLドキュメントの
-
エンコーディング
-
(文字がドキュメントに格納される方法)をUTF-8からUnicodeに自動的に変換します。 Python開発者は通常、エンコーディングのようなことについて心配する必要がありますが、Beautiful Soupではコードに集中することができます。