トップ「Data-processing」の質問

データ処理は、生データを機械可読形式に変換し、その後コンピューターで処理(保存、更新、再配置、印刷など)することを目的としています。

ファイルから選択した列のみをRに読み取る方法はありますか? ( `read.table`と` scan`の間の幸せな媒体?)

非常に大きな区切りデータファイルがいくつかあり、ファイル全体のdata.frameを作成するために時間とメモリを費やすことなく、Rの特定の列のみを処理したいと考えています。私が知っている唯一のオプションはread.tableこれは、数列だけが必要な場合は非常に無駄です。 scanは、必要なレベルに対して低すぎるようです。純粋なRを使用するか、他のシェルスクリプトを呼び出して列抽出を実行し、その出力でscanまたはread.tableを使用する、より良いオプションはありますか? (シェルスクリプトを呼び出してその出力を […] 続きを読む…

r data-processing read.table delimited

IQR で pandas フィルターを使用する方法は?

IQR (つまり、Q1-1.5IQR と Q3+1.5IQR の間の値) で列をフィルタリングする組み込みの方法はありますか? また、提案されたパンダの他の可能な一般化されたフィルタリングも高く評価されます。

python pandas data-processing iqr

大規模なデータ処理HbaseとCassandra

大規模なデータストレージソリューションを研究した後、私はカサンドラに着陸するところです。 しかし、一般的に、Hbaseは大規模なデータ処理と分析に適したソリューションであると言われています。両方とも同じキー/値ストレージであり、両方とも実行可能/実行可能ですが(Cassandra最近)Hadoopレイヤーでは、大きなデータで処理/分析が必要な場合にHadoopをより適切な候補にします。また、 http://ria101.wordpress.com/2010/02/24/hbase-vs-cassandra-why-we-moved/で両方の詳細を見つけましたしかし、私はまだHbaseの具体的な利点を探しています。ノードを追加するためのシンプルさとシームレスなレプリケーション、および単一障害点機能がないため、 […] 続きを読む…

nosql hadoop cassandra hbase data-processing

Rで欠落/不完全なデータを処理する-NAをマスクするが削除しない機能はありますか?

データ分析を目的としたDSLに期待されるように、Rは欠落した/不完全なデータを非常にうまく処理します。たとえば、次のようになります。多くのR関数にはna.rmフラグがあり、 TRUEに設定すると、NAが削除されます。>>> […] 続きを読む…

r missing-data data-processing

0のみまたは0のみを含むデータフレームから行を削除します

行にゼロを含む単一の列が含まれているかどうかに基づいてデータセットをフィルタリングできる関数をRで作成しようとしています。 さらに、すべての列でゼロの行のみを削除したい場合があります。また、これはそれが楽しくなるところです。 すべての列に数値が含まれているわけではなく、列の数は異なる場合があります。取得したい結果を使用して、データの一部をここに貼り付けようとしました。unfiltered: ID GeneName DU145small DU145total PC3small […] 続きを読む…

r filtering bioinformatics data-processing

Djangorequest.POSTのコンテンツを確認しています

私はrequest.POSTを介してデータを受け入れています:if request.method == 'POST': l = Location() data = l. […] 続きを読む…

django forms data-processing

Excel:「コマンドテキスト」で複数の値を送信する

「データ>接続>プロパティ>定義(タブ)>コマンドテキスト」にあり、次のものがあります。{Call SP_calculo_algo(?)} 現在、関数が持つ一意のパラメーターを介して1つの値のみを受け取る場合、誰かが私に言ったところによると、それは疑問符(?)の文字で表されます。2つの日付の間の範囲を参照するデータを返すSQLクエリがあるため、必要なのは関数を介して2つの値を送信することです。 例:開始日(パラメーター1)および終了日(パラメーター2)。手伝って頂けますか?

sql excel data-processing

cのファイルから特定のデータ列を読み取るにはどうすればよいですか?

みなさん、こんにちは。私はCプログラミングの初心者です。私はこの問題を抱えており、かなりの進歩なしにかなりの時間を費やしてきました。私の問題はこう述べられています:拡張子が(.msr)の一連のファイルがあります。これらのファイルには、日付、時刻、温度、圧力など、セミコロンで区切られた10を超えるパラメーターの測定値が含まれています。 データ値の例を以下に示します。2010-03-03 15:55:06; 8.01; 24.9; 14.52; 0.09; 84; 12.47; 2010-03-03 15:55:10; 31.81; 24.9; 14.51; 0.08; 82; 12.40; 2010-03-03 15:55:14; 45.19; 24.9; 14.52; 0.08; 86; 12.32; 2010-03-03 15:55:17; 63.09; 24.9; 14.51; 0.07; 84; 12.24; 各ファイルの名前は […] 続きを読む…

c data-processing

Python Pandasは、値を反対の符号に置き換えます

一部のデータを「クリーンアップ」しようとしています。 私には負の値がありますが、そうすることはできません。 そして、負の値を対応する正の値に置き換えたいと思います。A | B | C -1.9 | -0.2 | 'Hello' 1.2 | 0.3 | 'World' これになりたいA | B | C 1.9 | 0.2 | […] 続きを読む…

python pandas data-processing

extを開始する機能を備えたシンプルなJavaベースのワークフローマネージャー/データワークフロー。 アプリケーション、Webサービスの呼び出しなど

まず第一に、stackoverflowに私のような質問がすでにある場合は、申し訳ありませんが、私はそれを見つけることができませんでした。 実際、必要なソリューションを検索するためにどのタグを使用できるかわかりません。基本的に、プロセス全体でいくつかのツール/アクションを使用してデータ(オブジェクト)フローを管理できるツール/ソフトウェアが必要です。 もちろん、既存のBPM /ワークフロープラットフォームツールの1つでそれを実行できる可能性がありますが、私の要件には複雑すぎるようです。JPA / Hibernateで構築された「静的」データモデルがあります。 次に、その静的モデルを変更して、さまざまな処理関数を使用する必要があります。 その関数は、いくつかのJavaクラス、Webサービス、または外部アプリケーション(バッチモードをサポートする)である可能性があります。 その後、これらの関数からの出力をキャッチし、視覚化、グラフの描画などを行う必要があります。これらの処理関数はすべて静的モデルにアクセスでき、特定のモデルに変更できるため、変更する必要はありません。それらに入力を渡します。 一方、それらの出力は、メインの「ワークフローマネージャー」によってキャッチされる必要があります。もう1つ、プロセス全体はユーザーの操作なしで自動的に実行される必要があります(将来変更される可能性がありますが、今のところ見てください)。 管理者は、プロセスを開始する前に、使用する「処理機能」を定義する必要があります。 そしてもう1つ...データベースの状態が変更されたときにプロセス全体がトリガーされた場合が最善ですが、それは重要ではありません。たとえば、Webサービスを呼び出すことで開始できます。問題は、jBPMやActivitiなどの既存のBPM /ワークフローツールの1つを使用するか、自分で単純な「ワークフローマネージャー」を作成するか、 […] 続きを読む…

java workflow dataflow data-processing