トップページへ

キーワードの周辺の文字を抽出・スキミングプログラム

Access Count : 1432

 ダウンロードのリンクは、一番下のセクションの前の方配置してあります。
 ソースプログラムへのリンクも配置してあります。

 Update : 2021.03.16.tue.

ご使用上のご注意


 悪意のあるコードはプログラムしていませんが、本プログラムのご利用によって生じた結果について、一切責任を負いません。
 ご了承ください。
 ご了承の上、本プログラムをご利用ください。

<注意>
 対応OSは、Windows 10です。


 本プログラムが正常に動作するためには、処理対象ファイルがプレーンテキストファイルであり、なおかつ、、ShiftJIS・ANSI、のコード体系で保存されている必要があります。
 UTF8など、ほかのコード体系のファイルに本プログラムがアクセスすると、本プログラムは異常終了します。

本プログラムのご説明


<説明>
 本プログラムは、スキミング処理を行います。
 つまり、キーワードとその周辺の文字を抽出してファイルに出力します。
 処理対象ファイルは、1ファイルのみの指定となります。
 本プログラムでは、前後100文字までを抽出するのか前後200文字までを抽出するのかなどの指定ができます。
 キーワードの指定は1語のみで、コマンドラインで指定してください。
 ですから、たとえば、コマンドラインに下記のようにタイプ入力します。
Tskimmingcc1 c:\Nikki01\NIKKI001SJIS.TXT 200 左右
 Tskimmingcc1が、本プログラム名です。
 c:\Nikki01\NIKKI001SJIS.TXTが処理対象ファイル名です。
 200が、前後何文字までを抽出するかの指定です。
 左右が、キーワードの指定です。


 本プログラムでの、処理対象のテキストファイルは、まず、プレーンテキストファイルであること、なおかつ、ShiftJIS・ANSI、のコード体系で保存されていること。
 以上が必要です。
 コマンドプロンプトを起動して、実行します。
 コマンドプロンプトに、chcp 932を入力して、コードページをShiftJISに設定します。
 コマンドプロンプトから、Tskimmingcc1 処理対象ファイル名 前後抽出文カウント キーワード、を入力してください。
 たとえば、コマンドプロンプトに、
Tskimmingcc1 c:\Nikki01\NIKKI001SJIS.TXT 200 左右
と入力します。そして、Enterキーを押すと、プログラムが起動します。
 処理対象ファイルが存在していて、プレーンテキストファイルでShift-JISコードであれば、スキミング処理が行われます。
 この例の場合、キーワード"左右"が存在している文を探し、その文とその前後の200文字が抽出されます。
 上記の例では、基本的には、"左右"を含む文とその前後の200文字ずつの402文字が抽出されます。  そして、それに続けて、改行文字4個が出力されます。なお、各抽出情報の手前の行には、抽出番号が#$&につづけて出力されます。さらに次の行には、first hit line : に続けて、抽出文の中で最初に検出されたキーワードの検出行数が出力されます。
 以上のようにして、処理対象ファイルの先頭から順に、キーワードとその前後200文字を、出力・抽出、し、そして、改行文字4個を続けて出力します。
 なお、出力ファイルの先頭には、『対象ファイル : c:\Nikki01\NIKKI001SJIS.TXT』が出力され、その次の行に『KeyWord : 左右』が出力され、その次の行には、『前後 200 文字抽出』が出力されます。そのあとに、抽出件数とキーワードの検出行数の情報を付加した上で、キーワード検索に基づいてその周辺の文字が、改行文字4個で区切られながら順次、出力されてゆきます。
 出力ファイル名は、skimmingccで始まり、日付を含み、そして時間に由来する数字などからなる名前です。ファイルタイプ名は、.TXTです。
 具体的には、たとえば、skimmingcc2021-02-1737421.3375005s.TXT、というような名前になります。
 なお、キーワードの後続の200文字以内に、さらにキーワードが存在していた場合には、そのキーワードから後続の200文字までの抽出となります。
 ですから、"左右"の後続の200文字以内に"左右"が含まれていたなら、その新たに検出された"左右"のあとの200文字までの抽出です。その範囲内にもキーワードが含まれていたなら、さらにその新たに検出されたキーワードのあと200文字までの検出です。以下同様に進めます。
 そして、それに続けて、改行文字4個が出力されます。また、各抽出ごとに、その先頭に抽出番号が付記されます。抽出番号の前には、#$&が付加されます。さらに次の行には、first hit line : に続けて、キーワードの検出行数が出力されます。
 以上のようにして、処理対象ファイルの先頭から順に、キーワードとその前後200文字を、出力・抽出、し、そして、それに続けて、改行文字4個が出力されます。
 なお、出力ファイルの先頭には、『対象ファイル : c:\Nikki01\NIKKI001SJIS.TXT』『KeyWord : 左右』が出力され、その次の行には、『前後 200 文字抽出』が出力されます。そのあとに、抽出件数とキーワードの検出行数の情報を付加した上で、キーワード検索に基づいてその周辺の文字が行文字4個で区切られながら順次、出力されてゆきます。
 出力ファイル名は、skimmingccで始まり、日付を含み、そして時間に由来する数字などからなる名前です。ファイルタイプ名は、.TXTです。
 具体的には、たとえば、skimmingcc2021-02-1737421.3375005s.TXT、というような名前になります。


ダウンロード

Update : 2021.03.16.tue.
フリーウェア・無料、です。
    Tskimmingcc1.exe
Windows 10 対応
Author : TADASHI TAKEHANA
Program Size : 23,354,894 bytes
Version : 1.00.

 ダウンロードしましたら、『ダウンロード』フォルダーに、Tskimmingcc1.exeがあるかと思います。
 たとえば、ユーザー名をTakehanaと設定している場合。
 まず、エクスプローラーで、『ダウンロード』フォルダーを開いて、Tskimmingcc1.exeをコピーします。
 エクスプローラーで、『PC』をクリックし、『C:』をWクリックし、『ユーザー』をWクリックし、『Takehana』をWクリックして、コピーしたTskimmingcc1.exeを貼り付けます。
 コマンドプロンプトを起動します。
 プロンプトが、C:\Users\Takehana>となっていなければ、次のコマンドを実行します。
cd c:\Users\Takehanaとタイプ入力して、リターンを押します。
 これで、プロンプトが、C:\Users\Takehana>になります。
 これで、カレントフォルダーが、本プログラムTskimmingcc1.exeの存在するフォルダーになりました。
 そこで、たとえば、
Tskimmingcc1 c:\Nikki01\NIKKI150SJIS.TXT 200 左右
とタイプ入力して、リターンキーを押せば、c:\Nikki01\NIKKI150SJIS.TXTテキストファイルを処理対象にして、本プログラムが実行されます。