キーワードの周辺の文字を抽出・スキミングプログラム

Access Count : 1432

　ダウンロードのリンクは、一番下のセクションの前の方配置してあります。
　ソースプログラムへのリンクも配置してあります。

　Update : 2021.03.16.tue.

ご使用上のご注意

　悪意のあるコードはプログラムしていませんが、本プログラムのご利用によって生じた結果について、一切責任を負いません。
　ご了承ください。
　ご了承の上、本プログラムをご利用ください。

＜注意＞
　対応OSは、Windows 10です。

　本プログラムが正常に動作するためには、処理対象ファイルがプレーンテキストファイルであり、なおかつ、、ShiftJIS・ANSI、のコード体系で保存されている必要があります。
　UTF8など、ほかのコード体系のファイルに本プログラムがアクセスすると、本プログラムは異常終了します。

本プログラムのご説明

＜説明＞
　本プログラムは、スキミング処理を行います。
　つまり、キーワードとその周辺の文字を抽出してファイルに出力します。
　処理対象ファイルは、1ファイルのみの指定となります。
　本プログラムでは、前後100文字までを抽出するのか前後200文字までを抽出するのかなどの指定ができます。
　キーワードの指定は1語のみで、コマンドラインで指定してください。
　ですから、たとえば、コマンドラインに下記のようにタイプ入力します。
Tskimmingcc1 c:\Nikki01\NIKKI001SJIS.TXT 200 左右
　Tskimmingcc1が、本プログラム名です。
　c:\Nikki01\NIKKI001SJIS.TXTが処理対象ファイル名です。
　200が、前後何文字までを抽出するかの指定です。
　左右が、キーワードの指定です。

　本プログラムでの、処理対象のテキストファイルは、まず、プレーンテキストファイルであること、なおかつ、ShiftJIS・ANSI、のコード体系で保存されていること。
　以上が必要です。
　コマンドプロンプトを起動して、実行します。
　コマンドプロンプトに、chcp 932を入力して、コードページをShiftJISに設定します。
　コマンドプロンプトから、Tskimmingcc1 処理対象ファイル名　前後抽出文カウント　キーワード、を入力してください。
　たとえば、コマンドプロンプトに、
Tskimmingcc1 c:\Nikki01\NIKKI001SJIS.TXT 200 左右
と入力します。そして、Enterキーを押すと、プログラムが起動します。
　処理対象ファイルが存在していて、プレーンテキストファイルでShift-JISコードであれば、スキミング処理が行われます。
　この例の場合、キーワード"左右"が存在している文を探し、その文とその前後の200文字が抽出されます。
　上記の例では、基本的には、"左右"を含む文とその前後の200文字ずつの402文字が抽出されます。　そして、それに続けて、改行文字4個が出力されます。なお、各抽出情報の手前の行には、抽出番号が#$&につづけて出力されます。さらに次の行には、first hit line : に続けて、抽出文の中で最初に検出されたキーワードの検出行数が出力されます。
　以上のようにして、処理対象ファイルの先頭から順に、キーワードとその前後200文字を、出力・抽出、し、そして、改行文字4個を続けて出力します。
　なお、出力ファイルの先頭には、『対象ファイル : c:\Nikki01\NIKKI001SJIS.TXT』が出力され、その次の行に『KeyWord : 左右』が出力され、その次の行には、『前後 200 文字抽出』が出力されます。そのあとに、抽出件数とキーワードの検出行数の情報を付加した上で、キーワード検索に基づいてその周辺の文字が、改行文字4個で区切られながら順次、出力されてゆきます。
　出力ファイル名は、skimmingccで始まり、日付を含み、そして時間に由来する数字などからなる名前です。ファイルタイプ名は、.TXTです。
　具体的には、たとえば、skimmingcc2021-02-1737421.3375005s.TXT、というような名前になります。
　なお、キーワードの後続の200文字以内に、さらにキーワードが存在していた場合には、そのキーワードから後続の200文字までの抽出となります。
　ですから、"左右"の後続の200文字以内に"左右"が含まれていたなら、その新たに検出された"左右"のあとの200文字までの抽出です。その範囲内にもキーワードが含まれていたなら、さらにその新たに検出されたキーワードのあと200文字までの検出です。以下同様に進めます。
　そして、それに続けて、改行文字4個が出力されます。また、各抽出ごとに、その先頭に抽出番号が付記されます。抽出番号の前には、#$&が付加されます。さらに次の行には、first hit line : に続けて、キーワードの検出行数が出力されます。
　以上のようにして、処理対象ファイルの先頭から順に、キーワードとその前後200文字を、出力・抽出、し、そして、それに続けて、改行文字4個が出力されます。
　なお、出力ファイルの先頭には、『対象ファイル : c:\Nikki01\NIKKI001SJIS.TXT』『KeyWord : 左右』が出力され、その次の行には、『前後 200 文字抽出』が出力されます。そのあとに、抽出件数とキーワードの検出行数の情報を付加した上で、キーワード検索に基づいてその周辺の文字が行文字4個で区切られながら順次、出力されてゆきます。
　出力ファイル名は、skimmingccで始まり、日付を含み、そして時間に由来する数字などからなる名前です。ファイルタイプ名は、.TXTです。
　具体的には、たとえば、skimmingcc2021-02-1737421.3375005s.TXT、というような名前になります。

ダウンロード

Update : 2021.03.16.tue.
フリーウェア・無料、です。
　　　　Tskimmingcc1.exe
Windows 10 対応
Author : TADASHI TAKEHANA
Program Size : 23,354,894 bytes
Version : 1.00.

　ダウンロードしましたら、『ダウンロード』フォルダーに、Tskimmingcc1.exeがあるかと思います。
　たとえば、ユーザー名をTakehanaと設定している場合。
　まず、エクスプローラーで、『ダウンロード』フォルダーを開いて、Tskimmingcc1.exeをコピーします。
　エクスプローラーで、『PC』をクリックし、『C:』をWクリックし、『ユーザー』をWクリックし、『Takehana』をWクリックして、コピーしたTskimmingcc1.exeを貼り付けます。
　コマンドプロンプトを起動します。
　プロンプトが、C:\Users\Takehana>となっていなければ、次のコマンドを実行します。
cd c:\Users\Takehanaとタイプ入力して、リターンを押します。
　これで、プロンプトが、C:\Users\Takehana>になります。
　これで、カレントフォルダーが、本プログラムTskimmingcc1.exeの存在するフォルダーになりました。
　そこで、たとえば、
Tskimmingcc1 c:\Nikki01\NIKKI150SJIS.TXT 200 左右
とタイプ入力して、リターンキーを押せば、c:\Nikki01\NIKKI150SJIS.TXTテキストファイルを処理対象にして、本プログラムが実行されます。