トップページへ

キーワードの周辺の文を抽出・スキミングプログラム

Access Count : 1453

 ダウンロードのリンクは、一番下のセクションの前の方配置してあります。
 ソースプログラムへのリンクも配置してあります。

 Update : 2021.03.16.tue.

ご使用上のご注意


 悪意のあるコードはプログラムしていませんが、本プログラムのご利用によって生じた結果について、一切責任を負いません。
 ご了承ください。
 ご了承の上、本プログラムをご利用ください。

<注意>
 対応OSは、Windows 10です。


 本プログラムが正常に動作するためには、処理対象ファイルがプレーンテキストファイルであり、なおかつ、、ShiftJIS・ANSI、のコード体系で保存されている必要があります。
 UTF8など、ほかのコード体系のファイルに本プログラムがアクセスすると、本プログラムは異常終了します。

本プログラムのご説明


<説明>
 本プログラムは、スキミング処理を行います。
 つまり、キーワードを含む文とその周辺の文を抽出してファイルに出力します。
 処理対象ファイルは、1ファイルのみの指定となります。
 本プログラムでは、前後2文までを抽出するのか前後4文までを抽出するのかなどの指定ができます。
 キーワードの指定は1語のみで、コマンドラインで指定してください。
 ですから、たとえば、コマンドラインに下記のようにタイプ入力します。
Tskimming1 c:\Nikki01\NIKKI001SJIS.TXT 2 左右
 Tskimming1が、本プログラム名です。
 c:\Nikki01\NIKKI001SJIS.TXTが処理対象ファイル名です。
 2が、前後何文までを抽出するかの指定です。
 左右が、キーワードの指定です。


 本プログラムでの、処理対象のテキストファイルは、まず、プレーンテキストファイルであること、なおかつ、ShiftJIS・ANSI、のコード体系で保存されていること。
 以上が必要です。
 コマンドプロンプトを起動して、実行します。
 コマンドプロンプトに、chcp 932を入力して、コードページをShiftJISに設定します。
 コマンドプロンプトから、Tskimming1 処理対象ファイル名 前後抽出文カウント キーワード、を入力してください。
 たとえば、コマンドプロンプトに、
Tskimming1 c:\Nikki01\NIKKI001SJIS.TXT 2 左右
と入力します。そして、Enterキーを押すと、プログラムが起動します。
 処理対象ファイルが存在していて、プレーンテキストファイルでShift-JISコードであれば、スキミング処理が行われます。
 この例の場合、キーワード"左右"が存在している文を探し、その文とその前後の2文が抽出されます。
 なお、文は、句点まで、もしくは、改行文字までです。どちらか先に現われたところで、1文となります。ただし、句点に続いて改行文字の場合には、2文とはせずに、1文として扱います。
 上記の例では、基本的には、"左右"を含む文とその前後の2文ずつの5文が抽出されます。そして続けて、改行文字4個が出力されます。
 なお、"左右"を含む文が見つかったら、この例の場合なら、その手前の2文が出力され、そして"左右"を含む文が出力され、さらに後続の2文を出力するわけですが、後続の2文の中にさらにキーワードが見つかった場合。その場合には、順次、新たに見つかったキーワードを含む文から、あと2文までを出力します。
 ですから、"左右"を含む文の次の次の文にも"左右"が含まれていたなら、そもそもの"左右"を含んでいた文の手前の2文と、含んでいた1文と、そのあとの2文と、そしてその2文目にさらに"左右"が含まれていたので、そこからさらに2文、合計7文が出力されます。
 そして、それに続けて、改行文字4個が出力されます。また、各抽出ごとに、その先頭に抽出番号が付記されます。抽出番号の前には、#$&が付加されます。またその次の行には、first hit line : に続けて、抽出文の中で最初に検出されたキーワードの検出行数を出力します。
 以上のようにして、処理対象ファイルの先頭から順に、キーワードを含む文とその前後2文を、出力・抽出、し、そして改行文字4個を続けて出力します。
 なお、出力ファイルの先頭には、『対象ファイル : c:\Nikki01\NIKKI001SJIS.TXT』『KeyWord : 左右』が出力され、その次の行には、『前後 2 文抽出』が出力されます。そのあとに、検出件数と検出行数の情報が付加された上で、キーワード検索に基づいてその周辺の文が、改行文字4個で区切られながら順次、出力されてゆきます。
 出力ファイル名は、skimmingで始まり、日付を含み、そして時間に由来する数字などからなる名前です。ファイルタイプ名は、.TXTです。
 具体的には、たとえば、skimming2021-02-1737421.3375005s.TXT、というような名前になります。


ダウンロード

Update : 2021.03.16.tue.
フリーウェア・無料、です。
    Tskimming1.exe
Windows 10 対応
Author : TADASHI TAKEHANA
Program Size : 16,761,864 bytes
Version : 1.00.

 ダウンロードしましたら、『ダウンロード』フォルダーに、Tskimming1.exeがあるかと思います。
 たとえば、ユーザー名をTakehanaと設定している場合。
 まず、エクスプローラーで、『ダウンロード』フォルダーを開いて、Tskimming1.exeをコピーします。
 エクスプローラーで、『PC』をクリックし、『C:』をWクリックし、『ユーザー』をWクリックし、『Takehana』をWクリックして、コピーしたTskimming1.exeを貼り付けます。
 コマンドプロンプトを起動します。
 プロンプトが、C:\Users\Takehana>となっていなければ、次のコマンドを実行します。
cd c:\Users\Takehanaとタイプ入力して、リターンを押します。
 これで、プロンプトが、C:\Users\Takehana>になります。
 これで、カレントフォルダーが、本プログラムTskimming1.exeの存在するフォルダーになりました。
 そこで、たとえば、
Tskimming1 c:\Nikki01\NIKKI150SJIS.TXT 2 左右
とタイプ入力して、リターンキーを押せば、c:\Nikki01\NIKKI150SJIS.TXTテキストファイルを処理対象にして、本プログラムが実行されます。