[Windows XP] xdoc2txt: バイナリ文書からテキスト要素を抽出

DOSコマンドプロンプト上で利用するCUIタイプのアプリケーション。

例えば下記のオプションをつけて実行すると、ファイルに保存することができます。

C:\>  xdoc2txt -f sample.doc > sample.txt

また、ワイルドカード(*)を利用して、複数ファイルの一括テキスト化も可能です。

C:\>  xdoc2txt -f *.doc

以下のオプションが利用可能です。

xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)] <filename…>
-h ヘルプの表示
-s 出力のエンコードはShiftJIS(デフォルト)
-j 出力のエンコードはJIS
-s 出力のエンコードはEUC
-c PDFキャッシュ on(デフォルトはoff)
-f 変換結果をファイルに出力。デフォルトでは標準出力に出力
-p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効)
-n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)
-r= HTML文書のルビの変換
-r=0 ルビ削除
-r=1 ()
-r=2 《》青空文庫形式
-o= その他のオプション
-o=0 PDFで — ? — の形式のページ番号を表示しない
-o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
変換元のファイル名。ワイルドカード文字(* ?)が使用可。
※空白を含むファイル名の場合、””で囲ってください。

xdoc2txtから引用

xdoc2txt
xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータです。