xdoc2txt - バイナリ文書からテキスト要素を抽出

| | コメント(0) | トラックバック(0)

DOSコマンドプロンプト上で利用するCUIタイプのアプリケーション。

例えば下記のオプションをつけて実行すると、ファイルに保存することができます。

C:\> xdoc2txt -f sample.doc > sample.txt

また、ワイルドカード(*)を利用して、複数ファイルの一括テキスト化も可能です。

C:\> xdoc2txt -f *.doc

以下のオプションが利用可能です。

xdoc2txt.exe [-s|-e|-j][-c][-f][-p][-n][-r=(0|1|2)]
-h ヘルプの表示
-s 出力のエンコードはShiftJIS(デフォルト)
-j 出力のエンコードはJIS
-s 出力のエンコードはEUC
-c PDFキャッシュ on(デフォルトはoff)
-f 変換結果をファイルに出力。デフォルトでは標準出力に出力
-p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効)
-n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)
-r= HTML文書のルビの変換
-r=0 ルビ削除
-r=1 ()
-r=2 《》青空文庫形式
-o= その他のオプション
-o=0 PDFで -- ? -- の形式のページ番号を表示しない
-o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
変換元のファイル名。ワイルドカード文字(* ?)が使用可。
※空白を含むファイル名の場合、""で囲ってください。

xdoc2txtから引用

xdoc2txt

xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータです。

カテゴリ

トラックバック(0)

このブログ記事を参照しているブログ一覧: xdoc2txt - バイナリ文書からテキスト要素を抽出

このブログ記事に対するトラックバックURL: http://driftwood.chillout.jp/admin/mt/mt-tb.cgi/1112

コメントする

このブログ記事について

このページは、dwが2007年6月14日 15:29に書いたブログ記事です。

ひとつ前のブログ記事は「Amazon アフィリエイトリンクを作成する」です。

次のブログ記事は「Firebug - Web開発者の必須デバッグツール」です。

最近のコンテンツはインデックスページで見られます。過去に書かれたものはアーカイブのページで見られます。

ADs by Google

Powered by Movable Type 4.22-ja
CSS Nite LP, Disk 6「CMSリベンジ編」(2009年6月27日開催)  

ADs by Amazon