Thursday, February 9, 2017

soffice, 複数の hmtl ファイルを txt に変換できた

soffice --headless --convert-to txt:text *.html

Ubuntu でも、MacOSX の textutil のようなコマンドが使いたいと思っていた。

つまり、
textutil -convert txt *doc
textutil -convert txt *html
のようなことがしたかったわけだ。
Convert various text file formats in the OS X Terminal with textutil


いろいろ探して、
  1. pandoc 
  2. unoconv 
  3. w3m ref_01_sermon.html > ref_01_sermon.txt
などを試してみた。

(1) pandoc は、元ファイルが「.doc」に対応していない?

(2) unoconv は、元ファイルが「.html」に対応していない?

(3) ちょっとひねって、w3m は、もちろん、元ファイルが「.html」に対応しているんだけど、一度に複数のファイルを変換するやり方がよく分からなかった。
for t in *html; do w3m > *txt; done
とか、やってもダメだった。


ここらあたりが、今の私の力の限界なので、悩んでいたところ、なんと! LibereOffice をターミナルからコマンドとして使えるということが分かった。「soffice」というものらしい。

soffice --headless --convert-to txt:text *.html
というコマンドで、一応、複数ファイルを一度に、html から txt に変換することができた。良かった。

でも、なぜか、ちょっと遅いね。試したパソコンが MacBook1,1 (mid 2006) だからかな?

また、textutil に比べて、コマンドが分かりにくいな。

もう少し研究してみる必要があるかもね。

No comments:

Post a Comment