soffice --headless --convert-to txt:text *.html
Ubuntu でも、MacOSX の textutil のようなコマンドが使いたいと思っていた。
つまり、
textutil -convert txt *doc
textutil -convert txt *htmlのようなことがしたかったわけだ。
Convert various text file formats in the OS X Terminal with textutil
いろいろ探して、
などを試してみた。
- pandoc
- unoconv
- w3m ref_01_sermon.html > ref_01_sermon.txt
(1) pandoc は、元ファイルが「.doc」に対応していない?
(2) unoconv は、元ファイルが「.html」に対応していない?
(3) ちょっとひねって、w3m は、もちろん、元ファイルが「.html」に対応しているんだけど、一度に複数のファイルを変換するやり方がよく分からなかった。
for t in *html; do w3m > *txt; done
とか、やってもダメだった。
ここらあたりが、今の私の力の限界なので、悩んでいたところ、なんと! LibereOffice をターミナルからコマンドとして使えるということが分かった。「soffice」というものらしい。
soffice --headless --convert-to txt:text *.htmlというコマンドで、一応、複数ファイルを一度に、html から txt に変換することができた。良かった。
でも、なぜか、ちょっと遅いね。試したパソコンが MacBook1,1 (mid 2006) だからかな?
また、textutil に比べて、コマンドが分かりにくいな。
もう少し研究してみる必要があるかもね。
No comments:
Post a Comment