よちよちpython

独習 python/Qpython/Pydroid3/termux/Linux

Android上のtermuxからコマンドでWebページをテキスト化するテスト

Webページを簡単にテキストファイルに出来ないかな?

色んなやり方があるとは思いますが、以下の方法でやってみます。

【使ったもの】

テキストベースのブラウザw3mで出力されるテキストを、リダイレクトでファイルに出力する方法です。

$ w3m ページのurl > ファイル名

うほ、一行で出来る。


【手順】

まずはtermuxからWebブラウザw3m」をインストールします。

$ pkg install w3m

w3mはテキストのみで表示するシンプルなブラウザです。
今回の方法ではわざわざブラウザで開いてページを表示させる必要はありませんが、一応w3mの使い方としてはコマンドで

$ w3m https:なんとかかんとか

と引数にurlを与えてやれば文字だけでページが表示されます。
w3mを終了したいときはqを入力。

上記は一旦忘れまして、「指定したURL」Webページのテキストをコマンドとリダイレクトで「指定したファイル名」のテキストファイルで保存します。

例として、wiki.termux.comのw3mのインストール方法ページをテキストファイルにしてみます。

$ w3m https://wiki.termux.com/wiki/W3m > file1.txt

これでカレントディレクトリに「file1.txt 」が保存されます。

できたかな?確認

$ ls

中身はちゃんとテキストが入っているかな?

$ cat file1.txt

ファイルにはこんなのが書き込まれています。

Navigation menu                                                                         Toggle navigation Termux Wiki                                                           [                    ][Go]                    • Wiki                                          □ Recent changes                            □ Content Guidelines                        □ Login or Create Account                                                         W3m                                                                                     From Termux Wiki
以下略します

実際の本文は「Package: w3m」から「Install with pkg install w3m in Termux.」の部分で、それ以外はブラウザのメニューのテキストが付いてきてます。

以上です。