json」タグアーカイブ

bookmarks.json 重複URIの削除

Mozilla Firefoxのbookmarkの解析を進めているのだが、今回は重複したURIの削除を行いたい。すべてのブックマークで表れる、エディターで手動でも行えるのだが。フォルダー毎に行うのと、重複が多いので手動では時間がかかる。bookmarks.jsonの解析を進めるのを兼ねて、スクリプトで行なってみる。jsonが扱いやすく、配列処理のコマンドがそろっているphpを使用している。
Firefoxからバックアップして出力させたbookmarks.jsonファイルを読み出して配列に代入し、その配列で処理を行いbookmarks.jsonのファイルを出力する。Firefoxで編集されたそのファイルを復元するで読み込ませて正常に表示できて、重複が消えていれば成功である。

今までやってきたこと。bookmarks.jsonの解析。phpでの配列への代入。それをファイルへ出力し編集。jsonファイルは直接編集しづらい。編集したファイルをbookmarks.jsonに変換しFirefoxde復元でbookmarkとして読み込ませた。

ここまではできる。

これからは配列から、別の配列にURIを代入し重複したURIを見つける。もとの配列から重複した配列を削除し、jsonファイルにする。ここまで行いたい。

json そして再び csv化 

http://blog.appliedinformaticsinc.com/how-to-parse-and-convert-json-to-csv-using-python/
まだjsonとの格闘が続いている。既に抽出まではクリアしたが、その後やってない。
上のリンクはHow To Parse and Convert JSON to CSV using Python
pythonライブラリを使ってcsv化している。phpより簡単か?やっぱ時代はpythonか?

暇な時やってみよ。それより先の方法での抽出後、csvしlibreで読みこみ編集ぐにゅぐにゅ、sqliteでもやりたいんじゃ!

bookmarks.json PHPの 連想配列 キー 取得 ネスト された配列を再帰を使って取り出してみた

このjsonを解析するとarrayとobjectとstringが混ざっているんで、どう処理したらいいかと。再帰を使ってやってみた。
一応抽出するとこまではできたかな。

jsonのデコード オブジェクト型

https://syncer.jp/how-to-use-json
によると、jsonのデコード オブジェクト型らしい
よくわからん
http://qiita.com/IganinTea/items/de6201fe860a65e192a1
によると
「配列であるか」が判定できるようだ。これ使えるかもね。
http://www.atmarkit.co.jp/ait/articles/1404/16/news044_2.html
なんとなく
http://php-beginner.com/reference/typearray/func_array.html
ふむふむ
http://qiita.com/mmusasabi/items/4b7d2f27bd4604bfc17f
えーっと $memberって

再帰しないとだめかな
http://www.shigemk2.com/entry/20120509/1336555886
これよさそう

Firefoxのbookmarks.jsonが書式が後付だった気がする

解析をすすめるうち、 [“annos”]=>があるのが分かるのだが、おまけの部分をここに記述してるな。 [“name”]=> [“flags”]=>[“expires”]=> [“value”]=>とあり、feedの場合それが2相か3相用意されてる。
descriptionの場合は1相だけ使ってる。[“name”]=>string(30) “bookmarkProperties/description”のように。
feedの場合 [“annos”]=>array(2) で{ [“name”]=>string(16) “livemark/feedURI”
[“annos”]=>array(3) {[“name”]=>string(16) “livemark/feedURI”[“name”]=>string(16)”livemark/siteURI”[“name”]=>string(24) “placesInternal/READ_ONLY”
の場合もある。
annosは要注意だね。そこを解析してからでないと。集計は難しいかな。

または。bookmark.htmlの方でやるか。

どうする?

phpの配列とは? ここでの配列は?そこから入っていかないとならんな
まずは配列の数

途中で配列の配列と混合してるがどうするか

Bookmark json の処置 編集をjsonにそして戻す

firefoxの肥大化したbookmarkをjsonで書出し、データを抽出、余計なもの。要らないとこや重複を削除したい。関連度によって並び分けも自動である程度行いたい。最後はブラウザに戻すわけ。

phpで抽出は行ったんで。テストはまだだが。pythonでも書いてみたいな。次はデータベースに入れて、クローラで収集、関連付けだね。

https://gist.github.com/jayrambhia/1719957
pythonはこれ?違うか
https://linuxfreelancer.com/extract-bookmarks-or-favorites-from-your-firefox-browser こっちがいいか
http://code.activestate.com/recipes/579077-bookmarks-browser-for-firefox/
ここもいいな。pythonは検索に多くひっかかるな。最初からpythonが良かったかな。

http://stackoverflow.com/questions/1955505/parsing-json-with-unix-tools
これはいいかも

Firefoxのブックマークのバックアップのjson

ブックマークのバックアップはjsonの形式で出力されている。phpで取り出してみる。childrenで階層になっているので、それも全部抜き出している。7階層まで取り出し、そこまで内包してなかった。