[python]pandasでデータの読み込み方法まとめ - おじさんAのプログラムメモ

まずはインポート

import pandas as pd

CSV, TSV

pd.reed_csv(filename, header=None, names=['A', 'B'], index_col='A', ...)
# filename以外は省略可能
# pd.reed_table()というメソッドもある。これは、sep=""パラメーターで区切り文字を指定できる。デフォルトはタブ

Excel

xls = pd.ExcelFile(filename)
df = xls.parse('sheet_name')

JSON

import json

json_data = json.loads(json_text)
name = json_data[0]['name']

XML

from lxml import objectify

parsed = objectify.parse(open(xml_file_name))
doc_root = parsed.getroot()
imgs = doc_root.findall('.//img')
src_list = x.get('src') for x in imgs

WEBページ

from lxml.html import parse
from urllib2 import urlopen

parsed = parse(urlopen(url))
doc = parsed.getroot()

WEB API

import requests

data = requests.get(url).text

データベース

import sqlite3
import pandas.io.sql as sql

con = sqlite3.connect('')
df = sql.read_frame("SELECT * FROM TABLE_NAME", con)

MongoDB

import pymongo

con = pymongo.Connection('localhost', port= 27017)
db = con.database_name
col = db.collection_name
for data in col.find({u'key':100}):
    print data