Информация про датафрейм

Как вывести полную информацию про данные в таблице

import pandas as pd
dash_visits = pd.read_csv('https://eddydewrussia.ru/download/dash_visits/?wpdmdl=5230&masterkey=nLdyJ3VbW1PZ2e_TA4xbcsuZHTYHaoPLnQHpPVvTMozIw3dkLuxX5-CJKOi30tWiqjk_HX_E17pTlXEe1qE2IcJXZM099Ooh0bYFK4HBug4')
# функция для вывода информации о данных
def dataset_info(data):
    print('\033[1m' + 'Строки - полные дубликаты:' + '\033[0m')
    display(data[data.duplicated(keep=False)])
    print('\033[1m' + 'Названия колонок:' + '\033[0m')
    print(data.columns)
    print()
    print('\033[1m' + 'Первые строки:' + '\033[0m')
    display(data.head(3))
    print('\033[1m' + 'Информация о датафрэйм:' + '\033[0m')
    display(data.info())
    print('\033[1m' + "describe" + '\033[0m')
    display(data.describe())
    print('\033[1m' + "Количества и доли отсутствующих значений" + '\033[0m')
    display(pd.concat([data.isna().sum(), data.isna().mean()], axis=1)\
    .rename(columns={0:'кол-во', 1:'доля'})\
    .style.format({'кол-во':'{:.0f}', 'доля':'{:.2%}'}))
# применение функции
dataset_info(dash_visits)

Результат

Строки - полные дубликаты:
Unnamed: 0record_iditem_topicsource_topicage_segmentdtvisits
Названия колонок:
Index(['Unnamed: 0', 'record_id', 'item_topic', 'source_topic', 'age_segment',
       'dt', 'visits'],
      dtype='object')
Первые строки:
Unnamed: 0record_iditem_topicsource_topicage_segmentdtvisits
001040597ДеньгиАвто18-252019-09-24 18:32:003
111040598ДеньгиАвто18-252019-09-24 18:35:001
221040599ДеньгиАвто18-252019-09-24 18:54:004
Информация о датафрэйм:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30745 entries, 0 to 30744
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    30745 non-null  int64 
 1   record_id     30745 non-null  int64 
 2   item_topic    30745 non-null  object
 3   source_topic  30745 non-null  object
 4   age_segment   30745 non-null  object
 5   dt            30745 non-null  object
 6   visits        30745 non-null  int64 
dtypes: int64(3), object(4)
memory usage: 1.6+ MB
None
describe
Unnamed: 0record_idvisits
count30745.000003.074500e+0430745.000000
mean15372.000001.055969e+0610.089673
std8875.461358.875461e+0319.727601
min0.000001.040597e+061.000000
25%7686.000001.048283e+061.000000
50%15372.000001.055969e+063.000000
75%23058.000001.063655e+0610.000000
max30744.000001.071341e+06371.000000
Количества и доли отсутствующих значений
 кол-водоля
Unnamed: 000.00%
record_id00.00%
item_topic00.00%
source_topic00.00%
age_segment00.00%
dt00.00%
visits00.00%

pandas python dataframe

Статья понравилась?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *